LongWriter: cette nouvelle IA capable de générer des textes de 10 000 mots

Les plus récentes versions des grands modèles de langage (LLM), comme GPT-4 (ChatGPT) ou Google Gemini, possèdent désormais la capacité de traiter un livre entier, voire plusieurs, en tant que contexte pour une requête. Cependant, les réponses générées restent généralement bien plus courtes, avec une limite maximale de 2 000 à 3 000 mots, et atteignent rarement cette limite. Cette évolution témoigne des avancées rapides de l’intelligence artificielle, bien que des défis subsistent toujours dans l’exploitation de tout son potentiel pour la génération de textes plus longs.

Dernièrement, des chercheurs de l’université Tsinghua en Chine ont récemment développé une nouvelle IA capable de produire des réponses beaucoup plus longues. Baptisée LongWriter, cette IA peut générer plus de 10 000 mots en une seule minute.

LongWriter-glm4-9b from @thukeg is capable of generating 10,000+ words at once!🚀

Paper identifies a problem with current long context LLMs — they can process inputs up to 100,000 tokens, yet struggle to generate outputs exceeding lengths of 2,000 words.

Paper proposes that an… pic.twitter.com/2jfKyIpShK
— Gradio (@Gradio) August 14, 2024

Tweet de Gradio concernant leur nouveau modèle

Ce que dit le tweet:

LongWriter-glm4-9b de @thukeg est capable de générer plus de 10 000 mots en une seule fois ! 🚀

L’article identifie un problème avec les LLM actuels qui disposent d’un long contexte : bien qu’ils puissent traiter des entrées allant jusqu’à 100 000 tokens, ils ont du mal à générer des sorties dépassant les 2 000 mots.

L’article propose que la longueur de génération effective d’un LLM est intrinsèquement limitée par les échantillons qu’il a vus lors du fine-tuning supervisé 😮

Il démontre que les LLM avec un long contexte ont déjà le potentiel pour une fenêtre de sortie plus large : il suffit d’utiliser des données avec des sorties étendues lors de l’alignement du modèle pour débloquer cette capacité.

Le code et les modèles sont publiés sous la licence Apache 2.0.

LongWriter est disponible en licence libre

Les chercheurs ont constaté que la longueur des textes générés est étroitement liée à la longueur des textes utilisés pour l’entraînement. Ils ont donc créé un jeu de données, nommé LongWriter-6k, composé de 6 000 textes d’une longueur comprise entre 2 000 et 32 000 mots. En entraînant l’IA sur ces textes, ils ont réussi à obtenir des réponses dépassant les 10 000 mots.

Leur article, disponible en prépublication, démontre que tous les modèles de langage disposant d’une large fenêtre de contexte pourraient générer des textes longs, à condition d’être entraînés sur ce format.

Ici le texte issu de leur article:

Current long context large language models (LLMs) can process inputs up to 100,000 tokens, yet struggle to generate outputs exceeding even a modest length of 2,000 words. Through controlled experiments, we find that the model’s effective generation length is inherently bounded by the sample it has seen during supervised fine-tuning (SFT). In other words, their output limitation is due to the scarcity of long-output examples in existing SFT datasets. To address this, we introduce AgentWrite, an agent-based pipeline that decomposes ultra-long generation tasks into subtasks, enabling off-the-shelf LLMs to generate coherent outputs exceeding 20,000 words. Leveraging AgentWrite, we construct LongWriter-6k, a dataset containing 6,000 SFT data with output lengths ranging from 2k to 32k words. By incorporating this dataset into model training, we successfully scale the output length of existing models to over 10,000 words while maintaining output quality. We also develop LongBench-Write, a comprehensive benchmark for evaluating ultra-long generation capabilities. Our 9B parameter model, further improved through DPO, achieves state-of-the-art performance on this benchmark, surpassing even much larger proprietary models. In general, our work demonstrates that existing long context LLM already possesses the potential for a larger output window–all you need is data with extended output during model alignment to unlock this capability. Our code & models are at: this https URL.

En résumé, les modèles de langage actuels peuvent traiter de très longues entrées, mais ont du mal à générer des textes dépassant 2 000 mots, en grande partie à cause de la rareté des exemples de longues sorties dans leur entraînement. Pour résoudre ce problème, les chercheurs ont développé AgentWrite, une méthode qui divise les tâches de génération longues en sous-tâches, permettant ainsi de produire des textes de plus de 20 000 mots. Ils ont aussi créé un nouvel ensemble de données, LongWriter-6k, pour entraîner les modèles à générer des textes plus longs, jusqu’à 10 000 mots et plus, tout en maintenant la qualité. Un benchmark, LongBench-Write, a été conçu pour évaluer ces capacités. Leur modèle a atteint des performances de pointe, démontrant que les modèles existants peuvent générer des textes beaucoup plus longs avec les données appropriées.

Ainsi, l’IA pourrait prochainement être capable de produire des articles de recherche, des scripts ou même des livres entiers à partir d’une simple requête. Les chercheurs ont publié leur code en libre accès sur GitHub.