Claire: Large Language Models for Spontaneous French Dialogue

Jérôme Louradour, Julie Hunter, Ismaïl Harrando, Guokan Shang, Virgile Rennard, Jean-Pierre Lorré


Abstract
Nous présentons la famille de modèles Claire, une collection de modèles de langage conçus pour améliorer les tâches nécessitant la compréhension des conversations parlées, tel que le résumé de réunions. Nos modèles résultent de la poursuite du pré-entraînement de deux modèles de base exclusivement sur des transcriptions de conversations et des pièces de théâtre. Aussi nous nous concentrons sur les données en français afin de contrebalancer l’accent mis sur l’anglais dans la plupart des corpus d’apprentissage. Cet article décrit le corpus utilisé, l’entraînement des modèles ainsi que leur évaluation. Les modèles, les données et le code qui en résultent sont publiés sous licences ouvertes, et partagés sur Hugging Face et GitHub.
Anthology ID:
2024.jeptalnrecital-taln.36
Volume:
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position
Month:
7
Year:
2024
Address:
Toulouse, France
Editors:
Mathieu Balaguer, Nihed Bendahman, Lydia-Mai Ho-dac, Julie Mauclair, Jose G Moreno, Julien Pinquier
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA and AFPC
Note:
Pages:
530–548
Language:
URL:
https://aclanthology.org/2024.jeptalnrecital-taln.36
DOI:
Bibkey:
Cite (ACL):
Jérôme Louradour, Julie Hunter, Ismaïl Harrando, Guokan Shang, Virgile Rennard, and Jean-Pierre Lorré. 2024. Claire: Large Language Models for Spontaneous French Dialogue. In Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position, pages 530–548, Toulouse, France. ATALA and AFPC.
Cite (Informal):
Claire: Large Language Models for Spontaneous French Dialogue (Louradour et al., JEP/TALN/RECITAL 2024)
Copy Citation:
PDF:
https://aclanthology.org/2024.jeptalnrecital-taln.36.pdf