Nadine Lucas
2022
GREYC@FinTOC-2022: Handling Document Layout and Structure in Native PDF Bundle of Documents
Emmanuel Giguet | Nadine Lucas
Proceedings of the 4th Financial Narrative Processing Workshop @LREC2022
Emmanuel Giguet | Nadine Lucas
Proceedings of the 4th Financial Narrative Processing Workshop @LREC2022
n this paper, we present our contribution to the FinTOC-2022 Shared Task “Financial Document Structure Extraction”. We participated in the three tracks dedicated to English, French and Spanish document processing. Our main contribution consists in considering financial prospectus as a bundle of documents, i.e., a set of merged documents, each with their own layout and structure. Therefore, Document Layout and Structure Analysis (DLSA) first starts with the boundary detection of each document using general layout features. Then, the process applies inside each single document, taking advantage of the local properties. DLSA is achieved considering simultaneously text content, vectorial shapes and images embedded in the native PDF document. For the Title Detection task in English and French, we observed a significant improvement of the F-measures for Title Detection compared with those obtained during our previous participation.
2015
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Jean-Marc Lecarpentier | Nadine Lucas
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Jean-Marc Lecarpentier | Nadine Lucas
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Jean-Marc Lecarpentier | Nadine Lucas
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Jean-Marc Lecarpentier | Nadine Lucas
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations
Jean-Marc Lecarpentier | Nadine Lucas
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations
Jean-Marc Lecarpentier | Nadine Lucas
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Conférences invitées
Jean-Marc Lecarpentier | Nadine Lucas
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Conférences invitées
Jean-Marc Lecarpentier | Nadine Lucas
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Conférences invitées
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
Jean-Marc Lecarpentier | Nadine Lucas
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
Jean-Marc Lecarpentier | Nadine Lucas
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
2013
DAnIEL, parsimonious yet high-coverage multilingual epidemic surveillance (DAnIEL : Veille épidémiologique multilingue parcimonieuse) [in French]
Gaël Lejeune | Romain Brixtel | Charlotte Lecluze | Antoine Doucet | Nadine Lucas
Proceedings of TALN 2013 (Volume 3: System Demonstrations)
Gaël Lejeune | Romain Brixtel | Charlotte Lecluze | Antoine Doucet | Nadine Lucas
Proceedings of TALN 2013 (Volume 3: System Demonstrations)
2011
Évaluation de G-LexAr pour la traduction automatique statistique (Evaluation of G-Lexar for statistical machine translation)
Wigdan Mekki | Julien Gosme | Fathi Debili | Yves Lepage | Nadine Lucas
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Wigdan Mekki | Julien Gosme | Fathi Debili | Yves Lepage | Nadine Lucas
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
G-LexAr est un analyseur morphologique de l’arabe qui a récemment reçu des améliorations substantielles. Cet article propose une évaluation de cet analyseur en tant qu’outil de pré-traitement pour la traduction automatique statistique, ce dont il n’a encore jamais fait l’objet. Nous étudions l’impact des différentes formes proposées par son analyse (voyellation, lemmatisation et segmentation) sur un système de traduction arabe-anglais, ainsi que l’impact de la combinaison de ces formes. Nos expériences montrent que l’utilisation séparée de chacune de ces formes n’a que peu d’influence sur la qualité des traductions obtenues, tandis que leur combinaison y contribue de façon très bénéfique.
2010
The GREYC/LLACAN machine translation systems for the IWSLT 2010 campaign
Julien Gosme | Wigdan Mekki | Fathi Debili | Yves Lepage | Nadine Lucas
Proceedings of the 7th International Workshop on Spoken Language Translation: Evaluation Campaign
Julien Gosme | Wigdan Mekki | Fathi Debili | Yves Lepage | Nadine Lucas
Proceedings of the 7th International Workshop on Spoken Language Translation: Evaluation Campaign
In this paper we explore the contribution of the use of two Arabic morphological analyzers as preprocessing tools for statistical machine translation. Similar investigations have already been reported for morphologically rich languages like German, Turkish and Arabic. Here, we focus on the case of the Arabic language and mainly discuss the use of the G-LexAr analyzer. A preliminary experiment has been designed to choose the most promising translation system among the 3 G-LexAr-based systems, we concluded that the systems are equivalent. Nevertheless, we decided to use the lemmatized output of G-LexAr and use its translations as primary run for the BTEC AE track. The results showed that G-LexAr outputs degrades translation compared to the basic SMT system trained on the un-analyzed corpus.