Nadine Lucas

2022

GREYC@FinTOC-2022: Handling Document Layout and Structure in Native PDF Bundle of Documents
Emmanuel Giguet | Nadine Lucas
Proceedings of the 4th Financial Narrative Processing Workshop @LREC2022

n this paper, we present our contribution to the FinTOC-2022 Shared Task “Financial Document Structure Extraction”. We participated in the three tracks dedicated to English, French and Spanish document processing. Our main contribution consists in considering financial prospectus as a bundle of documents, i.e., a set of merged documents, each with their own layout and structure. Therefore, Document Layout and Structure Analysis (DLSA) first starts with the boundary detection of each document using general layout features. Then, the process applies inside each single document, taking advantage of the local properties. DLSA is achieved considering simultaneously text content, vectorial shapes and images embedded in the native PDF document. For the Title Detection task in English and French, we observed a significant improvement of the F-measures for Title Detection compared with those obtained during our previous participation.

2015

pdf bib

Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
Jean-Marc Lecarpentier | Nadine Lucas
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues

pdf bib

Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Jean-Marc Lecarpentier | Nadine Lucas
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

pdf bib

Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Conférences invitées
Jean-Marc Lecarpentier | Nadine Lucas
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Conférences invitées

pdf bib

Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations
Jean-Marc Lecarpentier | Nadine Lucas
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations

pdf bib

Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Jean-Marc Lecarpentier | Nadine Lucas
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

2013

pdf bib

DAnIEL, parsimonious yet high-coverage multilingual epidemic surveillance (DAnIEL : Veille épidémiologique multilingue parcimonieuse) [in French]
Gaël Lejeune | Romain Brixtel | Charlotte Lecluze | Antoine Doucet | Nadine Lucas
Proceedings of TALN 2013 (Volume 3: System Demonstrations)

2011

pdf bib abs

Évaluation de G-LexAr pour la traduction automatique statistique (Evaluation of G-Lexar for statistical machine translation)
Wigdan Mekki | Julien Gosme | Fathi Debili | Yves Lepage | Nadine Lucas
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

G-LexAr est un analyseur morphologique de l’arabe qui a récemment reçu des améliorations substantielles. Cet article propose une évaluation de cet analyseur en tant qu’outil de pré-traitement pour la traduction automatique statistique, ce dont il n’a encore jamais fait l’objet. Nous étudions l’impact des différentes formes proposées par son analyse (voyellation, lemmatisation et segmentation) sur un système de traduction arabe-anglais, ainsi que l’impact de la combinaison de ces formes. Nos expériences montrent que l’utilisation séparée de chacune de ces formes n’a que peu d’influence sur la qualité des traductions obtenues, tandis que leur combinaison y contribue de façon très bénéfique.

2010

pdf bib

Filtering news for epidemic surveillance: towards processing more languages with fewer resources
Gaël Lejeune | Antoine Doucet | Roman Yangarber | Nadine Lucas
Proceedings of the 4th Workshop on Cross Lingual Information Access

pdf bib abs

The GREYC/LLACAN machine translation systems for the IWSLT 2010 campaign
Julien Gosme | Wigdan Mekki | Fathi Debili | Yves Lepage | Nadine Lucas
Proceedings of the 7th International Workshop on Spoken Language Translation: Evaluation Campaign

In this paper we explore the contribution of the use of two Arabic morphological analyzers as preprocessing tools for statistical machine translation. Similar investigations have already been reported for morphologically rich languages like German, Turkish and Arabic. Here, we focus on the case of the Arabic language and mainly discuss the use of the G-LexAr analyzer. A preliminary experiment has been designed to choose the most promising translation system among the 3 G-LexAr-based systems, we concluded that the systems are equivalent. Nevertheless, we decided to use the lemmatized output of G-LexAr and use its translations as primary run for the BTEC AE track. The results showed that G-LexAr outputs degrades translation compared to the basic SMT system trained on the un-analyzed corpus.

Co-authors

Venues

Fix author