Olivier Collin

2015

Classification d’entités nommées de type film
Olivier Collin | Aleksandra Guerraz
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Dans cet article, nous nous intéressons à la classification contextuelle d’entités nommées de type film . Notre travail s’inscrit dans un cadre applicatif dont le but est de repérer, dans un texte, un titre de film contenu dans un catalogue (par exemple catalogue de films disponibles en VoD). Pour ce faire, nous combinons deux approches : nous partons d’un système à base de règles, qui présente une bonne précision, que nous couplons avec un modèle de langage permettant d’augmenter le rappel. La génération peu coûteuse de données d’apprentissage pour le modèle de langage à partir de Wikipedia est au coeur de ce travail. Nous montrons, à travers l’évaluation de notre système, la difficulté de classification des entités nommées de type film ainsi que la complémentarité des approches que nous utilisons pour cette tâche.

2010

pdf bib abs

Traduction de requêtes basée sur Wikipédia
Benoît Gaillard | Olivier Collin | Malek Boualem
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Cet article s’inscrit dans le domaine de la recherche d’information multilingue. Il propose une méthode de traduction automatique de requêtes basée sur Wikipédia. Une phase d’analyse permet de segmenter la requête en syntagmes ou unités lexicales à traduire en s’appuyant sur les liens multilingues entre les articles de Wikipédia. Une deuxième phase permet de choisir, parmi les traductions possibles, celle qui est la plus cohérente en s’appuyant sur les informations d’ordre sémantique fournies par les catégories associées à chacun des articles de Wikipédia. Cet article justifie que les données issues de Wikipédia sont particulièrement pertinentes pour la traduction de requêtes, détaille l’approche proposée et son implémentation, et en démontre le potentiel par la comparaison du taux d’erreur du prototype de traduction avec celui d’autres services de traduction automatique.

pdf bib abs

Constitution d’une ressource sémantique issue du treillis des catégories de Wikipedia
Olivier Collin | Benoît Gaillard | Jean-Léon Bouraoui
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Le travail présenté dans cet article s’inscrit dans le thème de l’acquisition automatique de ressources sémantiques s’appuyant sur les données de Wikipedia. Nous exploitons le graphe des catégories associées aux pages de Wikipedia à partir duquel nous extrayons une hiérarchie de catégories parentes, sémantiquement et thématiquement liées. Cette extraction est le résultat d’une stratégie de plus court chemin appliquée au treillis global des catégories. Chaque page peut ainsi être représentée dans l’espace de ses catégories propres, ainsi que des catégories parentes. Nous montrons la possibilité d’utiliser cette ressource pour deux applications. La première concerne l’indexation et la classification des pages de Wikipedia. La seconde concerne la désambiguïsation dans le cadre d’un traducteur de requêtes français/anglais. Ce dernier travail a été réalisé en exploitant les catégories des pages anglaises.

pdf bib

Query translation using Wikipedia-based resources for analysis and disambiguation
Benoit Gaillard | Malek Boualem | Olivier Collin
Proceedings of the 14th Annual Conference of the European Association for Machine Translation

2006

pdf bib abs

Acquisition de concepts bilingues à partir du Web
Olivier Collin | Émmanuelle Pétrier
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Nous montrons une utilisation du Web, corpus multilingue de grande taille, pour effectuer une acquisition supervisée de concepts bilingue français/anglais. Cette acquisition utilise comme point initial un verbe français. Nous apparions ensuite des phrases provenant des deux langues à partir de couples de noms propres possédant la même forme dans les deux langues. Cet appariement automatique mais sommaire ne garantit pas l’alignement des phrases. Nous montrons qu’il nous permet cependant d’extraire des termes français et anglais équivalents dans leur contexte d’utilisation. Ces termes constituent des ressources multilingues particulièrement adaptées au Web, notamment pour les applications question réponse « crosslingue ».

2003

pdf bib abs

Apprentissage Automatique de Paraphrases pour l’Amélioration d’un Système de Questions-Réponses
Florence Duclaye | Olivier Collin | François Yvon
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Dans cet article, nous présentons une méthodologie d’apprentissage faiblement supervisé pour l’extraction automatique de paraphrases à partir du Web. À partir d’un seule exemple de paire (prédicat, arguments), un corpus est progressivement accumulé par sondage duWeb. Les phases de sondage alternent avec des phases de filtrage, durant lesquelles les paraphrases les moins plausibles sont éliminées à l’aide d’une procédure de clustering non supervisée. Ce mécanisme d’apprentissage s’appuie sur un système de Questions-Réponses existant et les paraphrases apprises seront utilisées pour en améliorer le rappel. Nous nous concentrons ici sur le mécanisme d’apprentissage de ce système et en présentons les premiers résultats.

Olivier Collin

2015

2010

2006

2003

2002

Co-authors

Venues