Motifs séquentiels pour l’extraction d’information : illustration sur le problème de la détection d’interactions entre gènes

Marc Plantevit, Thierry Charnois


Abstract
Face à la prolifération des publications en biologie et médecine (plus de 18 millions de publications actuellement recensées dans PubMed), l’extraction d’information automatique est devenue un enjeu crucial. Il existe de nombreux travaux dans le domaine du traitement de la langue appliquée à la biomédecine (“BioNLP”). Ces travaux se distribuent en deux grandes tendances. La première est fondée sur les méthodes d’apprentissage automatique de type numérique qui donnent de bons résultats mais ont un fonctionnement de type “boite noire”. La deuxième tendance est celle du TALN à base d’analyses (lexicales, syntaxiques, voire sémantiques ou discursives) coûteuses en temps de développement des ressources nécessaires (lexiques, grammaires, etc.). Nous proposons dans cet article une approche basée sur la découverte de motifs séquentiels pour apprendre automatiquement les ressources linguistiques, en l’occurrence les patrons linguistiques qui permettent l’extraction de l’information dans les textes. Plusieurs aspects méritent d’être soulignés : cette approche permet de s’affranchir de l’analyse syntaxique de la phrase, elle ne nécessite pas de ressources en dehors du corpus d’apprentissage et elle ne demande que très peu d’intervention manuelle. Nous illustrons l’approche sur le problème de la détection d’interactions entre gènes et donnons les résultats obtenus sur des corpus biologiques qui montrent l’intérêt de ce type d’approche.
Anthology ID:
2009.jeptalnrecital-long.15
Volume:
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:
June
Year:
2009
Address:
Senlis, France
Editors:
Adeline Nazarenko, Thierry Poibeau
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
141–150
Language:
French
URL:
https://aclanthology.org/2009.jeptalnrecital-long.15
DOI:
Bibkey:
Cite (ACL):
Marc Plantevit and Thierry Charnois. 2009. Motifs séquentiels pour l’extraction d’information : illustration sur le problème de la détection d’interactions entre gènes. In Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs, pages 141–150, Senlis, France. ATALA.
Cite (Informal):
Motifs séquentiels pour l’extraction d’information : illustration sur le problème de la détection d’interactions entre gènes (Plantevit & Charnois, JEP/TALN/RECITAL 2009)
Copy Citation:
PDF:
https://aclanthology.org/2009.jeptalnrecital-long.15.pdf