2006
pdf
bib
Acquisition et évaluation sur corpus de propriétés de sous-catégorisation syntaxique [Acquisition and corpus-based evaluation of syntactic subcategorization properties]
Didier Bourigault
|
Cécile Frérot
Traitement Automatique des Langues, Volume 47, Numéro 3 : Varia [Varia]
2005
pdf
bib
abs
Acquisition et évaluation sur corpus de propriétés de sous-catégorisation syntaxique
Didier Bourigault
|
Cécile Frérot
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Cette étude est menée dans le cadre du développement de l’analyseur syntaxique de corpus Syntex et porte sur la tâche de désambiguïsation des rattachements prépositionnels. Les données de sous-catégorisation syntaxique exploitées par Syntex pour la désambiguïsation se présentent sous la forme de probabilités de sous-catégorisation (que telle unité lexicale - verbe, nom ou adjectif - se construise avec telle préposition). Elles sont acquises automatiquement à partir d’un corpus de 200 millions de mots, étiqueté et partiellement analysé syntaxiquement. Pour évaluer ces données, nous utilisons 4 corpus de test de genres variés, sur lesquels nous avons annoté à la main plusieurs centaines de cas de rattachement prépositionnels ambigus. Nous testons plusieurs stratégies de désambiguïsation, une stratégie de base, une stratégie endogène qui exploite des propriétés de sous-catégorisation spécifiques acquises à partir du corpus en cours de traitement, une stratégie exogène qui exploite des propriétés de sous-catégorisation génériques acquises à partir du corpus de 200 millions de mots, et enfin une stratégie mixte qui utilisent les deux types de ressources. L’analyse des résultats montre que la stratégie mixte est la meilleure, et que les performances de l’analyseur sur la tâche de désambiguïsation des rattachements prépositionnels varient selon les corpus de 79.4 % à 87.2 %.
2004
pdf
bib
abs
Ambiguïté de rattachement prépositionnel : introduction de ressources exogènes de sous-catégorisation dans un analyseur syntaxique de corpus endogène
Didier Bourigault
|
Cécile Frérot
Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Nous présentons les résultats d’expérimentations visant à introduire des ressources lexicosyntaxiques génériques dans un analyseur syntaxique de corpus à base endogène (SYNTEX) pour la résolution d’ambiguïtés de rattachement prépositionnel. Les données de souscatégorisation verbale sont élaborées à partir du lexique-grammaire et d’une acquisition en corpus (journal Le Monde). Nous présentons la stratégie endogène de désambiguïsation, avant d’y intégrer les ressources construites. Ces stratégies sont évaluées sur trois corpus (scientifique, juridique et journalistique). La stratégie mixte augmente le taux de rappel (+15% sur les trois corpus cumulés) sans toutefois modifier le taux de précision (~ 85%). Nous discutons ces performances, notamment à la lumière des résultats obtenus par ailleurs sur la préposition de.
2003
pdf
bib
abs
Procédures d’apprentissage endogène doublées de ressources exogènes : résolution en corpus d’une ambiguïté sur «de»
Cécile Frérot
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
Dans cette étude, nous nous intéressons à l’apport de ressources exogènes dans un analyseur syntaxique de corpus basé sur des procédures d’apprentissage endogène. Nous menons une expérience en corpus sur un cas d’ambiguïté catégorielle du français (forme de en position postverbale, article ou préposition). Après avoir présenté et évalué la stratégie endogène, nous en analysons les limites. Nous discutons ensuite la perspective d’une approche mixte combinant des informations acquises de manière endogène à des informations exogènes (données de sous-catégorisation verbale sur la préposition de). Nous montrons alors comment un apport maximal de ressources exogènes améliore les performances de l’analyseur (+8%, +15% sur les deux corpus évalués). Nous présentons les premiers résultats d’une approche mixte avant de conclure sur les orientations futures du travail.
2002
pdf
bib
abs
Groupes prépositionnels arguments ou circonstants : vers un repérage automatique en corpus
Cécile Fabre
|
Cécile Frérot
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Dans cette étude, menée dans le cadre de la réalisation d’un analyseur syntaxique de corpus spécialisés, nous nous intéressons à la question des arguments et circonstants et à leur repérage automatique en corpus. Nous proposons une mesure simple pour distinguer automatiquement, au sein des groupes prépositionnels rattachés au verbe, des types de compléments différents. Nous réalisons cette distinction sur corpus, en mettant en oeuvre une stratégie endogène, et en utilisant deux mesures de productivité : la productivité du recteur verbal vis à vis de la préposition évalue le degré de cohésion entre le verbe et son groupe prépositionnel (GP), tandis que la productivité du régi vis à vis de la préposition permet d’évaluer le degré de cohésion interne du GP. Cet article présente ces deux mesures, commente les données obtenues, et détermine dans quelle mesure cette partition recouvre la distinction traditionnelle entre arguments et circonstants.