Acquisition et évaluation sur corpus de propriétés de sous-catégorisation syntaxique

Didier Bourigault, Cécile Frérot


Abstract
Cette étude est menée dans le cadre du développement de l’analyseur syntaxique de corpus Syntex et porte sur la tâche de désambiguïsation des rattachements prépositionnels. Les données de sous-catégorisation syntaxique exploitées par Syntex pour la désambiguïsation se présentent sous la forme de probabilités de sous-catégorisation (que telle unité lexicale - verbe, nom ou adjectif - se construise avec telle préposition). Elles sont acquises automatiquement à partir d’un corpus de 200 millions de mots, étiqueté et partiellement analysé syntaxiquement. Pour évaluer ces données, nous utilisons 4 corpus de test de genres variés, sur lesquels nous avons annoté à la main plusieurs centaines de cas de rattachement prépositionnels ambigus. Nous testons plusieurs stratégies de désambiguïsation, une stratégie de base, une stratégie endogène qui exploite des propriétés de sous-catégorisation spécifiques acquises à partir du corpus en cours de traitement, une stratégie exogène qui exploite des propriétés de sous-catégorisation génériques acquises à partir du corpus de 200 millions de mots, et enfin une stratégie mixte qui utilisent les deux types de ressources. L’analyse des résultats montre que la stratégie mixte est la meilleure, et que les performances de l’analyseur sur la tâche de désambiguïsation des rattachements prépositionnels varient selon les corpus de 79.4 % à 87.2 %.
Anthology ID:
2005.jeptalnrecital-long.38
Volume:
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:
June
Year:
2005
Address:
Dourdan, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
371–380
Language:
French
URL:
https://aclanthology.org/2005.jeptalnrecital-long.38
DOI:
Bibkey:
Copy Citation:
PDF:
https://aclanthology.org/2005.jeptalnrecital-long.38.pdf