@inproceedings{bourigault-frerot-2005-acquisition,
title = "Acquisition et {\'e}valuation sur corpus de propri{\'e}t{\'e}s de sous-cat{\'e}gorisation syntaxique",
author = "Bourigault, Didier and
Fr{\'e}rot, C{\'e}cile",
editor = "Jardino, Mich{\`e}le",
booktitle = "Actes de la 12{\`e}me conf{\'e}rence sur le Traitement Automatique des Langues Naturelles. Articles longs",
month = jun,
year = "2005",
address = "Dourdan, France",
publisher = "ATALA",
url = "https://aclanthology.org/2005.jeptalnrecital-long.38",
pages = "371--380",
abstract = {Cette {\'e}tude est men{\'e}e dans le cadre du d{\'e}veloppement de l{'}analyseur syntaxique de corpus Syntex et porte sur la t{\^a}che de d{\'e}sambigu{\"\i}sation des rattachements pr{\'e}positionnels. Les donn{\'e}es de sous-cat{\'e}gorisation syntaxique exploit{\'e}es par Syntex pour la d{\'e}sambigu{\"\i}sation se pr{\'e}sentent sous la forme de probabilit{\'e}s de sous-cat{\'e}gorisation (que telle unit{\'e} lexicale - verbe, nom ou adjectif - se construise avec telle pr{\'e}position). Elles sont acquises automatiquement {\`a} partir d{'}un corpus de 200 millions de mots, {\'e}tiquet{\'e} et partiellement analys{\'e} syntaxiquement. Pour {\'e}valuer ces donn{\'e}es, nous utilisons 4 corpus de test de genres vari{\'e}s, sur lesquels nous avons annot{\'e} {\`a} la main plusieurs centaines de cas de rattachement pr{\'e}positionnels ambigus. Nous testons plusieurs strat{\'e}gies de d{\'e}sambigu{\"\i}sation, une strat{\'e}gie de base, une strat{\'e}gie endog{\`e}ne qui exploite des propri{\'e}t{\'e}s de sous-cat{\'e}gorisation sp{\'e}cifiques acquises {\`a} partir du corpus en cours de traitement, une strat{\'e}gie exog{\`e}ne qui exploite des propri{\'e}t{\'e}s de sous-cat{\'e}gorisation g{\'e}n{\'e}riques acquises {\`a} partir du corpus de 200 millions de mots, et enfin une strat{\'e}gie mixte qui utilisent les deux types de ressources. L{'}analyse des r{\'e}sultats montre que la strat{\'e}gie mixte est la meilleure, et que les performances de l{'}analyseur sur la t{\^a}che de d{\'e}sambigu{\"\i}sation des rattachements pr{\'e}positionnels varient selon les corpus de 79.4 {\%} {\`a} 87.2 {\%}.},
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="bourigault-frerot-2005-acquisition">
<titleInfo>
<title>Acquisition et évaluation sur corpus de propriétés de sous-catégorisation syntaxique</title>
</titleInfo>
<name type="personal">
<namePart type="given">Didier</namePart>
<namePart type="family">Bourigault</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Cécile</namePart>
<namePart type="family">Frérot</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2005-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs</title>
</titleInfo>
<name type="personal">
<namePart type="given">Michèle</namePart>
<namePart type="family">Jardino</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Dourdan, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Cette étude est menée dans le cadre du développement de l’analyseur syntaxique de corpus Syntex et porte sur la tâche de désambiguïsation des rattachements prépositionnels. Les données de sous-catégorisation syntaxique exploitées par Syntex pour la désambiguïsation se présentent sous la forme de probabilités de sous-catégorisation (que telle unité lexicale - verbe, nom ou adjectif - se construise avec telle préposition). Elles sont acquises automatiquement à partir d’un corpus de 200 millions de mots, étiqueté et partiellement analysé syntaxiquement. Pour évaluer ces données, nous utilisons 4 corpus de test de genres variés, sur lesquels nous avons annoté à la main plusieurs centaines de cas de rattachement prépositionnels ambigus. Nous testons plusieurs stratégies de désambiguïsation, une stratégie de base, une stratégie endogène qui exploite des propriétés de sous-catégorisation spécifiques acquises à partir du corpus en cours de traitement, une stratégie exogène qui exploite des propriétés de sous-catégorisation génériques acquises à partir du corpus de 200 millions de mots, et enfin une stratégie mixte qui utilisent les deux types de ressources. L’analyse des résultats montre que la stratégie mixte est la meilleure, et que les performances de l’analyseur sur la tâche de désambiguïsation des rattachements prépositionnels varient selon les corpus de 79.4 % à 87.2 %.</abstract>
<identifier type="citekey">bourigault-frerot-2005-acquisition</identifier>
<location>
<url>https://aclanthology.org/2005.jeptalnrecital-long.38</url>
</location>
<part>
<date>2005-06</date>
<extent unit="page">
<start>371</start>
<end>380</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Acquisition et évaluation sur corpus de propriétés de sous-catégorisation syntaxique
%A Bourigault, Didier
%A Frérot, Cécile
%Y Jardino, Michèle
%S Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
%D 2005
%8 June
%I ATALA
%C Dourdan, France
%G French
%F bourigault-frerot-2005-acquisition
%X Cette étude est menée dans le cadre du développement de l’analyseur syntaxique de corpus Syntex et porte sur la tâche de désambiguïsation des rattachements prépositionnels. Les données de sous-catégorisation syntaxique exploitées par Syntex pour la désambiguïsation se présentent sous la forme de probabilités de sous-catégorisation (que telle unité lexicale - verbe, nom ou adjectif - se construise avec telle préposition). Elles sont acquises automatiquement à partir d’un corpus de 200 millions de mots, étiqueté et partiellement analysé syntaxiquement. Pour évaluer ces données, nous utilisons 4 corpus de test de genres variés, sur lesquels nous avons annoté à la main plusieurs centaines de cas de rattachement prépositionnels ambigus. Nous testons plusieurs stratégies de désambiguïsation, une stratégie de base, une stratégie endogène qui exploite des propriétés de sous-catégorisation spécifiques acquises à partir du corpus en cours de traitement, une stratégie exogène qui exploite des propriétés de sous-catégorisation génériques acquises à partir du corpus de 200 millions de mots, et enfin une stratégie mixte qui utilisent les deux types de ressources. L’analyse des résultats montre que la stratégie mixte est la meilleure, et que les performances de l’analyseur sur la tâche de désambiguïsation des rattachements prépositionnels varient selon les corpus de 79.4 % à 87.2 %.
%U https://aclanthology.org/2005.jeptalnrecital-long.38
%P 371-380
Markdown (Informal)
[Acquisition et évaluation sur corpus de propriétés de sous-catégorisation syntaxique](https://aclanthology.org/2005.jeptalnrecital-long.38) (Bourigault & Frérot, JEP/TALN/RECITAL 2005)
ACL