@inproceedings{debili-souissi-2005-y,
title = "{Y} a-t-il une taille optimale pour les r{\`e}gles de successions intervenant dans l{'}{\'e}tiquetage grammatical ? (Is there an optimal n for n-grams used in part-of-speech tagging?)",
author = "Debili, Fathi and
Souissi, Emna",
editor = "Jardino, Mich{\`e}le",
booktitle = "Actes de la 12{\`e}me conf{\'e}rence sur le Traitement Automatique des Langues Naturelles. Articles longs",
month = jun,
year = "2005",
address = "Dourdan, France",
publisher = "ATALA",
url = "https://aclanthology.org/2005.jeptalnrecital-long.37",
pages = "361--370",
abstract = "La quasi-totalit{\'e} des {\'e}tiqueteurs grammaticaux mettent en oeuvre des r{\`e}gles qui portent sur les successions ou collocations permises de deux ou trois cat{\'e}gories grammaticales. Leurs performances s{'}{\'e}tablissent {\`a} hauteur de 96{\%} de mots correctement {\'e}tiquet{\'e}s, et {\`a} moins de 57{\%} de phrases correctement {\'e}tiquet{\'e}es. Ces r{\`e}gles binaires et ternaires ne repr{\'e}sentent qu{'}une fraction du total des r{\`e}gles de succession que l{'}on peut extraire {\`a} partir des phrases d{'}un corpus d{'}apprentissage, alors m{\^e}me que la majeure partie des phrases (plus de 98{\%} d{'}entre elles) ont une taille sup{\'e}rieure {\`a} 3 mots. Cela signifie que la plupart des phrases sont analys{\'e}es au moyen de r{\`e}gles reconstitu{\'e}es ou simul{\'e}es {\`a} partir de r{\`e}gles plus courtes, ternaires en l{'}occurrence dans le meilleur des cas. Nous montrons que ces r{\`e}gles simul{\'e}es sont majoritairement agrammaticales, et que l{'}avantage inf{\'e}rentiel qu{'}apporte le cha{\^\i}nage de r{\`e}gles courtes pour parer au manque d{'}apprentissage, plus marqu{\'e} pour les r{\`e}gles plus longues, est largement neutralis{\'e} par la permissivit{\'e} de ce processus dont toutes sortes de poids, scores ou probabilit{\'e}s ne r{\'e}ussissent pas {\`a} en hi{\'e}rarchiser la production afin d{'}y distinguer le grammatical de l{'}agrammatical. Force est donc de reconsid{\'e}rer les r{\`e}gles de taille sup{\'e}rieure {\`a} 3, lesquelles, il y a une trentaine d{'}ann{\'e}es, avaient {\'e}t{\'e} d{'}embl{\'e}e {\'e}cart{\'e}es pour des raisons essentiellement li{\'e}es {\`a} la puissance des machines d{'}alors, et {\`a} l{'}insuffisance des corpus d{'}apprentissage. Mais si l{'}on admet qu{'}il faille d{\'e}sormais {\'e}tendre la taille des r{\`e}gles de succession, la question se pose de savoir jusqu{'}{\`a} quelle limite, et pour quel b{\'e}n{\'e}fice. Car l{'}on ne saurait non plus plaider pour une port{\'e}e des r{\`e}gles aussi longue que les plus longues phrases auxquelles elles sont susceptibles d{'}{\^e}tre appliqu{\'e}es. Autrement dit, y a-t-il une taille optimale des r{\`e}gles qui soit suffisamment petite pour que leur apprentissage puisse converger, mais suffisamment longue pour que tout cha{\^\i}nage de telles r{\`e}gles pour embrasser les phrases de taille sup{\'e}rieure soit grammatical. La cons{\'e}quence heureuse {\'e}tant que poids, scores et probabilit{\'e}s ne seraient plus invoqu{\'e}s que pour choisir entre successions d{'}{\'e}tiquettes toutes {\'e}galement grammaticales, et non pour {\'e}liminer en outre les successions agrammaticales. Cette taille semble exister. Nous montrons qu{'}au moyen d{'}algorithmes relativement simples l{'}on peut assez pr{\'e}cis{\'e}ment la d{\'e}terminer. Qu{'}elle se situe, compte tenu de nos corpus, aux alentours de 12 pour le fran{\c{c}}ais, de 10 pour l{'}arabe, et de 10 pour l{'}anglais. Qu{'}elle est donc en particulier inf{\'e}rieure {\`a} la taille moyenne des phrases, quelle que soit la langue consid{\'e}r{\'e}e.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="debili-souissi-2005-y">
<titleInfo>
<title>Y a-t-il une taille optimale pour les règles de successions intervenant dans l’étiquetage grammatical ? (Is there an optimal n for n-grams used in part-of-speech tagging?)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Fathi</namePart>
<namePart type="family">Debili</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Emna</namePart>
<namePart type="family">Souissi</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2005-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs</title>
</titleInfo>
<name type="personal">
<namePart type="given">Michèle</namePart>
<namePart type="family">Jardino</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Dourdan, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>La quasi-totalité des étiqueteurs grammaticaux mettent en oeuvre des règles qui portent sur les successions ou collocations permises de deux ou trois catégories grammaticales. Leurs performances s’établissent à hauteur de 96% de mots correctement étiquetés, et à moins de 57% de phrases correctement étiquetées. Ces règles binaires et ternaires ne représentent qu’une fraction du total des règles de succession que l’on peut extraire à partir des phrases d’un corpus d’apprentissage, alors même que la majeure partie des phrases (plus de 98% d’entre elles) ont une taille supérieure à 3 mots. Cela signifie que la plupart des phrases sont analysées au moyen de règles reconstituées ou simulées à partir de règles plus courtes, ternaires en l’occurrence dans le meilleur des cas. Nous montrons que ces règles simulées sont majoritairement agrammaticales, et que l’avantage inférentiel qu’apporte le chaînage de règles courtes pour parer au manque d’apprentissage, plus marqué pour les règles plus longues, est largement neutralisé par la permissivité de ce processus dont toutes sortes de poids, scores ou probabilités ne réussissent pas à en hiérarchiser la production afin d’y distinguer le grammatical de l’agrammatical. Force est donc de reconsidérer les règles de taille supérieure à 3, lesquelles, il y a une trentaine d’années, avaient été d’emblée écartées pour des raisons essentiellement liées à la puissance des machines d’alors, et à l’insuffisance des corpus d’apprentissage. Mais si l’on admet qu’il faille désormais étendre la taille des règles de succession, la question se pose de savoir jusqu’à quelle limite, et pour quel bénéfice. Car l’on ne saurait non plus plaider pour une portée des règles aussi longue que les plus longues phrases auxquelles elles sont susceptibles d’être appliquées. Autrement dit, y a-t-il une taille optimale des règles qui soit suffisamment petite pour que leur apprentissage puisse converger, mais suffisamment longue pour que tout chaînage de telles règles pour embrasser les phrases de taille supérieure soit grammatical. La conséquence heureuse étant que poids, scores et probabilités ne seraient plus invoqués que pour choisir entre successions d’étiquettes toutes également grammaticales, et non pour éliminer en outre les successions agrammaticales. Cette taille semble exister. Nous montrons qu’au moyen d’algorithmes relativement simples l’on peut assez précisément la déterminer. Qu’elle se situe, compte tenu de nos corpus, aux alentours de 12 pour le français, de 10 pour l’arabe, et de 10 pour l’anglais. Qu’elle est donc en particulier inférieure à la taille moyenne des phrases, quelle que soit la langue considérée.</abstract>
<identifier type="citekey">debili-souissi-2005-y</identifier>
<location>
<url>https://aclanthology.org/2005.jeptalnrecital-long.37</url>
</location>
<part>
<date>2005-06</date>
<extent unit="page">
<start>361</start>
<end>370</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Y a-t-il une taille optimale pour les règles de successions intervenant dans l’étiquetage grammatical ? (Is there an optimal n for n-grams used in part-of-speech tagging?)
%A Debili, Fathi
%A Souissi, Emna
%Y Jardino, Michèle
%S Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
%D 2005
%8 June
%I ATALA
%C Dourdan, France
%G French
%F debili-souissi-2005-y
%X La quasi-totalité des étiqueteurs grammaticaux mettent en oeuvre des règles qui portent sur les successions ou collocations permises de deux ou trois catégories grammaticales. Leurs performances s’établissent à hauteur de 96% de mots correctement étiquetés, et à moins de 57% de phrases correctement étiquetées. Ces règles binaires et ternaires ne représentent qu’une fraction du total des règles de succession que l’on peut extraire à partir des phrases d’un corpus d’apprentissage, alors même que la majeure partie des phrases (plus de 98% d’entre elles) ont une taille supérieure à 3 mots. Cela signifie que la plupart des phrases sont analysées au moyen de règles reconstituées ou simulées à partir de règles plus courtes, ternaires en l’occurrence dans le meilleur des cas. Nous montrons que ces règles simulées sont majoritairement agrammaticales, et que l’avantage inférentiel qu’apporte le chaînage de règles courtes pour parer au manque d’apprentissage, plus marqué pour les règles plus longues, est largement neutralisé par la permissivité de ce processus dont toutes sortes de poids, scores ou probabilités ne réussissent pas à en hiérarchiser la production afin d’y distinguer le grammatical de l’agrammatical. Force est donc de reconsidérer les règles de taille supérieure à 3, lesquelles, il y a une trentaine d’années, avaient été d’emblée écartées pour des raisons essentiellement liées à la puissance des machines d’alors, et à l’insuffisance des corpus d’apprentissage. Mais si l’on admet qu’il faille désormais étendre la taille des règles de succession, la question se pose de savoir jusqu’à quelle limite, et pour quel bénéfice. Car l’on ne saurait non plus plaider pour une portée des règles aussi longue que les plus longues phrases auxquelles elles sont susceptibles d’être appliquées. Autrement dit, y a-t-il une taille optimale des règles qui soit suffisamment petite pour que leur apprentissage puisse converger, mais suffisamment longue pour que tout chaînage de telles règles pour embrasser les phrases de taille supérieure soit grammatical. La conséquence heureuse étant que poids, scores et probabilités ne seraient plus invoqués que pour choisir entre successions d’étiquettes toutes également grammaticales, et non pour éliminer en outre les successions agrammaticales. Cette taille semble exister. Nous montrons qu’au moyen d’algorithmes relativement simples l’on peut assez précisément la déterminer. Qu’elle se situe, compte tenu de nos corpus, aux alentours de 12 pour le français, de 10 pour l’arabe, et de 10 pour l’anglais. Qu’elle est donc en particulier inférieure à la taille moyenne des phrases, quelle que soit la langue considérée.
%U https://aclanthology.org/2005.jeptalnrecital-long.37
%P 361-370
Markdown (Informal)
[Y a-t-il une taille optimale pour les règles de successions intervenant dans l’étiquetage grammatical ? (Is there an optimal n for n-grams used in part-of-speech tagging?)](https://aclanthology.org/2005.jeptalnrecital-long.37) (Debili & Souissi, JEP/TALN/RECITAL 2005)
ACL