Évaluation de mesures d’association pour les bigrammes et les trigrammes au moyen du test exact de Fisher (Using Fisher’s Exact Test to Evaluate Association Measures for Bigrams and Trigrams)

Yves Bestgen


Abstract
Pour déterminer si certaines mesures d’association lexicale fréquemment employées en TAL attribuent des scores élevés à des n-grammes que le hasard aurait pu produire aussi souvent qu’observé, nous avons utilisé une extension du test exact de Fisher à des séquences de plus de deux mots. Les analyses ont porté sur un corpus de quatre millions de mots d’anglais conversationnel extrait du BNC. Les résultats, basés sur la courbe précision-rappel et sur la précision moyenne, montrent que le LL-simple est extrêmement efficace. IM3 est plus efficace que les autres mesures basées sur les tests d’hypothèse et atteint même un niveau de performance presque égal à LL-simple pour les trigrammes.
Anthology ID:
2017.jeptalnrecital-court.2
Volume:
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 - Articles courts
Month:
6
Year:
2017
Address:
Orléans, France
Editors:
Iris Eshkol-Taravella, Jean-Yves Antoine
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
10–18
Language:
French
URL:
https://aclanthology.org/2017.jeptalnrecital-court.2
DOI:
Bibkey:
Cite (ACL):
Yves Bestgen. 2017. Évaluation de mesures d’association pour les bigrammes et les trigrammes au moyen du test exact de Fisher (Using Fisher’s Exact Test to Evaluate Association Measures for Bigrams and Trigrams). In Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 - Articles courts, pages 10–18, Orléans, France. ATALA.
Cite (Informal):
Évaluation de mesures d’association pour les bigrammes et les trigrammes au moyen du test exact de Fisher (Using Fisher’s Exact Test to Evaluate Association Measures for Bigrams and Trigrams) (Bestgen, JEP/TALN/RECITAL 2017)
Copy Citation:
PDF:
https://aclanthology.org/2017.jeptalnrecital-court.2.pdf