Analyse spectrale des textes : détection automatique des frontières de langue et de discours

Pascal Vaillant, Richard Nock, Claudia Henry


Abstract
Nous proposons un cadre théorique qui permet, à partir de matrices construites sur la base des données statistiques d’un corpus, d’extraire par des procédés mathématiques simples des informations sur les mots du vocabulaire de ce corpus, et sur la syntaxe des langues qui l’ont engendré. À partir des mêmes données initiales, on peut construire une matrice de similarité syntagmatique (probabilités de transition d’un mot à un autre), ou une matrice de similarité paradigmatique (probabilité de partager des contextes identiques). Pour ce qui concerne la première de ces deux possibilités, les résultats obtenus sont interprétés dans le cadre d’une modélisation du processus génératif par chaînes de Markov. Nous montrons que les résultats d’une analyse spectrale de la matrice de transition peuvent être interprétés comme des probabilités d’appartenance de mots à des classes. Cette méthode nous permet d’obtenir une classification continue des mots du vocabulaire dans des sous-systèmes génératifs contribuant à la génération de textes composites. Une application pratique est la segmentation de textes hétérogènes en segments homogènes d’un point de vue linguistique, notamment dans le cas de langues proches par le degré de recouvrement de leurs vocabulaires.
Anthology ID:
2006.jeptalnrecital-poster.26
Volume:
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Month:
April
Year:
2006
Address:
Leuven, Belgique
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
619–629
Language:
French
URL:
https://aclanthology.org/2006.jeptalnrecital-poster.26
DOI:
Bibkey:
Copy Citation:
PDF:
https://aclanthology.org/2006.jeptalnrecital-poster.26.pdf