@inproceedings{vaillant-etal-2006-analyse,
title = "Analyse spectrale des textes : d{\'e}tection automatique des fronti{\`e}res de langue et de discours",
author = "Vaillant, Pascal and
Nock, Richard and
Henry, Claudia",
editor = "Mertens, Piet and
Fairon, C{\'e}drick and
Dister, Anne and
Watrin, Patrick",
booktitle = "Actes de la 13{\`e}me conf{\'e}rence sur le Traitement Automatique des Langues Naturelles. Posters",
month = apr,
year = "2006",
address = "Leuven, Belgique",
publisher = "ATALA",
url = "https://aclanthology.org/2006.jeptalnrecital-poster.26",
pages = "619--629",
abstract = "Nous proposons un cadre th{\'e}orique qui permet, {\`a} partir de matrices construites sur la base des donn{\'e}es statistiques d{'}un corpus, d{'}extraire par des proc{\'e}d{\'e}s math{\'e}matiques simples des informations sur les mots du vocabulaire de ce corpus, et sur la syntaxe des langues qui l{'}ont engendr{\'e}. {\`A} partir des m{\^e}mes donn{\'e}es initiales, on peut construire une matrice de similarit{\'e} syntagmatique (probabilit{\'e}s de transition d{'}un mot {\`a} un autre), ou une matrice de similarit{\'e} paradigmatique (probabilit{\'e} de partager des contextes identiques). Pour ce qui concerne la premi{\`e}re de ces deux possibilit{\'e}s, les r{\'e}sultats obtenus sont interpr{\'e}t{\'e}s dans le cadre d{'}une mod{\'e}lisation du processus g{\'e}n{\'e}ratif par cha{\^\i}nes de Markov. Nous montrons que les r{\'e}sultats d{'}une analyse spectrale de la matrice de transition peuvent {\^e}tre interpr{\'e}t{\'e}s comme des probabilit{\'e}s d{'}appartenance de mots {\`a} des classes. Cette m{\'e}thode nous permet d{'}obtenir une classification continue des mots du vocabulaire dans des sous-syst{\`e}mes g{\'e}n{\'e}ratifs contribuant {\`a} la g{\'e}n{\'e}ration de textes composites. Une application pratique est la segmentation de textes h{\'e}t{\'e}rog{\`e}nes en segments homog{\`e}nes d{'}un point de vue linguistique, notamment dans le cas de langues proches par le degr{\'e} de recouvrement de leurs vocabulaires.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="vaillant-etal-2006-analyse">
<titleInfo>
<title>Analyse spectrale des textes : détection automatique des frontières de langue et de discours</title>
</titleInfo>
<name type="personal">
<namePart type="given">Pascal</namePart>
<namePart type="family">Vaillant</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Richard</namePart>
<namePart type="family">Nock</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Claudia</namePart>
<namePart type="family">Henry</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2006-04</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Posters</title>
</titleInfo>
<name type="personal">
<namePart type="given">Piet</namePart>
<namePart type="family">Mertens</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Cédrick</namePart>
<namePart type="family">Fairon</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Anne</namePart>
<namePart type="family">Dister</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Patrick</namePart>
<namePart type="family">Watrin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Leuven, Belgique</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Nous proposons un cadre théorique qui permet, à partir de matrices construites sur la base des données statistiques d’un corpus, d’extraire par des procédés mathématiques simples des informations sur les mots du vocabulaire de ce corpus, et sur la syntaxe des langues qui l’ont engendré. À partir des mêmes données initiales, on peut construire une matrice de similarité syntagmatique (probabilités de transition d’un mot à un autre), ou une matrice de similarité paradigmatique (probabilité de partager des contextes identiques). Pour ce qui concerne la première de ces deux possibilités, les résultats obtenus sont interprétés dans le cadre d’une modélisation du processus génératif par chaînes de Markov. Nous montrons que les résultats d’une analyse spectrale de la matrice de transition peuvent être interprétés comme des probabilités d’appartenance de mots à des classes. Cette méthode nous permet d’obtenir une classification continue des mots du vocabulaire dans des sous-systèmes génératifs contribuant à la génération de textes composites. Une application pratique est la segmentation de textes hétérogènes en segments homogènes d’un point de vue linguistique, notamment dans le cas de langues proches par le degré de recouvrement de leurs vocabulaires.</abstract>
<identifier type="citekey">vaillant-etal-2006-analyse</identifier>
<location>
<url>https://aclanthology.org/2006.jeptalnrecital-poster.26</url>
</location>
<part>
<date>2006-04</date>
<extent unit="page">
<start>619</start>
<end>629</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Analyse spectrale des textes : détection automatique des frontières de langue et de discours
%A Vaillant, Pascal
%A Nock, Richard
%A Henry, Claudia
%Y Mertens, Piet
%Y Fairon, Cédrick
%Y Dister, Anne
%Y Watrin, Patrick
%S Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
%D 2006
%8 April
%I ATALA
%C Leuven, Belgique
%G French
%F vaillant-etal-2006-analyse
%X Nous proposons un cadre théorique qui permet, à partir de matrices construites sur la base des données statistiques d’un corpus, d’extraire par des procédés mathématiques simples des informations sur les mots du vocabulaire de ce corpus, et sur la syntaxe des langues qui l’ont engendré. À partir des mêmes données initiales, on peut construire une matrice de similarité syntagmatique (probabilités de transition d’un mot à un autre), ou une matrice de similarité paradigmatique (probabilité de partager des contextes identiques). Pour ce qui concerne la première de ces deux possibilités, les résultats obtenus sont interprétés dans le cadre d’une modélisation du processus génératif par chaînes de Markov. Nous montrons que les résultats d’une analyse spectrale de la matrice de transition peuvent être interprétés comme des probabilités d’appartenance de mots à des classes. Cette méthode nous permet d’obtenir une classification continue des mots du vocabulaire dans des sous-systèmes génératifs contribuant à la génération de textes composites. Une application pratique est la segmentation de textes hétérogènes en segments homogènes d’un point de vue linguistique, notamment dans le cas de langues proches par le degré de recouvrement de leurs vocabulaires.
%U https://aclanthology.org/2006.jeptalnrecital-poster.26
%P 619-629
Markdown (Informal)
[Analyse spectrale des textes : détection automatique des frontières de langue et de discours](https://aclanthology.org/2006.jeptalnrecital-poster.26) (Vaillant et al., JEP/TALN/RECITAL 2006)
ACL