@inproceedings{benamar-2020-segmentation,
title = "Segmentation de texte non-supervis{\'e}e pour la d{\'e}tection de th{\'e}matiques {\`a} l{'}aide de plongements lexicaux (Unsupervised text segmentation for topic detection using embeddings )",
author = "Benamar, Alexandra",
editor = "Benzitoun, Christophe and
Braud, Chlo{\'e} and
Huber, Laurine and
Langlois, David and
Ouni, Slim and
Pogodalla, Sylvain and
Schneider, St{\'e}phane",
booktitle = "Actes de la 6e conf{\'e}rence conjointe Journ{\'e}es d'{\'E}tudes sur la Parole (JEP, 33e {\'e}dition), Traitement Automatique des Langues Naturelles (TALN, 27e {\'e}dition), Rencontre des {\'E}tudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (R{\'E}CITAL, 22e {\'e}dition). Volume 3 : Rencontre des {\'E}tudiants Chercheurs en Informatique pour le TAL",
month = "6",
year = "2020",
address = "Nancy, France",
publisher = "ATALA et AFCP",
url = "https://aclanthology.org/2020.jeptalnrecital-recital.1",
pages = "1--14",
abstract = "Cet article pr{\'e}sente les principales m{\'e}thodes de segmentation automatique de documents textuels sp{\'e}cifiques. La t{\^a}che de segmentation th{\'e}matique de texte consiste {\`a} analyser un document pour en extraire des sections coh{\'e}rentes. Les m{\'e}thodes de segmentation non supervis{\'e}es cherchent {\`a} optimiser une fonction de probabilit{\'e} de segmentation ou une fonction de similarit{\'e} qui peut {\^e}tre calcul{\'e}e entre les blocs ou au sein des blocs. Elles sont r{\'e}parties en trois cat{\'e}gories : les m{\'e}thodes statistiques, les m{\'e}thodes {\`a} base de graphes et les approches neuronales. Parmi les approches neuronales utilis{\'e}es, nous nous int{\'e}ressons tout particuli{\`e}rement {\`a} celles qui utilisent des plongements lexicaux pour repr{\'e}senter des phrases et d{\'e}finir des segments th{\'e}matiques. Tout d{'}abord, nous montrons que les plongements lexicaux permettent une am{\'e}lioration nette des performances par rapport {\`a} des m{\'e}thodes statistiques. Ensuite, nous {\'e}valuons l{'}impact du choix de la repr{\'e}sentation vectorielle des phrases pour cette t{\^a}che de segmentation non supervis{\'e}e.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="benamar-2020-segmentation">
<titleInfo>
<title>Segmentation de texte non-supervisée pour la détection de thématiques à l’aide de plongements lexicaux (Unsupervised text segmentation for topic detection using embeddings )</title>
</titleInfo>
<name type="personal">
<namePart type="given">Alexandra</namePart>
<namePart type="family">Benamar</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2020-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 6e conférence conjointe Journées d’Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 3 : Rencontre des Étudiants Chercheurs en Informatique pour le TAL</title>
</titleInfo>
<name type="personal">
<namePart type="given">Christophe</namePart>
<namePart type="family">Benzitoun</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Chloé</namePart>
<namePart type="family">Braud</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Laurine</namePart>
<namePart type="family">Huber</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">David</namePart>
<namePart type="family">Langlois</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Slim</namePart>
<namePart type="family">Ouni</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Sylvain</namePart>
<namePart type="family">Pogodalla</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Stéphane</namePart>
<namePart type="family">Schneider</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA et AFCP</publisher>
<place>
<placeTerm type="text">Nancy, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Cet article présente les principales méthodes de segmentation automatique de documents textuels spécifiques. La tâche de segmentation thématique de texte consiste à analyser un document pour en extraire des sections cohérentes. Les méthodes de segmentation non supervisées cherchent à optimiser une fonction de probabilité de segmentation ou une fonction de similarité qui peut être calculée entre les blocs ou au sein des blocs. Elles sont réparties en trois catégories : les méthodes statistiques, les méthodes à base de graphes et les approches neuronales. Parmi les approches neuronales utilisées, nous nous intéressons tout particulièrement à celles qui utilisent des plongements lexicaux pour représenter des phrases et définir des segments thématiques. Tout d’abord, nous montrons que les plongements lexicaux permettent une amélioration nette des performances par rapport à des méthodes statistiques. Ensuite, nous évaluons l’impact du choix de la représentation vectorielle des phrases pour cette tâche de segmentation non supervisée.</abstract>
<identifier type="citekey">benamar-2020-segmentation</identifier>
<location>
<url>https://aclanthology.org/2020.jeptalnrecital-recital.1</url>
</location>
<part>
<date>2020-6</date>
<extent unit="page">
<start>1</start>
<end>14</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Segmentation de texte non-supervisée pour la détection de thématiques à l’aide de plongements lexicaux (Unsupervised text segmentation for topic detection using embeddings )
%A Benamar, Alexandra
%Y Benzitoun, Christophe
%Y Braud, Chloé
%Y Huber, Laurine
%Y Langlois, David
%Y Ouni, Slim
%Y Pogodalla, Sylvain
%Y Schneider, Stéphane
%S Actes de la 6e conférence conjointe Journées d’Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 3 : Rencontre des Étudiants Chercheurs en Informatique pour le TAL
%D 2020
%8 June
%I ATALA et AFCP
%C Nancy, France
%G French
%F benamar-2020-segmentation
%X Cet article présente les principales méthodes de segmentation automatique de documents textuels spécifiques. La tâche de segmentation thématique de texte consiste à analyser un document pour en extraire des sections cohérentes. Les méthodes de segmentation non supervisées cherchent à optimiser une fonction de probabilité de segmentation ou une fonction de similarité qui peut être calculée entre les blocs ou au sein des blocs. Elles sont réparties en trois catégories : les méthodes statistiques, les méthodes à base de graphes et les approches neuronales. Parmi les approches neuronales utilisées, nous nous intéressons tout particulièrement à celles qui utilisent des plongements lexicaux pour représenter des phrases et définir des segments thématiques. Tout d’abord, nous montrons que les plongements lexicaux permettent une amélioration nette des performances par rapport à des méthodes statistiques. Ensuite, nous évaluons l’impact du choix de la représentation vectorielle des phrases pour cette tâche de segmentation non supervisée.
%U https://aclanthology.org/2020.jeptalnrecital-recital.1
%P 1-14
Markdown (Informal)
[Segmentation de texte non-supervisée pour la détection de thématiques à l’aide de plongements lexicaux (Unsupervised text segmentation for topic detection using embeddings )](https://aclanthology.org/2020.jeptalnrecital-recital.1) (Benamar, JEP/TALN/RECITAL 2020)
ACL