2024
pdf
bib
abs
La subjectivité dans le journalisme québécois et belge : transfert de connaissance inter-médias et inter-cultures
Louis Escouflaire
|
Antonin Descampe
|
Antoine Venant
|
Cédrick Fairon
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 2 : traductions d'articles publiès
Cet article s’intéresse à la capacité de transfert des modèles de classification de texte dans le domaine journalistique, en particulier pour distinguer les articles d’opinion des articles d’information. A l’ère du numérique et des réseaux sociaux, les distinctions entre ces genres deviennent de plus en plus floues, augmentant l’importance de cette tâche de classification. Un corpus de 80 000 articles de presse provenant de huit médias, quatre québécois et quatre belges francophones, a été constitué. Pour identifier les thèmes des articles, une clusterisation a été appliquée sur les 10 000 articles issus de chaque média, assurant une distribution équilibrée des thèmes entre les deux genres opinion et information. Les données ont ensuite été utilisées pour entraîner (ou peaufiner) et évaluer deux types de modèles : CamemBERT (Martin et al., 2019), un modèle neuronal pré-entraîné, et un modèle de régression logistique basé sur des traits textuels. Dix versions différentes de chaque modèle sont entraînées : 8 versions mono-médias’, chacune peaufinée sur l’ensemble d’entraînement du sous-corpus correspondant à un média, et deux versions multi-médias’, l’une peaufinée sur 8000 articles québécois, l’autre sur les articles belges. Les résultats montrent que les modèles CamemBERT surpassent significativement les modèlesstatistiques en termes de capacité de transfert (voir Figures 1 et 2). Les modèles CamemBERT montrent une plus grande exactitude, notamment sur les ensembles de test du même média que celui utilisé pour l’entraînement. Cependant, les modèles entraînés sur Le Journal de Montréal(JDM) sont particulièrement performants même sur d’autres ensembles de test, suggérant une distinction plus claire entre les genres journalistiques dans ce média. Les modèles CamemBERT multi-médias affichent également de bonnes performances. Le modèle québécois notamment obtient les meilleurs résultats en moyenne, indiquant qu’une diversité de sources améliore la généricité du modèle. Les modèles statistiques (mono- et multi-médias) montrent des performances globalement inférieures, avec des variations significatives selon les médias. Les textes québécois sont plus difficiles à classer pour ces modèles, suggérant des différences culturelles dans les pratiques journalistiques entre le Québec et la Belgique. L’analyse des traits révèle que l’importance de certains éléments textuels, comme les points d’exclamation et les marqueurs de temps relatifs, varient considérablement entre les modèles entraînés sur différents médias. Par exemple, les éditoriaux du JDM utilisent fréquemment des points d’exclamation, reflétant un style plus affirmé et polarisant. En revanche, les articles de La Presse présentent des particularités qui compliquent la généralisation de la tâche. En sommme, cette étude démontre la supériorité des modèles neuronaux comme CamemBERT pour la classification de textes journalistiques, notamment grâce à leur capacité de transfert, bien que les modèles basés sur des traits se distinguent par la transparence de leur raisonnement’. Elle met également en lumière des différences significatives entre les cultures journalistiques québécoises et belges.
2023
pdf
bib
abs
Predicates and entities in Abstract Meaning Representation
Antoine Venant
|
François Lareau
Proceedings of the Seventh International Conference on Dependency Linguistics (Depling, GURT/SyntaxFest 2023)
Nodes in Abstract Meaning Representation (AMR) are generally thought of as neo-Davidsonian entities. We review existing translation into neo-Davidsonian representations and show that these translations inconsistently handle copula sentences. We link the problem to an asymmetry arising from a problematic handling of words with no associated PropBank frames for the underlying predicate. We introduce a method to automatically and uniformly decompose AMR nodes into an entity-part and a predicative part, which offers a consistent treatment of copula sentences and quasi- predicates such as brother or client.
2021
pdf
bib
abs
Generic Oracles for Structured Prediction
Christoph Teichmann
|
Antoine Venant
Proceedings of the 17th International Conference on Parsing Technologies and the IWPT 2021 Shared Task on Parsing into Enhanced Universal Dependencies (IWPT 2021)
When learned without exploration, local models for structured prediction tasks are subject to exposure bias and cannot be trained without detailed guidance. Active Imitation Learning (AIL), also known in NLP as Dynamic Oracle Learning, is a general technique for working around these issues by allowing the exploration of different outputs at training time. AIL requires oracle feedback: an oracle is any algorithm which can, given a partial candidate solution and gold annotation, find the correct (minimum loss) next output to produce. This paper describes a general finite state technique for deriving oracles. The technique describe is also efficient and will greatly expand the tasks for which AIL can be used.
2019
pdf
bib
abs
Semantic Expressive Capacity with Bounded Memory
Antoine Venant
|
Alexander Koller
Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics
We investigate the capacity of mechanisms for compositional semantic parsing to describe relations between sentences and semantic representations. We prove that in order to represent certain relations, mechanisms which are syntactically projective must be able to remember an unbounded number of locations in the semantic representations, where nonprojective mechanisms need not. This is the first result of this kind, and has consequences both for grammar-based and for neural systems.
2015
pdf
bib
Dynamics of Public Commitments in Dialogue
Antoine Venant
|
Nicholas Asher
Proceedings of the 11th International Conference on Computational Semantics
2013
pdf
bib
Expressivity and comparison of models of discourse structure
Antoine Venant
|
Nicholas Asher
|
Philippe Muller
|
Pascal Denis
|
Stergos Afantenos
Proceedings of the SIGDIAL 2013 Conference