2023
pdf
bib
abs
Détection de faux tickets de caisse à l’aide d’entités et de relations basées sur une ontologie de domaine
Beatriz Martínez Tornés
|
Emanuela Boros
|
Petra Gomez-Krämer
|
Antoine Doucet
|
Jean-Marc Ogier
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 4 : articles déjà soumis ou acceptés en conférence internationale
Dans cet article, nous nous attaquons à la tâche de détection de fraude documentaire. Nous considérons que cette tâche peut être abordée avec des techniques de traitement automatique du langage naturel (TALN). Nous utilisons une approche basée sur la régression, en tirant parti d’un modèle de langage pré-entraîné afin de représenter le contenu textuel, et en enrichissant la représentation avec des entités et des relations basées sur une ontologie spécifique au domaine. Nous émulons une approche basée sur les entités en comparant différents types d’entrée : texte brut, entités extraites et une reformulation du contenu du document basée sur des triplets. Pour notre configuration expérimentale, nous utilisons le seul ensemble de données librement disponible de faux tickets de caisse, et nous fournissons une analyse approfondie de nos résultats. Ils montrent des corrélations intéressantes entre les types de relations ontologiques, les types d’entités (produit, entreprise, etc.) et la performance d’un modèle de langage basé sur la régression qui pourrait aider à étudier le transfert d’apprentissage à partir de méthodes de traitement du langage naturel (TALN) pour améliorer la performance des systèmes de détection de fraude existants.
pdf
bib
abs
Jeu de données de tickets de caisse pour la détection de fraude documentaire
Beatriz Martínez Tornés
|
Théo Taburet
|
Emanuela Boros
|
Kais Rouis
|
Petra Gomez-Krämer
|
Nicolas Sidere
|
Antoine Doucet
|
Vincent Poulain D’andecy
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 4 : articles déjà soumis ou acceptés en conférence internationale
L’utilisation généralisée de documents numériques non sécurisés par les entreprises et les administrations comme pièces justificatives les rend vulnérables à la falsification. En outre, les logiciels de retouche d’images et les possibilités qu’ils offrent compliquent les tâches de la détection de fraude d’images numériques. Néanmoins, la recherche dans ce domaine se heurte au manque de données réalistes accessibles au public. Dans cet article, nous proposons un nouveau jeu de données pour la détection des faux tickets contenant 988 images numérisées de tickets et leurs transcriptions, provenant du jeu de données SROIE (scanned receipts OCR and information extraction). 163 images et leurs transcriptions ont subi des modifications frauduleuses réalistes et ont été annotées. Nous décrivons en détail le jeu de données, les falsifications et leurs annotations et fournissons deux baselines (basées sur l’image et le texte) sur la tâche de détection de la fraude.