Extraction d'acronymes torturés dans la littérature scientifique - SIGMA Access content directly
Conference Papers Year : 2024

Extraction d'acronymes torturés dans la littérature scientifique

Abstract

Public policies push researchers to steadily publish scientific articles in reputable journals. This pressure leads a minority of unscrupulous people to commit fraud, notably by resorting to tortured phrases to disguise plagiarism. Sometimes this type of content is not detected by the peer review process, leading to its publication. In order to decontaminate the scientific literature, we propose a tortured acronym extraction task to detect fraudulent publications. A benchmark is run using a corpus of 75 tortured scientific articles in open access, with an acronym extraction and classification pipeline. We obtained an F-score of 0.74 for the tortured acronym extraction task, which can be improved by enriching the dataset. We have created a baseline against which anyone wishing to improve this task can refer to.
Les politiques publiques poussent les chercheurs à publier le plus régulièrement possible des articles scientifiques dans des revues réputées. Cette pression amène une minorité de personnes peu scrupuleuses à frauder, en utilisant notamment des phrases torturées afin de déguiser des plagiats. Il arrive que ce type de contenu ne soit pas détecté lors de l'évaluation par les pairs, amenant à sa publication. Dans l'optique de dépolluer la littérature scientifique, nous proposons une tâche d'extraction d'acronymes torturés permettant la détection de publications frauduleuses. Un benchmark est effectué grâce à un corpus de 75 articles scientifiques torturés et en open access, avec une chaîne de traitements permettant l'extraction et de classification d'acronymes. La tâche d'extraction d'acronymes torturés obtient une F-mesure de 0,74, qui pourra être améliorée par l'enrichissement du corpus. Nous avons constitué une ligne de référence (baseline) à laquelle toute personne désireuse d'améliorer la performance de cette tâche pourra se référer.
Fichier principal
Vignette du fichier
TextMine_TorturedAcronyms.pdf (339.15 Ko) Télécharger le fichier
TextMine_presentation.pdf (2.33 Mo) Télécharger le fichier
Origin : Files produced by the author(s)
licence : CC BY - Attribution
licence : CC BY - Attribution

Dates and versions

hal-04426448 , version 1 (01-02-2024)

Licence

Attribution

Identifiers

  • HAL Id : hal-04426448 , version 1

Cite

Alexandre Clausse, Guillaume Cabanac, Pascal Cuxac, Cyril Labbé. Extraction d'acronymes torturés dans la littérature scientifique. Atelier TextMine de la conférence Extraction et Gestion des Connaissances (EGC) de 2024, Jan 2024, Dijon (Bourgogne), France. ⟨hal-04426448⟩
84 View
26 Download

Share

Gmail Facebook X LinkedIn More