Towards the Machine Translation of Scientific Neologisms - Machine Learning and Information Access
Rapport Année : 2025

Towards the Machine Translation of Scientific Neologisms

Vers la traduction automatique de néonymes

Paul Lerner
François Yvon

Résumé

Scientific research continually discovers and invents new concepts, which are then referred to by new terms, neologisms, or neonyms in this context. As the vast majority of publications are written in English, disseminating this new knowledge to the general public often requires translating these terms. However, by definition, no parallel data exist to provide such translations. Therefore, we propose to leverage term definitions as a useful source of information for the translation process. As we discuss, Large Language Models are well suited for this task and can benefit from in-context learning with co-hyponyms and terms sharing the same derivation paradigm. These models, however, are sensitive to the superficial and morphological similarity between source and target terms. Their predictions are also impacted by subword tokenization, especially for prefixed terms. We also extended experiments on segmentation into sub-lexical units with a controlled corpus, with negative prefixation and adverbial suffixation of adjectival bases or pseudowords. Our results confirm the previous ones: language models struggle to generate prefixations due to sub-optimal segmentation, which can be resolved through morphological segmentation. We enrich these results with analyses of the alignment between subword embeddings.
La recherche scientifique découvre et invente continuellement de nouveaux concepts qui sont alors désignés par de nouveaux termes, des néologismes ou néonymes dans ce contexte. Puisque les publications se font très majoritairement en anglais, il convient de traduire fidèlement ces termes dans d'autres langues, comme le français, tout en évitant une multiplication d'anglicismes. Toutefois, il n'existe par définition pas de données parallèles où trouver des néologismes. Nous proposons donc d'exploiter la définition du terme afin de le traduire plus fidèlement. Pour ce faire, nous explorons les capacités de modèles de langues multilingues, qui parviennent à traduire des néologismes scientifiques dans une certaine mesure. Nous montrons notamment qu'ils utilisent souvent des procédés morphosyntaxiques appropriés mais sont limités par la segmentation en unités sous-lexicales, particulièrement pour la préfixation, et biaisés par la fréquence d'occurrences des termes ainsi que par des similarités de surface entre l'anglais et le français. Afin de pallier ces limites, nous proposons de sélectionner des exemples (in-context learning) co-hyponymes du terme ou issus du même paradigme dérivationnel. Nous avons également approfondi les expériences sur la segmentation en unités sous-lexicales avec un corpus contrôlé, avec une préfixation négative et une suffixation adverbiale par base adjectivale ou pseudo-mot. Nos résultats confirment les précédents: les modèles de langues peinent à générer des préfixations en raison d'une segmentation sous-optimale, ce qui peut être résolu grâce à une segmentation morphologique. Nous enrichissons ces résultats par des analyses sur l'alignement entre les plongements des sous-mots.
Fichier principal
Vignette du fichier
report.pdf (682.29 Ko) Télécharger le fichier
Origine Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-04852293 , version 1 (20-12-2024)

Licence

Identifiants

  • HAL Id : hal-04852293 , version 1

Citer

Paul Lerner, François Yvon. Towards the Machine Translation of Scientific Neologisms. Rapport D2-3.1, ISIR, Université Pierre et Marie Curie UMR CNRS 7222. 2025. ⟨hal-04852293⟩
0 Consultations
0 Téléchargements

Partager

More