Towards the Machine Translation of Scientific Neologisms

Paul Lerner; François Yvon

Résumé

Scientific research continually discovers and invents new concepts, which are then referred to by new terms, neologisms, or neonyms in this context. As the vast majority of publications are written in English, disseminating this new knowledge to the general public often requires translating these terms. However, by definition, no parallel data exist to provide such translations. Therefore, we propose to leverage term definitions as a useful source of information for the translation process. As we discuss, Large Language Models are well suited for this task and can benefit from in-context learning with co-hyponyms and terms sharing the same derivation paradigm. These models, however, are sensitive to the superficial and morphological similarity between source and target terms. Their predictions are also impacted by subword tokenization, especially for prefixed terms. We also extended experiments on segmentation into sub-lexical units with a controlled corpus, with negative prefixation and adverbial suffixation of adjectival bases or pseudowords. Our results confirm the previous ones: language models struggle to generate prefixations due to sub-optimal segmentation, which can be resolved through morphological segmentation. We enrich these results with analyses of the alignment between subword embeddings.

La recherche scientifique découvre et invente continuellement de nouveaux concepts qui sont alors désignés par de nouveaux termes, des néologismes ou néonymes dans ce contexte. Puisque les publications se font très majoritairement en anglais, il convient de traduire fidèlement ces termes dans d'autres langues, comme le français, tout en évitant une multiplication d'anglicismes. Toutefois, il n'existe par définition pas de données parallèles où trouver des néologismes. Nous proposons donc d'exploiter la définition du terme afin de le traduire plus fidèlement. Pour ce faire, nous explorons les capacités de modèles de langues multilingues, qui parviennent à traduire des néologismes scientifiques dans une certaine mesure. Nous montrons notamment qu'ils utilisent souvent des procédés morphosyntaxiques appropriés mais sont limités par la segmentation en unités sous-lexicales, particulièrement pour la préfixation, et biaisés par la fréquence d'occurrences des termes ainsi que par des similarités de surface entre l'anglais et le français. Afin de pallier ces limites, nous proposons de sélectionner des exemples (in-context learning) co-hyponymes du terme ou issus du même paradigme dérivationnel. Nous avons également approfondi les expériences sur la segmentation en unités sous-lexicales avec un corpus contrôlé, avec une préfixation négative et une suffixation adverbiale par base adjectivale ou pseudo-mot. Nos résultats confirment les précédents: les modèles de langues peinent à générer des préfixations en raison d'une segmentation sous-optimale, ce qui peut être résolu grâce à une segmentation morphologique. Nous enrichissons ces résultats par des analyses sur l'alignement entre les plongements des sous-mots.

Towards the Machine Translation of Scientific Neologisms

Vers la traduction automatique de néonymes

Résumé

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Collections

Partager