L2 mispronunciations : a comparison of didactics-guided detection and diagnosis methods
Erreurs de prononciation en L2 : comparaison de méthodes pour la détection et le diagnostic guidés par la didactique
Résumé
Mispronunciation detection and diagnosis requires systems that are adapted to the specificities of non-native speech. Developing such models remains challenging due to the scarcity of non-native speech corpora and expert annotations. In this work, we propose and compare two approaches, one based on phonetic transcription and the other based on audio-to-audio alignment, meant to be used in computer-assisted pronunciation training (CAPT) software. We evaluate them on a corpus of non-native speech that was annotated following didactic considerations, and find that the alignment-based approach has preferable properties for CAPT, surpassing the precision of the other approach by 31.1 % and 3.8 % absolute on two common mispronunciations of Japanese learners of French.
La détection et diagnostic d'erreurs de prononciation nécessite des systèmes adaptés aux spécificités de la parole non-native. Élaborer de tels systèmes reste difficile à cause de la rareté des corpus dédiés incluant des annotations expertes. Dans cet article, nous proposons et comparons deux approches, l'une basée sur une transcription phonétique et l'autre sur l'alignement de signaux audio, élaborées dans le but de servir dans un programme d'entraînement à la prononciation assisté par ordinateur (EPAO). Nous les évaluons sur un corpus de parole non-native annoté selon des considérations didactiques, et nous trouvons que l'approche basée sur l'alignement a des propriétés préférables pour l'EPAO, dépassant la précision de l'autre approche de 31,1 % et 3,8 % en absolu sur deux erreurs communes des apprenants japonais du français.
Domaines
Informatique et langage [cs.CL]Origine | Fichiers éditeurs autorisés sur une archive ouverte |
---|