Abstract:
Cet article présente une méthode universelle de restauration des signes diacritiques. Presque toutes les langues européennes utilisent les signes diacritiques et leur absence dans le texte est un problème commun. La méthode proposée est indépendante du langage. Elle applique un modèle statistique du texte au niveau des lettres/caractères et n'a besoin que d'un corpus d’un volume réduit pour obtenir de bons résultats. La méthode peut être facilement adaptée aux autres langues; nous avons évalué la méthode pour quatre langues: le roumain, le français, l’italien et l’espagnol. Pour toutes les langues la qualité de la restauration des signes diacritiques est supérieure à 99 pour cent au niveau des lettres. L'algorithme est implémenté en Perl, et peut être utilisé dans tout système de traitement de texte. Nos plans d'avenir comprennent l'évaluation de la méthode pour les autres langues européennes, notamment pour les langues est-européennes dans lesquelles l'utilisation des signes diacritiques est plus intense.