Une méthode universelle de restauration des signes diacritiques

BOBICEV, Victoria; LAZU, Victoria; CARCEA, Liviu

DSpace Home
→
Facultatea Calculatoare, Informatică şi Microelectronică
→
Conferinţe
→
Conferinţa "Microelectronics and Computer Science"
→
2011
→
View Item

Une méthode universelle de restauration des signes diacritiques

BOBICEV, Victoria; LAZU, Victoria; CARCEA, Liviu

URI: http://repository.utm.md/handle/5014/6424

Date: 2011

Abstract:

Cet article présente une méthode universelle de restauration des signes diacritiques. Presque toutes les langues européennes utilisent les signes diacritiques et leur absence dans le texte est un problème commun. La méthode proposée est indépendante du langage. Elle applique un modèle statistique du texte au niveau des lettres/caractères et n'a besoin que d'un corpus d’un volume réduit pour obtenir de bons résultats. La méthode peut être facilement adaptée aux autres langues; nous avons évalué la méthode pour quatre langues: le roumain, le français, l’italien et l’espagnol. Pour toutes les langues la qualité de la restauration des signes diacritiques est supérieure à 99 pour cent au niveau des lettres. L'algorithme est implémenté en Perl, et peut être utilisé dans tout système de traitement de texte. Nos plans d'avenir comprennent l'évaluation de la méthode pour les autres langues européennes, notamment pour les langues est-européennes dans lesquelles l'utilisation des signes diacritiques est plus intense.

Show full item record