Traduction automatique basée sur des règles par rapport à la traduction automatique statistique
Pour traiter toute traduction, humaine ou automatisée, la signification d'un texte dans la langue originale (source) doit être entièrement restaurée dans la langue cible, c'est-à-dire la traduction. Bien qu'en surface cela semble simple, c'est beaucoup plus complexe. La traduction n'est pas une simple substitution mot à mot. Un traducteur doit interpréter et analyser tous les éléments du texte et savoir comment chaque mot peut en influencer un autre. Cela nécessite une grande expertise en grammaire, syntaxe (structure de phrase), sémantique (sens), etc., dans les langues source et cible, ainsi qu'une connaissance de chaque région locale.
La traduction humaine et la traduction automatique ont chacune leur part de défis. Par exemple, deux traducteurs individuels ne peuvent pas produire des traductions identiques d'un même texte dans la même paire de langues, et plusieurs séries de révisions peuvent être nécessaires pour répondre à la satisfaction du client. Mais le plus grand défi réside dans la façon dont la traduction automatique peut produire des traductions de qualité publiables.
Technologie De Traduction Automatique Basée Sur Des Règles
La traduction automatique basée sur des règles s'appuie sur d'innombrables règles linguistiques intégrées et des millions de dictionnaires bilingues pour chaque paire de langues.
Le logiciel analyse le texte et crée une représentation transitoire à partir de laquelle le texte dans la langue cible est généré. Ce processus nécessite des lexiques complets avec des informations morphologiques, syntaxiques et sémantiques, ainsi qu'un grand nombre de règles. Le logiciel utilise ces ensembles de règles complexes, puis transfère la structure grammaticale de la langue source dans la langue cible.
Les traductions sont construites sur des dictionnaires gigantesques et des règles linguistiques sophistiquées. Les utilisateurs peuvent améliorer la qualité des traductions prêtes à l'emploi en ajoutant leur terminologie au processus de traduction. Ils créent des dictionnaires définis par l'utilisateur qui remplacent les paramètres par défaut du système.
Dans la plupart des cas, il y a deux étapes : un investissement initial qui augmente considérablement la qualité à un coût limité, et un investissement continu pour augmenter progressivement la qualité. Alors que la MT basée sur des règles amène les entreprises au seuil de qualité et au-delà, le processus d'amélioration de la qualité peut être long et coûteux.
Technologie de traduction automatique statistique
La traduction automatique statistique utilise des modèles de traduction statistique dont les paramètres découlent de l'analyse de corpus monolingues et bilingues. La création de modèles de traduction statistique est un processus rapide, mais la technologie repose largement sur des corpus multilingues existants. Un minimum de 2 millions de mots pour un domaine spécifique et encore plus pour le langage général sont requis. Théoriquement, il est possible d'atteindre le seuil de qualité, mais la plupart des entreprises ne disposent pas de si grandes quantités de corpus multilingues existants pour construire les modèles de traduction nécessaires. En outre, la traduction automatique statistique est gourmande en ressources CPU et nécessite une configuration matérielle complète pour exécuter des modèles de traduction pour des niveaux de performances moyens.
MT basé sur des règles et MT statistique
MT basé sur des règles offre une bonne qualité hors domaine et est par nature prévisible. La personnalisation basée sur un dictionnaire garantit une qualité et une conformité améliorées avec la terminologie de l'entreprise. Mais les résultats de traduction peuvent manquer de la fluidité attendue par les lecteurs. En termes d'investissement, le cycle de personnalisation nécessaire pour atteindre le seuil de qualité peut être long et coûteux. Les performances sont élevées même sur le matériel standard.
Les MT statistiques offrent une bonne qualité lorsque de grandes entreprises qualifiées sont disponibles. La traduction est fluide, c'est-à-dire qu'elle lit bien et répond donc aux attentes des utilisateurs. Cependant, la traduction n'est ni prévisible ni cohérente. La formation de bons corpora est automatisée et moins chère. Mais la formation sur les corpus de langage général, c'est-à-dire les textes autres que le domaine spécifié, est médiocre. En outre, la MT statistique nécessite un matériel important pour créer et gérer des modèles de traduction volumineux.
MT basé sur des règles | MT statistique |
---|---|
+ Qualité cohérente et prévisible | - Qualité de traduction imprévisible |
+ Qualité de traduction hors domaine | - Mauvaise qualité hors domaine |
+ Connaît les règles grammaticales | - Ne connaît pas la grammaire |
+ Hautes performances et robustesse | - Exigences élevées en termes d'espace disque et de CPU |
+ Cohérence entre les versions | - Incohérence entre les versions |
- Manque de fluidité | + Bonne fluidité |
- Difficulté à gérer les exceptions aux règles | + Bon pour intercepter les exceptions aux règles |
- Coûts élevés de développement et de personnalisation | + Coûts de développement rapides et rentables |
Compte tenu des exigences globales, il existe un besoin évident d'une troisième approche grâce à laquelle les utilisateurs atteindraient une meilleure qualité de traduction et des performances élevées (similaire à MT basé sur des règles), avec moins d'investissement (similaire à MT statistique).