機械翻訳とは何ですか？

自動翻訳の歴史

自動翻訳は機械翻訳（Machine Translation）のことです。これは、コンピューターソフトウェアを使って、ある自然言語（例：英語）から別の自然言語（例：スペイン語）にテキストを変換するプロセスです。

人手翻訳でも自動翻訳でも、原文（ソース）の言語でのテキストの意味を、目標の言語である訳文に完全に再現する必要があります。これは簡単なように思えますが、実に複雑です。単語の単純な置き換えではなく、翻訳者はテキストのすべての要素を解釈し、分析し、各単語が他の単語にどのように影響するかを把握する必要があります。これには、ソース言語と目標言語の文法、構文、意味などの幅広い専門知識が必要です。

人手翻訳と自動翻訳にはそれぞれ課題があります。例えば、同じ言語ペアの同じテキストを2人の翻訳者が完全に同じように翻訳することはありません。顧客の満足を得るためには、何度も修正が必要となります。しかし、自動翻訳において最も難しいのは、高品質の翻訳を生成することです。

ルールベース自動翻訳

ルールベース自動翻訳は、膨大な数の言語ルールと、各言語ペアごとに数百万のバイリンガル辞書に依存しています。

ソフトウェアはテキストを解析し、その後、目標言語のテキストを生成するための過渡的な表現を作り出します。このプロセスには、形態論的、統語的、意味的情報を含んだ広範な辞書や大量のルールが必要です。ソフトウェアはこれらの複雑なルールセットを利用して、ソース言語の文法構造を目標言語に移します。

翻訳は辞書と文法のルールに基づいて構築されます。ユーザーは独自の用語を翻訳プロセスに追加することで、デフォルトの設定を上書きし、翻訳の品質を向上させることができます。

ほとんどの場合、初期投資の段階で、限られたコストで品質を大幅に向上させますが、その後も品質を向上させるために継続的な投資が必要です。ルールベース自動翻訳は一気に品質の基準点を超えるところまで導きますが、品質向上のプロセスは時間と費用がかかる場合があります。

統計的自動翻訳

統計的機械翻訳は、統計モデルを用いており、そのパラメーターは単一言語とバイリンガルの文書データから分析されます。この翻訳モデルの構築は迅速ですが、既存の多言語文書データに強く依存しています。特定の分野では最低でも200万語、一般的な言語ではそれ以上のデータが必要です。理論的には品質の合格基準に到達可能ですが、多くの企業が必要な翻訳モデルを構築するには十分な量の多言語文書データを保有していません。さらに、統計的自動翻訳はCPUを多く消費し、平均的な翻訳パフォーマンスを実行するには、広範なハードウェア構成が必要です。

ルールベース自動翻訳 vs. 統計的自動翻訳

ルールベース自動翻訳は、幅広い分野で優れた品質を提供し、予測可能な性質を持っています。辞書ベースのカスタマイズにより、品質が向上し、企業用語にも適合します。ただし、読者の期待する滑らかさが欠けることがあります。品質の基準点に到達するまでのカスタマイズには時間とコストがかかりますが、一般的なハードウェアでも高いパフォーマンスを発揮します。

統計的自動翻訳は、大量かつ質の高い文書データがあると良好な品質を提供します。翻訳は滑らかで読みやすく、ユーザーの期待に応えます。ただし、翻訳結果の予測しやすさや一貫性があるわけではありません。特定の領域で優れた文書データがあると、トレーニングの成果が向上し、コストも削減できる利点があります。ただし、一般的な言語コーパスでのトレーニング結果は劣ります。さらに、大規模な翻訳モデルを構築・管理するには、統計的自動翻訳には高性能なハードウェアが必要です。

ルールベース自動翻訳	統計的自動翻訳
一貫性と予測可能性の高い品質	予測困難な翻訳品質
異なる領域での品質は許容可能	異なる領域での品質が低い
文法規則がある	文法規則を理解不能

高性能と信頼性	高いCPUとディスク容量が必要
バージョン間の整合性	バージョン間が非整合

流暢さの欠如	流暢
例外に対処しにくい	例外を見つけるのに適している

開発費用が高い	迅速かつ経済的な開発が可能

全体の要件を考えると、高い翻訳品質とパフォーマンスを実現できる手法が必要です。ルールベースのような品質を保ちつつ、統計ベースのような投資を抑えたアプローチが望まれます。