SYSTRAN Model Studio
貴社専用の翻訳モデル
独自のデータや翻訳メモリを使用してトレーニングされた独自のカスタマイズされた翻訳モデルを作成し、翻訳の生産性を大幅に向上させます。
自社データでカスタムモデルを作成
評価
モデルのスコアを 評価して比較する
独自のテストセットを追加するか、 データのアップロード段階でテストと評価のために トレーニングデータの一部を割り当てることを選択できます。
SYSTRANの 幅広いカタログを活用する
翻訳モデルをゼロから構築するのは困難ですが、幸いにゼロから始める必要はありません。シストランは何十年もの経験を持ち、AI翻訳のリーダーとして、幅広い翻訳モデルのノウハウを持っています
最初に、シストランのカタログから既存のモデルを選択し、その後、独自のデータでカスタマイズすることができます。50以上の言語や法律、医療、金融、ITなどの人気のあるドメインの数十ものモデルが利用可能です!
ウェビナー
Model Studio : 簡単、迅速な翻訳エンジンAI学習プラットフォーム
翻訳の品質を向上させるには、 カスタマイズが不可欠であり、Model Studioはまさにそれが実現できるソリューションです。
このオンラインセミナーでは、シストランのプロダクトオーナーであるGuersande Chaminadeが、SYSTRAN model studioを使用してカスタム翻訳モデルの作成する方法をご紹介します。
カスタマイズ
各業界に合わせた翻訳ソリューションを提供
NFA機能とは?
BLEUスコアはターゲット言語の評価にのみ使用しますか?
現時点では、Model StudioはBLEUスコアのみを表示します。Cometのような他のツールを取り入れることに積極的に取り組んでいますが、当面の主な評価指標としてBLEUスコアを使用することの効率性と使いやすさに焦点を当てています。
SYSTRAN translate ServerとSYSTRAN translate Private Cloudなど複数のモデルを同時に展開できますか?
複数のモデルを同時に展開し、プロジェクトに最も適したものを選択することが可能です。モデルを実際に運用する前に、評価機能を活用することで、各モデルの性能を確認することができます。
最大で3つのモデルを並行して比較することが可能なため、ご自身の要件に最適なモデルを簡単に見つけることができます。
ただし、評価機能を利用しなくても、複数のモデルを手軽にデプロイすることは可能です。
最大100万セグメントの制限とは?
Model Studioは、最大100万文ペアを最大限に活用するように設計されており、データのクリーンさと堅牢性の両面でその制限が適用されます。この制限は、データの重複排除や潜在的な文字の破損を抑制した後のものに適用されます。
また、ネットワークの問題を避けるために、非常に大きなファイルを一度にアップロードしないことをお勧めします。
トレーニングデータでマークアップタグはどのように処理されますか?
現在、タグやプレースホルダーの扱いは難しい課題となっています。タグを含む長文は処理を改善するために削除されることがあります。しかし、タグをより適切に扱うための解決策については積極的に取り組んでおり、この機能は2024年に利用可能になる予定です。
その間、翻訳支援ツール(CatTools)にタグを入力して、これらのツールで管理させることができます。
トレーニングデータは匿名化されますか?
プレースホルダーがタグとして扱われる場合、データの匿名化に使用するのは困難です。
トレーニングデータは、プレースホルダーやタグの代わりに「XX」を使用して匿名化すべきです。
これにより、プライバシーの保護とデータ保護規制への準拠を確保できます。ご安心ください。シストランは顧客データのセキュリティを最優先し、プラットフォームには強固な安全対策が施されています。
例として、自動トレーニングデータ削除機能が提供されており、これはデータセットレベルで調整が可能です。初期値は90日に設定されていますが、180日やデータを削除しないというオプションも用意されています。この値はアップロード後に変更することができます。
アップロード後のデータのクリーニング方法
自動データクリーニング は、アップロード時および処理中に行われます。
データは大きく2つのクリーニングステップを経ます。
まず、原文と訳文の両方のセグメントから重複を削除します。次に、誤ったエンコーディングの解決に取り組み、ターゲットまたはソースから空の文を排除します。
その後、データ処理中には、主に誤って整列されたセグメントや誤った言語に対するさらなるフィルタリングとクリーニングが行われます。