「単語単位のトークン化」は単語数を数えるだけ




前回の記事で私がかなり混乱していた「単語単位のトークン化」ですが、 コミュニティ で質問させてもらったり、SDL のブログを読み直したりして、なんとなく理解できました。参考にした SDL の記事は、「 翻訳メモリの互換性 SDL Trados Studio 2019 / 2017 / 2015 Trados Studio 2019 – 進歩した日本語原文の解析 」です。


32-10.png


結論としては、すみません、upLIFT がどうとか、マッチ率がどうかいうのは、ほぼ私の勘違いでした。簡単にまとめると、こんな感じです。




・普段この機能を使うことはないので、デフォルトのまま無効にしておけばよい



「単語単位のトークン化」は、日本語の原文について、文字数ではなく、単語数を知りたいときにのみ使う機能だそうです。「単語数」が何を意味するのかは後述しますが、原文が日本語のときに単語数が必要になることはほぼないので、実はこの機能を使用する機会もほぼありません。私はいろいろと疑って考えてしまって、この機能が upLIFT の動作に影響するのではないか、マッチ率の計算が翻訳者にとって不利になるのではないか、などと心配していましたがそうしたことはなさそうです。


日本語の単語数


単語単位のトークン化と単語数については、上記に挙げたブログの「 Trados Studio 2019 – 進歩した日本語原文の解析 」に説明されています。最初からこの記事を素直な気持ちで読んでいれば、こんなに混乱することはなかったと思います。が、すみません、ついつい長年の習慣で、Trados さんの情報には何か別の意味がありそうとか、文字どおりの意味のはずがないとか、そんな気持ちで私はこの記事を読んでしまいました。

例として、「 WAFの役割」という日本語の単語数を考えてみます。この日本語のカウントは、以下のようになります。

  ?@ 単語単位のトークン化を使用しない場合 --> 4 単語
  ?A 単語単位のトークン化を使用する場合 --> 3 単語

?@ の場合、「 WAF」という英文字のかたまりは 1 単語と数え、それ以外は文字をそのまま数えます。Word の「単語数」と同じカウント方法です。これに対し、単語単位のトークン化を使用する ?A の場合は、「 WAF」、「 」、「 役割」で 3 単語となります。

日本語が原文の場合、料金はたいてい単語ベースではなく文字ベースです。なので、単語単位のトークン化を使用する、しないの以前に、「単語数」自体にあまり意味がありません。

私がそれでも「単語数」をちょっと気にしていたのは、過去に、?@ の単語数に対して通常の文字単価を適用されたケースがあったからです。これには、さすがに強く抗議しました。文字単価は単語単価より低いことが多いので、たとえ英単語でも「WAF」という 1 単語を 1 文字のお値段で訳すことはできません。英単語をそのまま使うとしても、訳文には「WAF」と 3 文字を入力しますし、そもそもその前に「WAF」とはどういう意味なのか、英語として使っていいのか、とちゃんと翻訳作業をしています。


翻訳メモリの互換性 — 2015 と 2017 SR1 での解析結果の差異


私が「単語単位のトークン化」の設定にここまでこだわってしまったのは、上記の「単語数」が気になっていたこととは別に、2015 から 2017 SR1 になってあいまい一致のマッチ率がずいぶん上がっているような気がしていたからです。「マッチ率が上がる」ということは、つまり「翻訳料金が下がる」ということであり、特に、あいまい一致に費やす作業量はそれなりに大きくなることが多いので、翻訳者としてはちょっと困ったなぁと思っていました。こんな偏った翻訳者目線で考えていたことが、今回の混乱の原因です。すみません。

2015 と 2017 SR1 での解析結果の差異については、最初に挙げたブログの「 翻訳メモリの互換性 SDL Trados Studio 2019 / 2017 / 2015 」に詳しく説明されています。解析結果の差異は解消されているようですし、この差異の解消に「単語単位のトークン化」の設定が関係することもないようです。

「単語単位のトークン化」を使用すると解析結果は確かに変わりますが、これは、最初に説明したとおり、単語単位で解析するようになるので結果が変わるということです。繰り返しですが、原文が日本語の場合は文字ベースの料金です。なので、「単語単位のトークン化」は使用せず、そのまま文字ベースで解析するのが適切です。「どっちで解析すればマッチ率が下がるのか?」といった翻訳者目線の損得で考えてはいけませんでした。(すみません、反省します。)


というわけで今回は以上です。「単語単位のトークン化」はデフォルトで使用しない設定です。単語数を数える以外には特に意味のない設定なので、素直にそのまま放っておいてよかったのです。マッチ率を上げたり下げたりできる都合のいい設定なんて、あるわけないですよね。いろいろと混乱させてしまい、失礼しました。




  




最新記事
にほんブログ村 英語ブログ 英語 通訳・翻訳へ
にほんブログ村
 
翻訳ランキング
  翻訳ブログランキング参加中
翻訳ブログ人気ランキング


タグ
検索
ご意見・ご感想

ご意見、ご感想、ご質問をお待ちしております。
こちらから、どうぞお気軽に!

記事一覧
◆パッケージについて
作業前に内容を確認する
作業前に設定を変更する
メモリをアップグレードする (2017 SR1)
格納されているファイルにアクセスする

◆Trados の機能
 表示フィルタ・高度な表示フィルタ
2021 の表示フィルタ
タグの中の検索
プラグイン
プラグイン for 2019
変更履歴
すべてのコンテンツ
 検証機能
全般の設定
QA Checker
QuickInsert
印刷プレビュー
メモリのフィールド
ファイルの解析 ?@
ファイルの解析 ?A
 AutoSggest
ATOK との競合
プラグイン
 ショートカット キー
設定方法
便利なキー
高度な表示フィルタ
変更履歴
繰り返しの自動反映
 upLIFT テクノロジー
フラグメント一致
あいまい一致の自動修正
単語数のカウント
自動置換 > 単位
ジャンプ
用語認識
MultiTerm
変数リスト

◆Trados のバージョン・エディション
2021 SR2 CU9
2021 の新機能
プラグインとアプリの 2021 対応 (2020/08)
2017 SR1 の最近のバグ (2020/05)
プラグインとアプリの 2019 対応 (2019/02)
2019 の新機能
Starter エディション
2017 SR1 の新機能
メモリのアップグレード (2017 SR1)

◆プラグインとアプリ
2024 対応 (2024/08)
フィルタで繰り返しを除外
原文の英数字を訳文にコピー
パッケージの中身を一覧表示
コメントを Excel にエクスポート
選択箇所の検索結果を別画面で一覧表示
メモリをアップグレード
用語集を変換
コメントや変更履歴のユーザー名を変更
sdlxliff ファイルを Excel にエクスポート
Community Advanced Display Filter for 2019
Community Advanced Display Filter
Regex Match AutoSuggest Provider
PackageReader
Comment View Plugin
SegmentSearcher
TM Lifting
Glossary Converter
SDL Batch Anonymizer
Export to Excel

◆トラブルシューティング
QuickInsert の設定が表示されない
QuickInsert が動かない
 訳文生成できない
分節の結合
コメント
表示フィルタのハイライト
ハイパーリンク タグ
 メモリがヒットしてこない
完全一致が登録されていない
検索オプション
言語ペア
サーバー TM
Trados のバージョン
空メモリから作業を始めた場合
単語単位のトークン化
「TM はアップグレードが必要」が消えない
検証の除外設定が効かない
エディタの動きが遅い
エディタが落ちる
ファイルの解析が終わらない
エディタ上のフォントが変わらない
用語が認識されない
同じ用語が何回も表示される
パッケージを正常に開けない

◆翻訳作業に役立つ Tips
タグの中の文字を検索する
複数の分節に分かれている場合の処理
メモリに登録されるユーザー名を変える
自分の訳文用のメモリを作る
Trados の設定を変える
パッケージを別プロジェクトとして開き直す
 訳文を表示する方法
印刷プレビュー
訳文のみで保存
訳文の表示
 単語数・文字数のカウント
解析レポート ?@
解析レポート ?A
単語単位のトークン化
 ショートカット キーを設定する
設定方法
便利なキー
変更履歴を記録する
繰り返しを自動入力する
エディタ上のフォントを変える
1 つの原文に複数の訳文を登録する
単位記号の前にスペースを入れる
英日と日英で同じメモリを使う

◆Trados 以外のツール
 CAT ツール
Memsource
memoQ
 その他のツール
ATOK
   Xbench
変更履歴
使い方【前編】
使い方【後編】
QA Distiller
AutoHotKey
WinMerge
Visual Studio Code
Vale
最新コメント
プロフィール
さくらさんの画像

昔は「Trados さん、頑張って!」とお祈りしながら訳文生成していませんでしたか? 今も、たまにそんな気分になるときがあります。Trados って本当にわからないことばかりです。特に、日本語の情報は少ないですよね。いくら翻訳者とはいえ、日本語の情報が欲しいのです。Trados ユーザーの方々といろいろ情報交換できたらと思っています。




2020年03月31日

この記事へのコメント
コメントを書く

お名前:

メールアドレス:


ホームページアドレス:

コメント:

※ブログオーナーが承認したコメントのみ表示されます。

この記事へのトラックバックURL
https://fanblogs.jp/tb/9735765
※ブログオーナーが承認したトラックバックのみ表示されます。

この記事へのトラックバック
Mobilize your Site
スマートフォン版を閲覧 | PC版を閲覧
Share by: