Azure 翻訳AI(Translation AI)で任意の辞書ファイルを用いてチューニングしようとしていた。
公式のドキュメントに従って、カスタム翻訳ツールポータルからワークスペースの作成、プロジェクトの作成をした。
プロジェクトのトップからManage documentsを表示してAdd document setを選択、今回は手元にある単語帳を読ませるので、Dictionary setを選んだ。今回は大文字小文字が区別されるPhraseの方が良さそうなのでそっちにした。
日本語と英語のテキストファイルをそれぞれ作成してアップロードした。
アップロードの結果はプロジェクトの「Update history」から確認できるが、Failedになっていた。原因は「Dictionary files cannot have differing sentence counts.」とのこと。
どの行が原因です。といったエラー要因は不明なので、アップロードしたファイルをチマチマ確認したところ、日本語のファイルの中に半角はてな「?」が混入していたのが原因だった。該当の箇所を修正し、アップロードは正常に完了した。
OCRしたドキュメントから辞書ファイルを作成したときに特殊な記号が入り、shiftjisで保存した際に半角のクエスチョンマーク「?」になっていたと考えられる。疑問符が途中に入ることで、単語辞書の間に文の終わりが生じていると判断されたと考えられる。
「Dictionary files cannot have differing sentence counts.」で検索して参考になりそうな記事がなかったので書き残しておきました。