本家BookReviewOnline(PC向けサイト)もご参照ください。
モバイルならfacebook、またtwitterでお知らせします

ここでは上記に書かれていない記録を書くことになります。


千の夢

 第5短編集『豚の絶滅と復活について』は9月18日に発売開始されています。POD版も含めていつでも購入可能。Unlimitedならいつでも無料。

 11月です。10月末の寒さが和らいで、逆に温かな日々ですが、まもなく寒くなる予定。

まあそうですよね。1年8ヶ月ぶりにKSFA大阪例会に参加、参加メンバーがメンバーなので特に(見かけの)変化はなし。まあそうですよね。

 さて、DUNE part1を見ました。IMAXではありません(近所にないので)。シネコンの中では最小スクリーンでしたけど、まあ日本ではヒットしなかったので仕方ありません。世界的には現時点で350億円程度の興収のようです。メガヒットとまではいきませんが、続編が作られる程度にはなりました(特に中国ではヒットした。part2は2023年公開予定)。映画は、原作をよくもここまで分かりやすく映画化した、というとても熟れた仕上がりです。先行するリンチやホドロフスキーが失敗したのは、とにかく物理的な予算が足りなかったせいなので、いくらCG時代とはいえ190億も予算が使えたのは、ドゥニ・ヴィルヌーヴの実力なのか幸運なのか。うーん、しかし2時間40分もあるとはいえ、part1だけでは体感上(配信ドラマの)シーズン1・第3話目までくらいか。あと3話分を早く見たいと思います。

 少し前に機械翻訳について、twitterで(何回目かの)話題になりました。使えねぇ、という意見は特に文藝翻訳サイドで多いのですが、では機械翻訳というのはどういうメカニズムで動いているものなのか。下記が市民講座向けで分かりやすいのでご覧下さい(声が小さいので注意)。

 「AI・深層学習で楽々、翻訳!(知能コミュニケーション)」

 過去の機械翻訳はまず文法規則に基づくもの、つぎに用例準拠、統計準拠と進化してきました。日本語を入力するIMEなどは、そういった成果を受けてできたものですね。とはいえ、候補語を出して入力者がその都度判断できるIMEと翻訳とは違います。自動で進めるには、例外が多すぎて処理が複雑になりすぎる。

 深層学習型の翻訳では言葉をいったんある種の中間言語に落とします。中間言語と言っても、いわゆる言葉ではなく多次元の数値(パラメータ)を持つ一種のデータベースですね。人間の言葉である以上、例えば「山」という単語のパラメータは、英語でも日本語でも似通ったものになる。それに近い言葉が訳語に選ばれるわけです。特性を生かせば、言語の種類を問わず(入力が音声でも良い)、翻訳が出来るようになります。

 しかし、この方法でも未知の単語は翻訳できません。翻訳できていないのに、文章だけはしっかりしている(逐語訳ではなく文章を優先する)ので、だまされる恐れがある。その辺りは上記講義の後半で説明されています。知らない言葉を飛ばす、(多用されている用例に引きずられ)誤訳する、ある訳語を間違えるとそれに合わせて全体が間違ってしまうとか、何とも人間的な間違いを犯します。

 この根本原因は学習した内容にあります。ネット上で入手可能な公文書が学習の中心なので、語彙やバリエーションが貧弱なのです。小説とかは全く入っていません(対訳があるパブリックドメインのものがない)。小説を読んだことのない機械に、小説を翻訳させて上手くいくわけがないのです。こんなところも人間と同じですね。

 小説用には小説を学習した機械が必要です。作者によって言葉の使い方は異なるため、作家ごとに必要でしょう。ラファティ用なら、浅倉、伊藤、柳下、井上、らっぱ亭と訳文があるのでそこも調整が必要でしょう。人手では採算が取れません。(今でもある程度進んでいる)強化学習が進歩するのを待つ必要があります。何れにしても、文藝翻訳の需要が機械翻訳を必要とするほど強いのかがキーでしょうね。公文書、契約文書、仕様書、特許など、ビジネス翻訳は機械化される可能性が高いが、ニッチなコンシューマー分野は残るでしょう。

 あるいはIMEのユーザー辞書のような機械翻訳ツールが一般化して、ユーザーが機械学習DBを自由に作れるようになるかも知れません。その場合、個人で機械学習させれば良いのです。となると、市販されている本で勝手にプロが学習させてはいけない、商用学習禁止法とかの法律が出来るのかも、ってわたしの小説みたいですね。


THATTA 402号へ戻る
トップページへ戻る