機械翻訳の原理

 翻訳を人間がやるのではなく、コンピュータにさせるわけだから、「機械翻訳」という。とりあえず音声入力とは切りはなして、ワープロのようにキーボードの操作で入力するコンピュータとして考える。つまり、すでに実用化されている自動翻訳装置としての機能である。

 かりに日本語の文から英語の文に訳す場合、日本語のほうをソース言語文といい、英語のほうをターゲット言語文という。その中間に位置するのが変換システムで、現在はだいたい三種類ある。

 もっとも簡単なのが「直接変換方式」である。たとえば“橋”を英訳するとき、パージとキーを叩いてから、ディスプレイに出た漢字が箸や端でなく橋であることを確認し、変換ボタンを押すと、コンピュータ内部の辞書によって。BRIDGEへか出てくるタイプだ。要するに、ソース言語の単語や単文を、それに対応するターゲット言語に置き換えるだげのことである。ちかごろ流行の電子和英辞書なんかはこのたぐいたろう。

 しかし、これでは正しい意味での翻訳とはいいがたい。やはり翻訳という以上、単語やセンテンスの置き換えではなく、文法的に解釈し、内容を理解するという、限りなく人間の翻訳者の頭脳に近いものでなくては、使いものにならない。

 機械翻訳のシステムは、自分で英訳するときのことを想像するとわかりやすい。最初に頭のなかでやることは、内容の把握である。おおげさにいえば、いつ、どこで、誰がの、5WIHを解析する作業だ。それから英単語に変換し、最後に原文の意味に合致するようそれらをならべかえる、英訳文の生成である。

 機械翻訳も、人間がやる翻訳作業とほとんど同様に、解析、変換、生成の順にやっていく。しかし実際に機械がやっている作業は、もうちょっと混みいっている。

 たとえばソース言語文として、「自動翻訳システムを使うとコミュニケーションの輪が広がる」という日本語のセンテンスをインプットしたとしよう。まず行われるのは、形態素解析である。センテンスを単語単位にバラバラにしてしまい、さらに各単語をそれによって代表される概念の要素(これを概念素という)に統一する。

 もっとわかりやすくいうなら、「使う」も「用いる」も「利用する」も「駆使する」も「常用する」も、基本的にいわんとしていることは「使用する」ことであり、それゆえに類語辞典で引くと、これらの単語の見出しは「使用」となっている。これが「使う」という単語の概念素である。同様に「広がる」も「くりひろげる」も「展開」も「拡張」も、概念素は「拡大」である。

 こういう各単語の概念素に、“はがのにを”や文法的な活用の変化など辞書情報をつけてやることが、「形態素解析」である。処理の結果は、次のようになる。

 これは表面的に見れば、名称は大仰なくせに中身は中学生の文法レベル、と思うだろうが、なかなかむずかしいことなのだ。なぜならば、義務教育では句読点の正しい打ち方を教えないことからもわかるように、日本語文は単語間の区切りが明確ではない。英語文とちがい、単語のあとのスペースがないのだ。「今市の行政機構は」と書いても、「いま市の行政機構は」という意味なのか、それとも栃木県の今市市の行政機構を示しているのかわからない。ステーキ用のタジマ牛も漢字で「但馬牛」と書くと、「ただし馬および牛は」と家畜の免疫試験条件のようになってしまう。形態素解析は、こうした混乱を防ぐためにも、重要なステップなのである。