ATOK も統計的言語処理へ

MS-IME 2007 に遅れること 1 年,ATOK も統計的言語処理へ.これでだいたい役者は揃った感じですかね.

ATOKは従来、最も長く取れる2文節を優先的に選択する「n文節最長一致法」を採用していたが、近年この手法による誤変換の発生が稀ではなくなってきた。そこで、出現頻度や言語的性質などを数学理論によって1つの評価軸の上に積算する統計的言語処理手法を採り入れた。また、機械処理に頼らず、人手による検証と微調整を重ねることで、体感的な変換精度を向上させたという。具体的にはATOK 2007と2008で下記のような差が出る。

2007:請求書の/市は/来日時/
2008:請求書の/支払い/日時/

2007:景気/回復の/広がりに/花岡/代を/残している。/
2008:景気/回復の/広がりには/なお/課題を/残している。/

2007:去年に/比べた/海水/順だ/
2008:去年に/比べ/高い/水準だ/

「使えば使うほどバカになる」と各地で好評の MS-IME 2007 でも実験してみましょう.幸い手元のものはほとんど学習していないはず*1

  • 請求書の支払日時。
  • 景気回復の広がりにはなお課題を残している。
  • 去年に比べ高い水準だ。
  • 昼一迄に書類作っといて。
  • そんな話信じられっこないよね。
  • 初めっから持っていけばいいのに。

意外なことに(?) ATOK 2007 で誤変換を起こす例文を一発で読める文章に変換してくれました.まあ実際のところ,1〜2 文節で短く変換を行う人と MS-IME 2007 の相性が極端に悪いというあたりが,不評の原因のひとつじゃないかと思いますがね.
以下使い込んだ ATOK 2007 での変換結果.記事通りダメダメですな.

  • 請求書の氏は来日時.
  • 景気回復の広がりに花岡大を残している.
  • 去年に比べた海水順だ.
  • 昼一までに書類つくっと居て.
  • そんな話信じ裸れっこないよね.
  • 恥メッカら保っていけばいいのに.

*1:つまりインストールしたものの全然使っていないと.普段はもっぱら ATOK 2007 です.例外的に MS-IME 2007 を使うのは TSF 絡みの実験時