ATOK も統計的言語処理へ - NyaRuRuが地球にいたころ

MS-IME 2007 に遅れること 1 年，ATOK も統計的言語処理へ．これでだいたい役者は揃った感じですかね．

ATOKは従来、最も長く取れる2文節を優先的に選択する「n文節最長一致法」を採用していたが、近年この手法による誤変換の発生が稀ではなくなってきた。そこで、出現頻度や言語的性質などを数学理論によって1つの評価軸の上に積算する統計的言語処理手法を採り入れた。また、機械処理に頼らず、人手による検証と微調整を重ねることで、体感的な変換精度を向上させたという。具体的にはATOK 2007と2008で下記のような差が出る。

2007:請求書の/市は/来日時/
2008:請求書の/支払い/日時/

2007:景気/回復の/広がりに/花岡/代を/残している。/
2008:景気/回復の/広がりには/なお/課題を/残している。/

2007:去年に/比べた/海水/順だ/
2008:去年に/比べ/高い/水準だ/

「使えば使うほどバカになる」と各地で好評の MS-IME 2007 でも実験してみましょう．幸い手元のものはほとんど学習していないはず*1．

請求書の支払日時。
景気回復の広がりにはなお課題を残している。
去年に比べ高い水準だ。
昼一迄に書類作っといて。
そんな話信じられっこないよね。
初めっから持っていけばいいのに。

意外なことに(?) ATOK 2007 で誤変換を起こす例文を一発で読める文章に変換してくれました．まあ実際のところ，1〜2 文節で短く変換を行う人と MS-IME 2007 の相性が極端に悪いというあたりが，不評の原因のひとつじゃないかと思いますがね．
以下使い込んだ ATOK 2007 での変換結果．記事通りダメダメですな．

請求書の氏は来日時．
景気回復の広がりに花岡大を残している．
去年に比べた海水順だ．
昼一までに書類つくっと居て．
そんな話信じ裸れっこないよね．
恥メッカら保っていけばいいのに．

あと先ほど IRC で田畑さんにお勧めされた記事．

企業によるセミナートークいろいろ - 理系大学院留学日記

最終的にデータ量の勝負に持ち込まれたら，結局勝つのは某社なんですかね？

*1:つまりインストールしたものの全然使っていないと．普段はもっぱら ATOK 2007 です．例外的に MS-IME 2007 を使うのは TSF 絡みの実験時

関連記事