ATOK も統計的言語処理へ
MS-IME 2007 に遅れること 1 年,ATOK も統計的言語処理へ.これでだいたい役者は揃った感じですかね.
ATOKは従来、最も長く取れる2文節を優先的に選択する「n文節最長一致法」を採用していたが、近年この手法による誤変換の発生が稀ではなくなってきた。そこで、出現頻度や言語的性質などを数学理論によって1つの評価軸の上に積算する統計的言語処理手法を採り入れた。また、機械処理に頼らず、人手による検証と微調整を重ねることで、体感的な変換精度を向上させたという。具体的にはATOK 2007と2008で下記のような差が出る。
2007:請求書の/市は/来日時/
2008:請求書の/支払い/日時/2007:景気/回復の/広がりに/花岡/代を/残している。/
2008:景気/回復の/広がりには/なお/課題を/残している。/2007:去年に/比べた/海水/順だ/
2008:去年に/比べ/高い/水準だ/
「使えば使うほどバカになる」と各地で好評の MS-IME 2007 でも実験してみましょう.幸い手元のものはほとんど学習していないはず*1.
- 請求書の支払日時。
- 景気回復の広がりにはなお課題を残している。
- 去年に比べ高い水準だ。
- 昼一迄に書類作っといて。
- そんな話信じられっこないよね。
- 初めっから持っていけばいいのに。
意外なことに(?) ATOK 2007 で誤変換を起こす例文を一発で読める文章に変換してくれました.まあ実際のところ,1〜2 文節で短く変換を行う人と MS-IME 2007 の相性が極端に悪いというあたりが,不評の原因のひとつじゃないかと思いますがね.
以下使い込んだ ATOK 2007 での変換結果.記事通りダメダメですな.
- 請求書の氏は来日時.
- 景気回復の広がりに花岡大を残している.
- 去年に比べた海水順だ.
- 昼一までに書類つくっと居て.
- そんな話信じ裸れっこないよね.
- 恥メッカら保っていけばいいのに.
関連記事
- 「ATOK 2008」2月8日に発売、はてなやgooとの連携機能を正式提供 - Internet Watch
- マイクロソフト、Office 2007 SP1を12日にリリース 〜パフォーマンス改善と安定性向 - PC Watch
- 2007 Microsoft Office スイート Service Pack 1 (SP1) - Microsoft ダウンロード センター
あと先ほど IRC で田畑さんにお勧めされた記事.
最終的にデータ量の勝負に持ち込まれたら,結局勝つのは某社なんですかね?