あなたが漢字変換候補を覗き込むとき,Google もまた選択された候補を覗いている

古川さんの書かれていたコメントを読んでいて,もう一点思い出したので書いてみます.

楠さんの指摘は当たっているけれど、ハズレでもあるのは..私はIEにおいてもユーザー辞書を参照できるようにいじっているはずで...銀行の口座番号や航空会社のマイレージ番号をユーザー辞書登録していたのが、IE下では使えないので、FirFoxを使ってアクセスしていた...それも、IEで辞書登録をすると[Windowsが認めた正規アプリではないので、ユーザー登録ができません」というお馬鹿のエラーが出るのに辟易して、パッチを当ててユーザー辞書が使えるようにしているのでありました。というわけで、IE環境とWindows のアプリで変換効率の結果が異なることは、ユーザー辞書の禁止と菅家ないと思われます。

確かに,ユーザ辞書を使えなくするという保護形態は,セキュリティ対策として受け入れるべきかよく分からないところがあります*1.一方,使いやすい漢字変換エンジンのひとつの形態に,常にパーソナライズされた変換候補を表示するという方向性があり,これを突き詰めれば提示される変換候補自体が本人のアイデンティティやプライバシーと密接に結びつくこととなります.そこで一旦ユーザ辞書の問題から離れ,ブラウザ上で IME による文字列変換を行うという作業が何を意味するのかちょっとした注意を書いておきます.

On-the-spot 入力と文字列コミットのタイミング

Windows 環境でのモダンなブラウザは IME の On-the-spot 入力に対応していて,入力中の文字列 *2 の描画はブラウザ側で行われています.このとき,文字列入力/変換が進行中の要素に対して DOM を経由して内容の問い合わせを行うと何が返るでしょうか? 実は,Internet ExplorerFirefoxOpera では,未確定文字列がそのまま取得できます (Opera 9.25 でも検証できたので追記).
以前 Google Suggest 登場時に,「IME で変換中の文字列も推測に使えている」ことが話題になりましたが,これはなんということはなくて,On-the-spot 入力の自然な振る舞いです.On-the-spot 入力でカーソルキーで変換候補を選ぶとき,少なくとも表示上は,「以前の選択候補を一気に削除」し,同時に「新しい選択候補を一気に入力」したのと同じことがおきているわけですから.実際試してみた方が早いでしょう.以下にサンプルを用意しました.
http://www.dwahan.net/nyaruru/hatena/loggingtest.html
テキスト入力欄で適当に漢字変換をしてみて下さい.実際に選択中の文字列のログが取得可能なことが分かるかと思います.後はこれをせっせとサーバに送信すれば,「もしかして」プライバシー情報が流出するかもしれないという話です.

大規模統計情報源としてのブラウザ

プライバシー情報の収集という点では悪用が懸念される部分もありますが,この入力ログを大量に取得/解析したものは,一部の企業にとって非常に有益な情報となるかもしれません.

  • ユーザが実際に使用している「ひらがな」から「漢字」へのマッピングテーブル (頻度情報付き)
  • 漢字変換の正答率 (何回の変換で望んだ変換結果にたどり着くか?)
  • ユーザの打鍵速度
  • 文字列長がどれぐらいになったときに漢字変換を行うか

ざっと思い付いただけですが,こんな情報が手に入ります.もちろんこの手の情報を勝手に集めることに反対意見は出るでしょうが,「ユーザの利便性を考慮して Suggest 機能を付けました」というだけで,実際かなりの入力ログがサーバに送信されてしまうという事実があります.そんな宝の山の 2 次利用を思わず検討してしまう企業が「もしかして」あり得ないと言いきれるでしょうか?

参考

[http
//www.divakk.co.jp/blog/aoyagi/archive/2005/03/14/1471.aspx:title=Google Suggestの不思議 - 青柳臣一 blog : .NETC# がメインの blog]:「そこは青柳さんが 3 年前に通過した場所だッ!」
[http
//research.microsoft.com/users/mbanko/ACL2001VeryVeryLargeCorpora.pdf:title=Scaling to Very Very Large Corpora for Natural Language Disambiguation]:読むと統計を制する者は世界を制する気がしてくる Microsoft Research の神論文 *3

*1:まあ私の場合,明示的に辞書登録をしないせいか,はたまた ATOK を使っているせいか,Internet Explorer 7 と辞書で困ったことがなかったりするのですが

*2:いわゆる composition strings

*3:この論文についての [http://slashdot.jp/~tabatee/journal/424560:title=田畑さんのレビュー]