2007年11月22日

【実験】hogedic - 寄り道

まだ、助詞等がついたときにどうなるかとかを書く予定ですが、実験ついでにちょっと寄り道。

前の実験で固有名詞が極端に虐げられているのが分かりましたが、では
一体「京都」の頻度をどのくらい上げれば「教徒」や「凶徒」より先に「京都」が出るのか?
についてちょっと試してみました。

現在の cannadic改では「きょうと」はこうなっている↓
きょうと #CN*450 京都 #T35*250 教徒 #T35*180 凶徒 #T35*80 兇徒
ので、下記のような辞書を作る。

hogedic4.t
-------------------
きょうと #T35*250 教徒
きょうと #T35*180 凶徒
きょうと #T35*80 兇徒
きょうと #CN*450 京都-450*
きょうと #CN*550 京都-550
きょうと #CN*650 京都-650
きょうと #CN*750 京都-750
きょうと #CN*850 京都-850
きょうと #CN*950 京都-950
きょうと #CN*1050 京都-1050
きょうと #CN*1150 京都-1150
(snip)
きょうと #CN*2850 京都-2850
きょうと #CN*2950 京都-2950
きょうと #CN*3050 京都-3050
きょうと #CN*5050 京都-5050
きょうと #CN*10050 京都-10050
きょうと #CN*15050 京都-15050
きょうと #CN*20050 京都-20050
きょうと #CN*25050 京都-25050
きょうと #CN*30050 京都-30050
-------------------

手順は前回と同じで、やはり助詞等の付属語はつけずに「きょうと」だけで変換。

結果↓
hogedic-4.jpg

結論:辞書側の頻度をどんだけ上げようが、品詞コードが CN である限り、「京都」が「教徒」や「凶徒」より先に出ることはないみたいですね。

※ただし、助詞等が付いた場合はまた別です。あくまで、これは単独で変換した場合の話ですので注意。また、コーパスを外しての結果であることにも注意。

posted by vagus at 00:31| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック
×

この広告は90日以上新しい記事の投稿がないブログに表示されております。