前の実験で固有名詞が極端に虐げられているのが分かりましたが、では
一体「京都」の頻度をどのくらい上げれば「教徒」や「凶徒」より先に「京都」が出るのか?についてちょっと試してみました。
現在の cannadic改では「きょうと」はこうなっている↓
きょうと #CN*450 京都 #T35*250 教徒 #T35*180 凶徒 #T35*80 兇徒ので、下記のような辞書を作る。
hogedic4.t
-------------------
きょうと #T35*250 教徒
きょうと #T35*180 凶徒
きょうと #T35*80 兇徒
きょうと #CN*450 京都-450*
きょうと #CN*550 京都-550
きょうと #CN*650 京都-650
きょうと #CN*750 京都-750
きょうと #CN*850 京都-850
きょうと #CN*950 京都-950
きょうと #CN*1050 京都-1050
きょうと #CN*1150 京都-1150
(snip)
きょうと #CN*2850 京都-2850
きょうと #CN*2950 京都-2950
きょうと #CN*3050 京都-3050
きょうと #CN*5050 京都-5050
きょうと #CN*10050 京都-10050
きょうと #CN*15050 京都-15050
きょうと #CN*20050 京都-20050
きょうと #CN*25050 京都-25050
きょうと #CN*30050 京都-30050
-------------------
手順は前回と同じで、やはり助詞等の付属語はつけずに「きょうと」だけで変換。
結果↓

結論:辞書側の頻度をどんだけ上げようが、品詞コードが CN である限り、「京都」が「教徒」や「凶徒」より先に出ることはないみたいですね。
※ただし、助詞等が付いた場合はまた別です。あくまで、これは単独で変換した場合の話ですので注意。また、コーパスを外しての結果であることにも注意。
【関連する記事】