I'm not sure, too.
と言いたい…
正字正かなとかあんま興味ないしなー。よく知らないし。
この外人さんはどのくらいのことがしたいんだろうか?
うーん、クマった。
誰かこの辺のを使って作ってあげて…
あ、ここにSKK用のがあるな…
scim-skk を使って貰うわけにはいかんのかな…
2007年07月10日
2007年06月11日
2007年05月28日
ありゃりゃ
「カツアゲ」なんてヤンキー基本用語が入ってなかった…
あと、「残騨(ざんだん)」って「残弾」の間違いだよなぁ。
まだまだあるなぁ、誤登録 orz
あと、「残騨(ざんだん)」って「残弾」の間違いだよなぁ。
まだまだあるなぁ、誤登録 orz
2007年05月21日
sf.jp に登録したけど…
重い腰を上げて、やっと sf.jp に登録した。
cannadic改 プロジェクトページ
が、
俺がミスったんだろうか?多分そうだな…
まぁ、まだ使い方とか全然分かってないので、追々手を入れていきます。
取り敢えず、20070513版だけ置いといた。
wiki も作ってみたけど、ぬー…、ちっとこれはキツイかな…
UTF-8 なのは嬉しいし、文字参照がそのまま表示されてるのはそのうち直ると思うから気にしてないんだけど、メニューとかないとなぁ。wiki に全部まとめたいと思ってるので。
UTF-8 使えてそこそこ高機能な wiki というと、PukiWiki plus になっちゃうんだろうか。あそこまで高機能でなくてもいいんだけど…。
それより早く掲示板をなんとかせんと。
cannadic改 プロジェクトページ
が、
cannadic を拡充した"かな漢字変換辞"です。「書」が抜けとる… orz
俺がミスったんだろうか?多分そうだな…
まぁ、まだ使い方とか全然分かってないので、追々手を入れていきます。
取り敢えず、20070513版だけ置いといた。
wiki も作ってみたけど、ぬー…、ちっとこれはキツイかな…
UTF-8 なのは嬉しいし、文字参照がそのまま表示されてるのはそのうち直ると思うから気にしてないんだけど、メニューとかないとなぁ。wiki に全部まとめたいと思ってるので。
UTF-8 使えてそこそこ高機能な wiki というと、PukiWiki plus になっちゃうんだろうか。あそこまで高機能でなくてもいいんだけど…。
それより早く掲示板をなんとかせんと。
2007年03月20日
また今月も吐きそうだ
ランクづけ、やってもやっても進んだ気がしない…
2007年03月07日
祝! cannadic改、anthy に取り込まれる
anthy-8706 で anthy の辞書が cannadic改になりました。
「マージ?」と書かれてたのでどういう形で取り込まれるのか結構不安だったのですが、cannadic とそっくり置き換えられてますね。
今や主要なディストリのほとんどが anthy をデフォルトの変換エンジンとして採用してることを考えると、「これって結構スゴいことなんじゃ…」と早くもビビり始めてます。
それでも、田畑さんがアルゴリズムやプログラミングの方に集中できるようになるのなら、ユーザにとってこれは喜ばしいことなんじゃないでしょうか。
個人的にも、やってきたことを認めてもらえたような気がして素直に嬉しいです。お名前はあげませんが、協力して下さった方々、ありがとうございました。これからも宜しくお願いいたします。
とは言え、まだまだやるべきことがてんこ盛りで、正直、喜んでる余裕がないのが悲しいところですが…
まだまだ足りないところだらけなのは自分が一番よく知っているつもりなので。
「マージ?」と書かれてたのでどういう形で取り込まれるのか結構不安だったのですが、cannadic とそっくり置き換えられてますね。
今や主要なディストリのほとんどが anthy をデフォルトの変換エンジンとして採用してることを考えると、「これって結構スゴいことなんじゃ…」と早くもビビり始めてます。
それでも、田畑さんがアルゴリズムやプログラミングの方に集中できるようになるのなら、ユーザにとってこれは喜ばしいことなんじゃないでしょうか。
個人的にも、やってきたことを認めてもらえたような気がして素直に嬉しいです。お名前はあげませんが、協力して下さった方々、ありがとうございました。これからも宜しくお願いいたします。
とは言え、まだまだやるべきことがてんこ盛りで、正直、喜んでる余裕がないのが悲しいところですが…
まだまだ足りないところだらけなのは自分が一番よく知っているつもりなので。
2007年03月06日
そういうことか
Anthy-dev 3410
ああ、なるほど。そういうことですか。
ようやく田畑さんの言われていることが分かってきました。
続きを読む
候補の並び替えについては今までどおりの情報が必要ですが、
文節区切りについては内部で並び替えて上位n%かどうかで分類します。
このためには、内海さんがすでにやられているように全体での出現頻度に
比例した(正確には、順序を保存した)頻度情報があれば十分です。
cannadicやalt-cannadicだと同音異義語内の頻度に重点がおかれているようなので
手元の実験ではあんまりいい結果になってません。
ああ、なるほど。そういうことですか。
ようやく田畑さんの言われていることが分かってきました。
続きを読む
2007年03月05日
ああ
天気のせいなのか単漢字の後遺症なのか、今日はやる気がしない。
それに引きかえ、内海さんはパワフルだなぁ。
ToDo: 明日頻度についての案をここにメモる。
宣言しとかないとズルズル先延ばししそうだ。
それに引きかえ、内海さんはパワフルだなぁ。
ToDo: 明日頻度についての案をここにメモる。
宣言しとかないとズルズル先延ばししそうだ。
2007年02月23日
何とか成功
また例によって無理くりねじ込んだんだけど。

uim-trunk rev.4461 に ekato さんのパッチを当てたもので。ekato さんに感謝。
今日は入れたところまでで時間切れ。
ああ、非漢字の辞書作んなきゃ…
uim-trunk rev.4461 に ekato さんのパッチを当てたもので。ekato さんに感謝。
今日は入れたところまでで時間切れ。
ああ、非漢字の辞書作んなきゃ…
2007年02月22日
やった
sed 's/hoge/fuga/' > parts/g-hutuumei-azo > g-hutuumei-azo.tmp
いえーい。
今週やった作業がパーだ… orz
いえーい。
今週やった作業がパーだ… orz
2007年02月15日
「ファックス機」
blog を検索してた。
anthy で「ファックス機」と変換しようとして怒っている人の blog があった。
……確かにこりゃマズいな。
というわけで、cannadic改に「ファックス機」を追加した。
anthy で「ファックス機」と変換しようとして怒っている人の blog があった。
……確かにこりゃマズいな。
というわけで、cannadic改に「ファックス機」を追加した。
2007年02月14日
サイト統合 - 一応 done - 追記2/15
今 nifty にある cannadic改のサイトをこのブログに統合しようと思ってます。
理由は、
1. 統合すれば管理やユーザへの通知が楽になる
2. コメントスパム対策
3. seesaa の方が利用可能なディスク容量がデカい
4. 自分がプロバイダを変えても安心
といったことです。
続きを読む
理由は、
1. 統合すれば管理やユーザへの通知が楽になる
2. コメントスパム対策
3. seesaa の方が利用可能なディスク容量がデカい
4. 自分がプロバイダを変えても安心
といったことです。
続きを読む
2007年01月23日
jis 第3第4水準単漢字辞書 その後
一応、漢字部分は完成した。
まだちょっとやりたい作業も残ってますが。
ただ、非漢字の部分はちょっと手が止まってます。
この間の『ひらがなの「へべぺ」とカタカナの「ヘベペ」』じゃありませんが、色々ややこしいんで、もう一回規格票やら何やらを読み返して、作業用の資料作って間違いのないようにしてからにしようかと思い始めてます。
後から「間違ってたから調べ直し」とか嫌なので。
続きを読む
まだちょっとやりたい作業も残ってますが。
ただ、非漢字の部分はちょっと手が止まってます。
この間の『ひらがなの「へべぺ」とカタカナの「ヘベペ」』じゃありませんが、色々ややこしいんで、もう一回規格票やら何やらを読み返して、作業用の資料作って間違いのないようにしてからにしようかと思い始めてます。
後から「間違ってたから調べ直し」とか嫌なので。
続きを読む
2007年01月21日
cannadic改: 今月は
一応 31日を目標にしてます。
登録希望等がありましたらそれまでにお願いします。
ただ、ここんとこちょっと忙しくて何もできていないので、
もしかしたら 2月頭にズレ込むかもしれません。
そのときはまたお知らせします。
登録希望等がありましたらそれまでにお願いします。
ただ、ここんとこちょっと忙しくて何もできていないので、
もしかしたら 2月頭にズレ込むかもしれません。
そのときはまたお知らせします。
2007年01月05日
2007年01月03日
JIS 第3,4水準単漢字辞書 作業開始(追記)
えー、タイトルのとおりですが、昨日から作業開始しました。
最初辞書に、以前ブックオフで 105円で買った角川の「新字源 改訂版」ってのを使ってたのですが、載ってない字が結構あって、「散々探した挙句に載ってなかった」というのを何度か繰り返した後、「あ゛ー、もうこいつじゃダメだ」とプチギレして辞書買いに行きました。
続きを読む
最初辞書に、以前ブックオフで 105円で買った角川の「新字源 改訂版」ってのを使ってたのですが、載ってない字が結構あって、「散々探した挙句に載ってなかった」というのを何度か繰り返した後、「あ゛ー、もうこいつじゃダメだ」とプチギレして辞書買いに行きました。
続きを読む
2006年12月22日
jis 第3第4水準単漢字辞書
anthy-8409 以降の dict.args.in を見ると次の一行が追加されている。
ここの「eucjp」を「utf8」とかにしてやると utf-8 な共有辞書が生成されるんではないかと思うが、まだ確認していない。日曜まで時間が取れないので日曜に確認するつもり。
続きを読む
set_dict_encoding eucjp
ここの「eucjp」を「utf8」とかにしてやると utf-8 な共有辞書が生成されるんではないかと思うが、まだ確認していない。日曜まで時間が取れないので日曜に確認するつもり。
続きを読む
2006年12月21日
cannadic改:12月の予定
今年最後なので出します。
12/31 に。
登録希望等ございます方はまたお願いします。
# 「虎の穴」はエロサイトの書き込みがウザくなったので、
# すぐには公開せず、一旦こちらで確認してから公開するようにしています。
12/31 に。
登録希望等ございます方はまたお願いします。
# 「虎の穴」はエロサイトの書き込みがウザくなったので、
# すぐには公開せず、一旦こちらで確認してから公開するようにしています。
2006年12月07日
現状
自分用メモも兼ねてここ数ヶ月のまとめ。
そもそもこの辞書を公開し始めた当初に、utumiさんとのやり取りの中で、「登録されてない語を登録するのが主眼で、頻度をいじる気はない」というようなことを言いました。
その理由は、
a. 頻度値がおかしくて出したい語が一発で出ないとしてもエントリがあれば出すことはできるのに対し、エントリのない語はそもそも出すことが出来ない(だから新語登録を最優先にする)
b. どの語を優先し、どの語を後回しにするかは人によって好みが異なるため、頻度をいじり始めると収拾がつかなくなる
c. そもそも「頻度値のつけ方」に関するドキュメントが全くない(少なくとも現在までのところ発見できていない)ので、すべて実際に試行錯誤しながら自分で適正値を探さなければならない
d. 仮にきちんとしたドキュメントがあり、どういう風に付ければいいか分かったとしても、数十万ものエントリ(対象を絞ったとしても何万という数のエントリ)に対して一つ一つ値を付けたり、確認したりするのはご免被りたい、というか、実際問題としてムリ
e. ある変換エンジン(現状 anthy しかありませんが)のあるバージョンに対して適切な出方をするように調整したとしても、その変換エンジンがアルゴリズムやスコアのつけ方を変更したらすべてをやり直さなければならないかもしれない
f. 「頻度値で調整する」というやり方自体あまり効率の良い方法ではなく、そのうち使われなくなる方向に行く可能性が高いと思われるため、作業しても無駄になりかねない
といったことでした。
簡単に言えば、「一人でやるのは事実上ほぼ不可能な上に、やったとしても努力が水の泡になる可能性があるのでやりたくない」ということです。
続きを読む
そもそもこの辞書を公開し始めた当初に、utumiさんとのやり取りの中で、「登録されてない語を登録するのが主眼で、頻度をいじる気はない」というようなことを言いました。
その理由は、
a. 頻度値がおかしくて出したい語が一発で出ないとしてもエントリがあれば出すことはできるのに対し、エントリのない語はそもそも出すことが出来ない(だから新語登録を最優先にする)
b. どの語を優先し、どの語を後回しにするかは人によって好みが異なるため、頻度をいじり始めると収拾がつかなくなる
c. そもそも「頻度値のつけ方」に関するドキュメントが全くない(少なくとも現在までのところ発見できていない)ので、すべて実際に試行錯誤しながら自分で適正値を探さなければならない
d. 仮にきちんとしたドキュメントがあり、どういう風に付ければいいか分かったとしても、数十万ものエントリ(対象を絞ったとしても何万という数のエントリ)に対して一つ一つ値を付けたり、確認したりするのはご免被りたい、というか、実際問題としてムリ
e. ある変換エンジン(現状 anthy しかありませんが)のあるバージョンに対して適切な出方をするように調整したとしても、その変換エンジンがアルゴリズムやスコアのつけ方を変更したらすべてをやり直さなければならないかもしれない
f. 「頻度値で調整する」というやり方自体あまり効率の良い方法ではなく、そのうち使われなくなる方向に行く可能性が高いと思われるため、作業しても無駄になりかねない
といったことでした。
簡単に言えば、「一人でやるのは事実上ほぼ不可能な上に、やったとしても努力が水の泡になる可能性があるのでやりたくない」ということです。
続きを読む


