2007年07月10日

自分も

I'm not sure, too.
と言いたい…

正字正かなとかあんま興味ないしなー。よく知らないし。
この外人さんはどのくらいのことがしたいんだろうか?

うーん、クマった。
誰かこの辺のを使って作ってあげて…
あ、ここにSKK用のがあるな…
scim-skk を使って貰うわけにはいかんのかな…

posted by vagus at 02:10| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - その他 | このブログの読者になる | 更新情報をチェックする

2007年06月11日

掲示板移行

やるやる詐欺師状態でしたが、ようやく新しい掲示板を作りました。

…と言っても、FC2 のレンタル掲示板ですが。
ほんとは全部 sf.jp にまとめたかったんですが、誰でも匿名で投稿できて、でもコメント spam は弾けて等々と希望する要件を満たすような cgi が見つからなくて、自分で作るスキルもないので、結局安易なところに逃げました。

これまでご不便をお掛けしてすみませんでした。

posted by vagus at 02:52| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - その他 | このブログの読者になる | 更新情報をチェックする

2007年05月28日

ありゃりゃ

「カツアゲ」なんてヤンキー基本用語が入ってなかった…

あと、「残騨(ざんだん)」って「残弾」の間違いだよなぁ。
まだまだあるなぁ、誤登録 orz

posted by vagus at 19:18| 東京 ☁| Comment(0) | TrackBack(0) | cannadic改 - その他 | このブログの読者になる | 更新情報をチェックする

2007年05月21日

sf.jp に登録したけど…

重い腰を上げて、やっと sf.jp に登録した。

cannadic改 プロジェクトページ

が、
cannadic を拡充した"かな漢字変換辞"です。
「書」が抜けとる… orz
俺がミスったんだろうか?多分そうだな…

まぁ、まだ使い方とか全然分かってないので、追々手を入れていきます。
取り敢えず、20070513版だけ置いといた。

wiki も作ってみたけど、ぬー…、ちっとこれはキツイかな…

UTF-8 なのは嬉しいし、文字参照がそのまま表示されてるのはそのうち直ると思うから気にしてないんだけど、メニューとかないとなぁ。wiki に全部まとめたいと思ってるので。

UTF-8 使えてそこそこ高機能な wiki というと、PukiWiki plus になっちゃうんだろうか。あそこまで高機能でなくてもいいんだけど…。

それより早く掲示板をなんとかせんと。

posted by vagus at 22:05| 東京 ☀| Comment(2) | TrackBack(0) | cannadic改 - その他 | このブログの読者になる | 更新情報をチェックする

2007年03月20日

また今月も吐きそうだ

ランクづけ、やってもやっても進んだ気がしない…
posted by vagus at 00:21| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - その他 | このブログの読者になる | 更新情報をチェックする

2007年03月07日

祝! cannadic改、anthy に取り込まれる

anthy-8706 で anthy の辞書が cannadic改になりました。
「マージ?」と書かれてたのでどういう形で取り込まれるのか結構不安だったのですが、cannadic とそっくり置き換えられてますね。

今や主要なディストリのほとんどが anthy をデフォルトの変換エンジンとして採用してることを考えると、「これって結構スゴいことなんじゃ…」と早くもビビり始めてます。

それでも、田畑さんがアルゴリズムやプログラミングの方に集中できるようになるのなら、ユーザにとってこれは喜ばしいことなんじゃないでしょうか。

個人的にも、やってきたことを認めてもらえたような気がして素直に嬉しいです。お名前はあげませんが、協力して下さった方々、ありがとうございました。これからも宜しくお願いいたします。

とは言え、まだまだやるべきことがてんこ盛りで、正直、喜んでる余裕がないのが悲しいところですが…
まだまだ足りないところだらけなのは自分が一番よく知っているつもりなので。

posted by vagus at 23:20| 東京 ☀| Comment(2) | TrackBack(0) | cannadic改 - その他 | このブログの読者になる | 更新情報をチェックする

2007年03月06日

そういうことか

Anthy-dev 3410
候補の並び替えについては今までどおりの情報が必要ですが、
文節区切りについては内部で並び替えて上位n%かどうかで分類します。

このためには、内海さんがすでにやられているように全体での出現頻度に
比例した(正確には、順序を保存した)頻度情報があれば十分です。
cannadicやalt-cannadicだと同音異義語内の頻度に重点がおかれているようなので
手元の実験ではあんまりいい結果になってません。

ああ、なるほど。そういうことですか。
ようやく田畑さんの言われていることが分かってきました。

続きを読む
posted by vagus at 23:58| 東京 ☀| Comment(2) | TrackBack(0) | cannadic改 - その他 | このブログの読者になる | 更新情報をチェックする

2007年03月05日

ああ

天気のせいなのか単漢字の後遺症なのか、今日はやる気がしない。
それに引きかえ、内海さんはパワフルだなぁ。

ToDo: 明日頻度についての案をここにメモる。

宣言しとかないとズルズル先延ばししそうだ。

posted by vagus at 21:50| 東京 ☔| Comment(0) | TrackBack(0) | cannadic改 - その他 | このブログの読者になる | 更新情報をチェックする

2007年02月23日

何とか成功

また例によって無理くりねじ込んだんだけど。

jis-2004_on_uim-trunk-1.5.0.jpg

uim-trunk rev.4461 に ekato さんのパッチを当てたもので。ekato さんに感謝。
今日は入れたところまでで時間切れ。


ああ、非漢字の辞書作んなきゃ…

posted by vagus at 01:06| 東京 ☁| Comment(0) | TrackBack(0) | cannadic改 - その他 | このブログの読者になる | 更新情報をチェックする

2007年02月22日

やった

sed 's/hoge/fuga/' > parts/g-hutuumei-azo > g-hutuumei-azo.tmp

いえーい。

今週やった作業がパーだ… orz


posted by vagus at 22:56| 東京 ☁| Comment(0) | TrackBack(0) | cannadic改 - その他 | このブログの読者になる | 更新情報をチェックする

2007年02月15日

「ファックス機」

blog を検索してた。

anthy で「ファックス機」と変換しようとして怒っている人の blog があった。

……確かにこりゃマズいな。
というわけで、cannadic改に「ファックス機」を追加した。

posted by vagus at 00:32| 東京 ☔| Comment(0) | TrackBack(0) | cannadic改 - その他 | このブログの読者になる | 更新情報をチェックする

2007年02月14日

サイト統合 - 一応 done - 追記2/15

今 nifty にある cannadic改のサイトをこのブログに統合しようと思ってます。

理由は、

 1. 統合すれば管理やユーザへの通知が楽になる
 2. コメントスパム対策
 3. seesaa の方が利用可能なディスク容量がデカい
 4. 自分がプロバイダを変えても安心

といったことです。

続きを読む
posted by vagus at 19:01| 東京 🌁| Comment(0) | TrackBack(0) | cannadic改 - その他 | このブログの読者になる | 更新情報をチェックする

2007年01月23日

jis 第3第4水準単漢字辞書 その後

一応、漢字部分は完成した。
まだちょっとやりたい作業も残ってますが。

ただ、非漢字の部分はちょっと手が止まってます。
この間の『ひらがなの「へべぺ」とカタカナの「ヘベペ」』じゃありませんが、色々ややこしいんで、もう一回規格票やら何やらを読み返して、作業用の資料作って間違いのないようにしてからにしようかと思い始めてます。
後から「間違ってたから調べ直し」とか嫌なので。

続きを読む
posted by vagus at 22:26| 東京 ☁| Comment(0) | TrackBack(0) | cannadic改 - その他 | このブログの読者になる | 更新情報をチェックする

2007年01月21日

cannadic改: 今月は

一応 31日を目標にしてます。
登録希望等がありましたらそれまでにお願いします。

ただ、ここんとこちょっと忙しくて何もできていないので、
もしかしたら 2月頭にズレ込むかもしれません。
そのときはまたお知らせします。
posted by vagus at 22:48| 東京 ☁| Comment(0) | TrackBack(0) | cannadic改 - その他 | このブログの読者になる | 更新情報をチェックする

2007年01月05日

青空文庫 「著作権保護期間の延長を行わないよう求める請願署名」

著作権保護期間延長反対

単漢字辞書で相当お世話になってるので、宣伝くらいせんとバチが当たる。
4/20 消印有効 …かな?
posted by vagus at 22:37| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - その他 | このブログの読者になる | 更新情報をチェックする

2007年01月03日

JIS 第3,4水準単漢字辞書 作業開始(追記)

えー、タイトルのとおりですが、昨日から作業開始しました。

最初辞書に、以前ブックオフで 105円で買った角川の「新字源 改訂版」ってのを使ってたのですが、載ってない字が結構あって、「散々探した挙句に載ってなかった」というのを何度か繰り返した後、「あ゛ー、もうこいつじゃダメだ」とプチギレして辞書買いに行きました。

続きを読む
posted by vagus at 15:53| 東京 ☀| Comment(11) | TrackBack(0) | cannadic改 - その他 | このブログの読者になる | 更新情報をチェックする

始動(追記)

あけま(ry

正月といってもそれほどすることがある訳じゃないし、ずっと盆暮れ正月関係ない生活を送ってたんで、1日だけ休んで昨日からまた作業を始めてました。

先日「アップデートした方がいい」とか書きましたがその理由をば簡単に。

続きを読む
posted by vagus at 14:38| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - その他 | このブログの読者になる | 更新情報をチェックする

2006年12月22日

jis 第3第4水準単漢字辞書

anthy-8409 以降の dict.args.in を見ると次の一行が追加されている。
set_dict_encoding eucjp

ここの「eucjp」を「utf8」とかにしてやると utf-8 な共有辞書が生成されるんではないかと思うが、まだ確認していない。日曜まで時間が取れないので日曜に確認するつもり。

続きを読む
posted by vagus at 10:46| 東京 🌁| Comment(0) | TrackBack(0) | cannadic改 - その他 | このブログの読者になる | 更新情報をチェックする

2006年12月21日

cannadic改:12月の予定

今年最後なので出します。
12/31 に。
登録希望等ございます方はまたお願いします。

# 「虎の穴」はエロサイトの書き込みがウザくなったので、
# すぐには公開せず、一旦こちらで確認してから公開するようにしています。


posted by vagus at 22:35| 東京 ☁| Comment(0) | TrackBack(0) | cannadic改 - その他 | このブログの読者になる | 更新情報をチェックする

2006年12月07日

現状

自分用メモも兼ねてここ数ヶ月のまとめ。

そもそもこの辞書を公開し始めた当初に、utumiさんとのやり取りの中で、「登録されてない語を登録するのが主眼で、頻度をいじる気はない」というようなことを言いました。

その理由は、
 a. 頻度値がおかしくて出したい語が一発で出ないとしてもエントリがあれば出すことはできるのに対し、エントリのない語はそもそも出すことが出来ない(だから新語登録を最優先にする)
 b. どの語を優先し、どの語を後回しにするかは人によって好みが異なるため、頻度をいじり始めると収拾がつかなくなる
 c. そもそも「頻度値のつけ方」に関するドキュメントが全くない(少なくとも現在までのところ発見できていない)ので、すべて実際に試行錯誤しながら自分で適正値を探さなければならない
 d. 仮にきちんとしたドキュメントがあり、どういう風に付ければいいか分かったとしても、数十万ものエントリ(対象を絞ったとしても何万という数のエントリ)に対して一つ一つ値を付けたり、確認したりするのはご免被りたい、というか、実際問題としてムリ
 e. ある変換エンジン(現状 anthy しかありませんが)のあるバージョンに対して適切な出方をするように調整したとしても、その変換エンジンがアルゴリズムやスコアのつけ方を変更したらすべてをやり直さなければならないかもしれない
 f. 「頻度値で調整する」というやり方自体あまり効率の良い方法ではなく、そのうち使われなくなる方向に行く可能性が高いと思われるため、作業しても無駄になりかねない

といったことでした。
簡単に言えば、「一人でやるのは事実上ほぼ不可能な上に、やったとしても努力が水の泡になる可能性があるのでやりたくない」ということです。

続きを読む
posted by vagus at 10:59| 東京 ☀| Comment(2) | TrackBack(0) | cannadic改 - その他 | このブログの読者になる | 更新情報をチェックする

広告


この広告は60日以上更新がないブログに表示がされております。

以下のいずれかの方法で非表示にすることが可能です。

・記事の投稿、編集をおこなう
・マイブログの【設定】 > 【広告設定】 より、「60日間更新が無い場合」 の 「広告を表示しない」にチェックを入れて保存する。