2011年03月02日

郵便番号辞書更新

郵便番号辞書更新してあります

結局、gendic_zip.rb を一から作り直した。
ken_all.csv の丸括弧の中の情報もできるだけ生かそうとしたら、結局 2週間以上かかった…orz
でも、まあ、これで曲がりなりにも自動更新できるようになったので、自分の更新の手間はぐんと減った(はず)。

変更した主な点
・品詞コードを "CNS" から "CN" にした
・「0000000」を変換すると辞書のバージョンを候補に出すようにした
 ex.) 0000000 → 郵便番号辞書:2011年3月版
・丸括弧の中の情報(丁目、番地、字・大字など)もできる限り入れた
 (ただし、解釈を間違えてるものがあるかも)


cron で自動更新する方法も書いてみたので、もしよさそうだと思われたらどうぞ。
posted by vagus at 22:50| 東京 ☀| Comment(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2011年02月09日

cannadic改 2010208 リリース

随分間があいてしまいましたが、更新しました。
必要な方は、左上のリンクからどうぞ。

なお、こちらは原作 Anthy 及び Canna 用です。

品詞コードを若干変えたりしてた alt-depgraph の続きは、sf.jp に PersonalForge というのができたそうなので、そっちでやります。
と言っても、もはや完全にモチベーションが枯渇したので、更新は年に数回とかそんな感じになると思いますが。

あと、郵便番号辞書の配布の仕方を変えました
が、ちょっと問題がぅぅぅ…。

「ken_all.zip* を取ってきて、白井さんの zipcode-make.el で zipcode.t を作成、alt-cannadic.sourceforge.jp に置くスクリプトを書いて、sf.jp のシェルサーバで毎月1日に cron で回す」という感じで完全自動化したかったんですが、シェルサーバの emacs が古いせいなのかなんなのか、手元でやった場合と出力が異なる…。


* (lzh だけじゃなく、zip でも配布するようになったらしい)

なので、当面、zipcode.t の作成は手元で行って手動で upload するため、更新が遅れることがあります。
一応、1日の朝までに上げるよう努力はしますが。

posted by vagus at 00:57| 東京 ☁| Comment(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2010年06月01日

郵便番号辞書更新

Anthy 用郵便番号辞書を更新しました。

左上のリンク(zipdic-201005)からどうぞ。

郵便番号辞書については、多分、そのうち新部さんの方に引き取られて、自分はお役ご免になると思います


引き継ぎの意味で変換スクリプト(gendic_zip.rb)も同梱しましたが、普通の人は無視して下さい。

posted by vagus at 00:56| 東京 ☀| Comment(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2010年05月07日

郵便番号辞書リリース【更新】5/10【追記】5/13

しました。
左上のリンク(zipdic)からどうぞ。

zipdic-201004/zipcode.t を /usr/share/anthy/zipcode.t に上書き、で使えます(環境によっては /usr/share/anthy/ とは別な PATH になってるかもしれません)。
$ tar xvjf zipdic-201004.tar.bz2
$ cd zipdic-201004
$ sudo cp ./zipcode.t /usr/share/anthy/zipcode.t

一応、元データが毎月月末に更新されるらしいので、その頃に更新するつもりですが、いつまで続くかは不明。
どなたか受け持って頂けませんか?
誰にでもできる簡単なお仕事です。

【更新】5/10 - zipdic-201004.2
原作 Anthy に従って、複数エントリ/行の形式にしていたのを、内海さんに倣って、1エントリ/行に変更。

折角直して頂いた G-HAL 氏には大変申し訳ありません。
自分が事前にちゃんと調べてればお手を煩わせることはなかったのに…。ごめんなさい。

【追記】5/13
続きを読む
posted by vagus at 01:05| 東京 ☀| Comment(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2009年12月30日

cannadic改 20091230 リリース【追記】1/1

出しました。左のリンクからどうぞ。
尚、特に問題がなければ、これが最終版になります。

変更点は、

・新語 +1500 ほど
・最新の郵便番号辞書(zipcode.t)を同梱

です。
郵便番号辞書は、面倒だったので内海さんの anthy-ut-patches-20091228.tar.bz2 から頂いてきました m(_ _)m

Changes.txt には書き忘れましたが、SKK-JISYO.wrong.annotated を元に、compound.t の誤登録も若干修正してあります(compound.t は元は SKK の L 辞書なので)。

続きを読む
posted by vagus at 22:46| 東京 ☀| Comment(3) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2009年11月27日

wiki 更新

しておきました。

cannadic改 - Anthyで使う
posted by vagus at 01:37| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2009年11月23日

cannadic改 20091122 -【追記】11/23

出しました。左のリンクからどうぞ。
新語は 1800 くらい。主に、compound.t の部分になってる単語で未登録だったもの。
登録してた時の感覚では、結構よく使われる語が多かった印象なので、アップデート推奨です。

続きを読む
posted by vagus at 01:52| 東京 ☁| Comment(2) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2009年11月21日

明日出す -【追記】11/22

ちょっとご無沙汰しましたが、色々作業をやってました。

# 後で愚痴を書く

できれば、明日 cannadic改出すつもり。

【追記】11/22 20:00
ちょっと手間取ってますが、今晩中に出します。
深夜になりますが。

posted by vagus at 01:32| 東京 ☁| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2009年09月22日

cannadic改 20090921 - 追記9/23

大きな変更はなし、新語も 500 弱くらいしか増えてませんが、前回から間が開いたのと、手元をできるだけクリアにしておきたかったので、出しました。
左のリンクからどうぞ。

【変更内容】
* 新語追加&誤登録修正(G-HAL さん、nosuke さん、salvan さん、内海さん、Anthy wiki)
  ご指摘感謝です。

* sample/dict.args.in:
  JIS第3水準の非漢字(gt-tankanji_hikanji-34.t)をデフォルトで anthy.dic に含めるよう変更。
  丸数字やローマ数字等はデフォルトで使えるようになっていて欲しいという声が多いような気がしたのと、そろそろデフォルトで UTF-8 な文字があっても大丈夫かなと。
  「事情があって、UTF-8 対応のフロントエンドが使えない」という場合は、単に gt-tankanji_hikanji-34.t の行をコメントアウトすれば OK です。

* README_euc.txt:
  ファイルの説明で gt_okuri.ctd が「AC」(Anthy, Canna 共用)になってしまっていたのを「C」(Canna 用)に修正。
  (Anthy 用は extra/gt-tankanji_okuri-std.t)

* 新規追加
 extra/x-conv2self-std.t:
  scim-anthy の逐次変換機能使用時、入力毎に英数記号が一々変換されるのを、見た目上変換されていないように見せるための辞書。scim-anthy の逐次変換機能を使わないなら不要なニッチな辞書。

 extra/g-keiyousi_ie-std.t:
  形容詞イ音便・エ音便辞書(利用には alt-depgraph が必要)。

* 前回、エントリ数の集計を間違えていたのを修正


あと、wiki を直さなきゃいけないんだけど、どう直そうかな…

【追記】9/23
G-HAL 氏のサイトより
alt-cannadic-090921:
sample/dict.args.in にて、
    extra/gt-tankanji_kanji-3.t
    extra/gt-tankanji_kanji-4.t
と分離しているが、同梱されているデータは 34 とひっついている。
げげ、しまった。見落としました。ご指摘感謝です。
多分それほど大きな影響はない部分だと思うので、こっそりファイルを差し替えました(9/24 0時頃)。

修正内容:
#read @top_srcdir@/alt-cannadic/extra/gt-tankanji_kanji-3.t
#read @top_srcdir@/alt-cannadic/extra/gt-tankanji_kanji-4.t
    ↓
#read @top_srcdir@/alt-cannadic/extra/gt-tankanji_kanji-34.t

失礼をば。

posted by vagus at 00:17| 東京 ☁| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2009年03月09日

cannadic改 20090308 (depgraph改 も更新)

久々ですが、出しました

時間が遅くなってしまったので、説明を端折りますが、大きな変更はほとんどなく、主に新語追加 & 誤登録修正 & 頻度調整です。
ランクの付け方はまだ変わっていません。これまでと同じです。ランクの付け替えにはまだまだ時間がかかるので。


あと、depgraph改 も更新しました。
こちらは今回は alt-cannadic-090308 を同梱してあります。別途必要なのは anthy-9100h.tar.gz だけです。

# 明日説明を付け足します。今日はお知らせだけ。

続きを読む
posted by vagus at 01:23| 東京 ☁| Comment(2) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2008年12月08日

cannadic改: 面区点コード辞書

ずっと前に単漢字辞書関係の作業をしてたときに作ろうと思ったけど、「需要あんのかな?」と思って後回しにしたまま忘れていたが、最近「区点コード anthy」とかで検索してきた人がいたので、「需要ゼロってわけでもないのか」と思って作った

ベースになるものは既にあったので、辞書ファイル自体は 10分もかからずにできたんだけど、説明書くのに 2時間近くかかった…。

posted by vagus at 21:12| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2008年10月18日

cannadic改 20081018

alt-cannadic-20081012 は、実は他にも色々ミスっていたので出し直しました。
20081012 はなかったことにして下さい。

以下、変更点。

続きを読む
posted by vagus at 16:02| 東京 ☀| Comment(6) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2008年10月13日

cannadic改 081012 補足 (追記2)

頭の中でうまくまとめられないので、先にこっちで説明してみます。

言いたかったことは要するに、「alt-cannadic/extra/ 以下には EUC-JP では表示できない文字を含んだエントリの辞書が入れてあり、それらを使うにはいくつか注意が必要」ということなんですが。
【追記】 10/14
要するに、(自分の記憶と調査が間違ってなければ)

・extra に入れてある辞書を使うなら、フロントエンドは現状ではほぼ uim 1択ですよ
・変換時には読みのケツに「t」を付ける必要がありますよ
・「t」が嫌なら、変えるなり取るなりしてくださいね

ということが主に言いたかったことです。

【追記】 10/18
uim で確認してみようと思ったら、ここ

 --enable-anthy-utf8-static (UTF-8版UimAnthyのスタティックビルド) (trunkのみ)
 --with-anthy-utf8 (UTF-8版UimAnthyをビルド) (trunkのみ)

って書いてあった…。
「なぬ? 以前試したのはもう一年以上前なのに、まだ正式対応じゃないの?」と思って、「もしかして情報が古いだけかも」と儚い期待にしがみつきつつ、uim-1.5.3 で試してみたけどやはりダメっぽい。「--with-anthy-utf8」を付けてもビルド&インストールはできるけど、anthy-utf8 がない…。
「情報が古いだけかも」どころか、むしろ逆に、自分が調べもせずに嘘書いたから書き足された可能性大かも。もしそうなら、ごめんなさい。

というわけで、使うには svn の trunk から取ってきて自力で入れる必要があるみたいです。

……「ibus も入れておいて、丸数字やローマ数字とかを入力したいときだけ ibus に切り替える」というのが、現状では一番簡単ってことになりますかね。

…と思ったけど、1.5.0 のリリースノートには

 - New IM uim-anthy-utf8

ってあるんだよなぁ。やっぱ、自分がミスってるだけ?
trunk(rev.5595)取ってきてやってみたけど、同じ状態だ。設定画面の左側「グループ」のところには「Anthy(UTF-8)」がいるんだけど、「全体設定」の「入力方式」の中には「Anthy」しかいなくて選択できない。「標準」の方も「副」の方も。前は「副」の方にだけいる状態だったと思うんだけど。

$ uim-sh
uim> enabled-im-list
(anthy skk latin direct)

あと、候補ウィンドウのフォントを設定するところってなかったんだっけか…?こっちは記憶がないな。

お、fedora は 10 から uim-1.5.x になって、uim-anthy に anthy-utf8 が入るみたいですね。ということは、やっぱあるんだ。嘘言ってなくてよかった & ちゃんとビルドできてないんだな…

10/19
「もしかして」と思って ~/.uim.d/ を消したらちゃんと出てきました。anthy-utf8(uim-1.5.3)。
よく見たら、「全体設定」のところに「使用可能にする入力方式」っていうのがあった。もしかしたら、 ~/.uim.d/ を消さなくてもここの「編集」ボタンを押して追加することでもできたかも。

続きを読む
posted by vagus at 22:23| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

cannadic改 081012 出しました

思った以上に確認に手間取って遅くなりましたが、sf.jp に upload はしました

但し、今回ちょっと色々変更があるので説明をしなきゃいけないんですが、今日はもう遅いので、使い方等の説明は明日 Wiki に書きます。
できればそれまで待っていて欲しいんですが、中を見て分かる方はそのままお使いください。
Canna の場合はほぼ変更なしなのでいいですが、Anthy の方は色々ファイルが増えたので。

以下、主な変更点。

続きを読む
posted by vagus at 02:42| 東京 ☁| Comment(3) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2007年10月23日

cannadic改 071023 出しました

とても遅くなってすみませんでした。どうぞ

しかし、結局朝になっちまった…。

今日は休みだからいいけどさ。

続きを読む
posted by vagus at 07:00| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2007年10月20日

延期します

ごめんなさい。

夕方体調が悪くなって帰ってからさっきまで寝てました。(寝汗でビチョビチョだよ、気持ち悪りぃ…)。

で、大分復活したのでリリース作業を始めたんですが、やり始めたらおかしいところややり忘れが見つかって、今それを直してます。なので、今日中は無理になってしまいました。というか、もう既に日付的には 20日になってますけど…。

明日明後日は時間が取れない予定なので、明明後日(22日)に延期させてください。申し訳ありません。

# あ、日付的には 23日になっちゃうと思いますが。

posted by vagus at 00:15| 東京 ☔| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2007年09月20日

alt-cannadic-070918 の変更点

遅れましてすみません。

・新語追加&誤登録修正(内海さん、登録希望さん、nosukeさん、n/aさん、2chの匿名の方々)
・SKK-JISYO.wrong(v 1.141 2007/01/09 02:58:25)を参考に誤登録修正(okuri-nasiのみ対象)
・四字熟語一部見直し、誤登録修正
・Anthy Wiki の「単語収集/未分類語」から一部取り込み

登録依頼を下さった方々、ありがとうございます。
SKK 辞書のメンテナの方々にも感謝。

以下補足等。

続きを読む
posted by vagus at 22:40| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2007年09月19日

cannadic改 070918 出しました

どぞ

慌ててたので何か変なことやってる可能性がなきにしもあらずですが…。

extra の方は変更がないので今回はなしです。

もう遅くなってしまったので、詳しいことは明日書きます。
すみません。

posted by vagus at 02:02| 東京 ☁| Comment(2) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2007年09月15日

cannadic改: 次は 9/18

に出します。

登録依頼等ございます方は、またよろしくお願いします。
(wiki の方の登録依頼ページは「やっぱいらなかったかな」という気がかなりして来てます。「欲しい」という声がなければそのうち消すかも)


地名増強はまだ当分終わらなそうなので、今回はエントリ数はそれほど増えませんが、それなりに誤登録を潰したりしてます。

まぁ、未だに残ってるような誤登録は使用頻度の少ないものばかりなので、実用上殆ど違いは分からないと思いますが、「辞書の品質」という意味では重要な作業だと思ってます。



posted by vagus at 02:05| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2007年08月29日

近況

内海さんの「name.t の typo」のメール見て、「それはパッチの形にしといた方がいいんじゃないかな」と思ってパッチ作ったら先に投げられて orz な今日この頃、いかがお過ごしでしょうか。

また気づけば月末ですが、今のところ登録依頼を頂いたものくらいしか変わってなくて、出せるようなものがないので、しばらくは出せません。次回は来月後半くらいになりそうです。

今やってるのは前にちょっと書いた地名拡充ですが、これがまた、まぁ、何とも。溜息出るよ。とりあえず、誰か京都を日本地図から消してください。
あと、いくら「自由に使ってね」的データだからって、チェックくらいちゃんとやってくれよと小一時間(ry いや、まさかしてまさかすると、チェックしてこれなのか…? しかも検索してみると、みんな郵政公社が間違えてるのをそのまま使い回しちゃったりしてまぁ、どうすんだこれ。

たとえば、「石川県七尾市江泊町(白鳥町)」というのがあるんですが、読みが「えのとまりまち(しらとりまち)」になってる。「地名には信じられん読み方をするものがある」ということを考慮に入れても、自分が調べた限り、まず十中八九「しらとりまち」の間違いだと思うんですが、検索してみると出てくるのは「しらとりまち」ばっか…。そのうちほんとに「しらとりまち」に改称するかもしれんね。< ねぇよ

とまぁ、郵政公社のデータがどこまで信用できるのかかなり不安になってきてますが、今更やめられんので続けます。間違ってても郵政公社のせいだもんね(w

posted by vagus at 00:52| 東京 🌁| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

広告


この広告は60日以上更新がないブログに表示がされております。

以下のいずれかの方法で非表示にすることが可能です。

・記事の投稿、編集をおこなう
・マイブログの【設定】 > 【広告設定】 より、「60日間更新が無い場合」 の 「広告を表示しない」にチェックを入れて保存する。