2007年08月12日

「記号と読みの対照表」更新

「記号と読みの対照表」更新しました。

正直、きちんとチェックできてはいないので、おかしなところを見つけたら教えて下さい。

posted by vagus at 12:06| 東京 🌁| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2007年08月10日

extra のみ出し直し

焦げそうな一日でしたね、今日は。

昨日も書きましたとおり、白井さんと松鵜さんのお陰で gt34-tankanji-hikanji.t が ~/.anthy/imported_words_default.d/ に置いても使えることが判明しましたので、出し直しました。

ついでに、ベースとして JISX0213 InfoCenter の「漢字音訓索引(onkun0213.txt [2000-09-11])」を使わせて頂いていることを README に書いていなかったので、書き足しました。

以下、蛇足というか備忘録。

続きを読む
posted by vagus at 00:07| 東京 ☁| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2007年08月06日

cannadic改: 070805 出しますた

あぢー上に一日がかり… orz

[変更点]
・新語追加&誤登録修正(内海さん、井汲さん、登録希望さん、Ishiiさん)
・UTUMI さんの wiki-analyzed-20070303/analyzed-unknownからの取り込みの続き
・Anthy Wiki の「単語収集/未分類語」から一部取り込み
・人名ランク分け完了
・anthy-9100 の base.t からの取り込み完了
・gtankan-okuri.ctd は extra パッケージへ

最後の奴ですが、新たに「alt-cannadic-extra」というパッケージを作り、厄介の種になっていた gtankan-okuri.ctd はそっちへ移しました。
ファイル名は

 anthy用: gt_okuri.t
 canna用: gt_okuri.ctd

になっています。

以下、補足説明をば。

続きを読む
posted by vagus at 00:21| 東京 🌁| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2007年06月22日

alt-cannadic-0621 の変更点 - 追記

遅くなってすみません。出しました←表示されるように直しました。アフォでごめんなさい

[変更点]

・新語追加&誤登録修正(登録希望さん、Ishiiさん、UTUMI さんありがとうございました)
・UTUMI さんの wiki-analyzed-20070303/analyzed-unknown からの取り込みの続き
・人名をランク分け(並び順の補正はまだ半分くらい)


自立語の中で人名だけは頻度の参考にできるいい資料がなくてランク分けしてなかったんですが、いつのまにか並び順がグチャグチャになってたので、いっそのことと思ってランク分けしました。
ただ、並び順の補正はまだ半分くらいしか終わってないので、(タ行以降の)並び順はおかしいです。

# 固有名詞はヘンな読みでもそれが正しかったりするので、
# そこに誤登録が紛れ込んでると本当に誤登録なのかどうか
# 判断するのが難しいんですが、「やっぱり誤登録」が結構
# ある...
# なんつーか、もうね、登録した奴は社保庁の職員かと(ry

<追記>
よく考えたら、「人名のランク分け」はリリースした canna 形式の辞書には直接は関係なかった。canna 形式にする前の、作業用辞書ファイルでの話でした。ボロボロだな > 自分
もういいや...
posted by vagus at 01:13| 東京 ☀| Comment(2) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2007年06月15日

cannadic改:次回は 20 or 21日に出します

今月はなかなか時間が取れてませんが、登録依頼も頂いているので 20日を目標に出そうと思ってます。間に合わなかったら 21日にずれ込みます。

posted by vagus at 01:48| 東京 ☔| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2007年06月01日

cannadic改:次回のリリース

気づけば月末を過ぎてしまってますが、5月は 13日に出したばかりなので、月末には出し(せ)ませんでした。

次回をいつにするかはまだ決めていません。変な時期に出しちゃったからなぁ。
基本的には月末リリースにしていますが、登録依頼を頂いているのにあまりお待たせするのはよくないと思うので、少し早めにとは思っています。

続きを読む
posted by vagus at 01:45| 東京 ☁| Comment(2) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2007年05月13日

alt-cannadic-070513 の変更点

[変更点]

・新語追加(登録希望さん、Ishiiさん ありがとうございました)
・「ICOT 形態素辞書」より名詞のエントリ取り込みの続き(一応終わり)
・UTUMI さんの wiki-analyzed-20070303/analyzed-unknown からの取り込み開始


前回から +2,000エントリ程です。

<追記>
@nifty TimeLine の方はどうしよう?
元々ちょっと使ってみたかっただけだし、やってみたら「日」表示じゃ間空きすぎだし、かといって「月」表示じゃ詰まりすぎだしでうまくないので、「まぁそのうち消そう」と思ってたんですが、今日見たら「週」表示が追加されてた…。しかも"今日"追加されたらしい…。「消すな」ってことですか?
でもなぁ、縦軸が 4桁までしか取れないんで、「週」表示でもほとんど横這いにしか見えなくて、まるで「ほとんど増えてませんよ」って言われてるみたいで嫌なんだよなぁ…。

posted by vagus at 18:26| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2007年05月08日

cannadic改:週末に出します

かなり御無沙汰した気がしますが、いつ以来だっけかな?

結局あれから復活できずに、GW 中はほとんど人間廃業してました。
特にこれといった理由があるわけじゃなく、毎年1-2回こういうドツボな時期があって、そのサイクルが来ただけなんですが、まぁ結構ひどかったな、今回は。

一応ちょこっと作業は進めたので出せることは出せるんですが、今週はずっと帰りが遅くなるので、週末(多分土曜)に出します。

お待たせしてすみませんです。

posted by vagus at 23:18| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2007年04月27日

cannadic改:復活中

昨日あたりからまた作業再開しました(ボチボチと、ですが…)。

今月はここまでほとんど何もしていないので、月末は出し出せませんが、GW 中にある程度進められたら、明けに出そうかと思ってます。

花粉症は大したことなさそうだし、環境もほぼ決まってあとはファイルを(整理しつつ)移行する作業をするだけになったので、思惑通り行けば多分出してもいいくらいのことはできそうな気がします。



遊びすぎなければ(w

posted by vagus at 10:50| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2007年04月08日

更新情報を @nifty TimeLine に

してみた

正直メリットは何もない。
使ってみたかっただけです。

「縦軸はもちろんエントリ数で」と思ったんだが、4桁しかあかんのか…

# 初期の頃のエントリ数が分からなくて入力できん… orz
posted by vagus at 00:04| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2007年04月06日

alt-cannadic-070406 の変更点

単漢字の送り仮名あり/なしの分離作業が終わったので臨時更新

[変更点]

・単漢字(gtankan.ctd)を送り仮名あり/なしで分割
  gtankan.ctd --- 読みに送り仮名のないもの
  gtankan-okuri.ctd --- 読みに送り仮名のあるもの
    ※送り仮名部分は削除「うご-く #KJ 動」→「うご #KJ 動」

gcanna.ctd, gcannaf.ctd は 070403 と全く同じです。

まぁ、これで canna でお使いの方も gtankan.ctd の方は常時マウントしっぱなしでも問題なくなったんではないかと。
gtankan-okuri.ctd の方は微妙…。anthy でも canna でも、こっちは入れない方がいいかも。送り仮名取っちまうと「どうしてその読みでこの字が出てくるのか分からん」ということになるので…

gtankan34.ctd の方は当分先になります。こっちはそもそも参照できる辞書を探すところからやらなきゃなので…。
posted by vagus at 23:27| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2007年04月03日

alt-cannadic-070403 の変更点

[変更点]

・今月も登録希望さんから登録依頼を頂きました。ありがとうございます。
・主に名詞を中心に新語追加
・自立語をランク分け(alt-cannadic_for_devel/docu/freq.txt 参照)
・誤登録修正( 30 くらいは直したと思う)


ランクについては、一応「おかしくなってるだろう」と見当を付けたところについては直した。細かい調整はこれから気づいたときにその都度調整していきます。
単漢字はまだ以前のままです。
posted by vagus at 23:41| 東京 ☁| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2007年04月01日

延期しまふ

ここんとこちとオーバーワーク気味でヘロヘロなのと、余計な作業始めて中途半端なので…

4/3 に出します。
ごめんなさい。

<追記>
エイプリルなんとかではありません。念のため。
posted by vagus at 00:59| 東京 ☁| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2007年03月24日

次回は

自分的最速でランクづけ作業をしてるところですが、終わらなくても(終わりっこありませんが) 3/31 or 4/1 に出します。

今現在の状態のを anthy-8723 でちょっと使ってみていますが、かなりいい感じになってきてる気がします。ちょっとだけ期待してもらってもいいかも(つか、anthy のお陰な気がしますが)。

# 最近まで T30 とか「する」接続する名詞がやけに虐げられてる気がしてましたが、
# それが直ってるようです。
# 「こてい」→「固定」、「さいせい」→「再生」、「いん」→「印」
posted by vagus at 16:25| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2007年02月28日

alt-cannadic-070228 の変更点

[変更点]

・今月も登録希望さんから登録依頼を頂きました。ありがとうございます。
・主に名詞を中心に新語追加
・名詞系と副詞の頻度をいじった(が、ほとんど効果なし。頻度は来月大幅にいじる予定)
・先月の続きで単漢字の非漢字をもう少し強化
・連絡先を gmail の方に変更した

今月は主に下調べ/下準備的な作業をしていたので、あまり大きな変更はありません。

jis第3第4水準の非漢字部分の単漢字辞書は今週中に出すつもり(多分…)。

posted by vagus at 22:21| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2007年02月18日

次回リリース予定日

2/28 に出すつもりです。

新語登録希望等あれば、こちらまでお願いします。

posted by vagus at 12:24| 東京 ☔| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2007年02月15日

anthy-7900 用 anthy.dic 追加 - ミスってた

ふと、主だったディストリに含まれている anthy のバージョンを調べてみたら、7900 を採用しているものがまだ結構あったので、anthy-7900 用 anthy.dic を追加しておきました。

ついでに、付属語グラフも 8607 相当にし、「ぺ・よんじゅん」で「ペ・ヨンジュン」が出るようにもなってます。

ただし、7900 では単漢字が最初の候補に来てしまうので、単漢字は「読み:」と読みにコロンをつけて出すようにしてあります。コロンは(何故か)全角でも半角でも行けるようです。

<追記> 2/16
ミスってました。
昨日の奴は「する」が「し」の形の時(「して」「した」「したい」等)がだせなくなってました。
サ変のパッチは depgraph の中だけの変更じゃ済まないんだから、適用したらマズいんだった。昨夜布団の中で気づいたよ...

というわけで、さっき(2/16 20時頃)上げ直しました。

実は、8300 でも同じことをやっていたので、こっちも上げ直してあります。
失礼しました。
posted by vagus at 22:11| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2007年02月03日

落ち穂拾い -- 追記

1/31 版の作業をしていて一番 orz だったのは、

 ・登録希望さんからの登録依頼にあった「同語反復」
 ・anthy の base.t にあった「爪切り」

でした。
こんな語すらまだ入ってないようなダメ辞書です。はい。

続きを読む
posted by vagus at 13:31| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2007年02月01日

cannadic改: 出した

[変更点]
・普通名詞、外国人名強化
・今回は登録希望さんからたくさん新語を頂きました。感謝です。
・ML でのやり取りに触発されて、単漢字の記号部分を強化
・ついでに、「記号と読みの対象表」を作成


jis 第3第4水準単漢字辞書は明後日以降に別で出します。
今日はもう力尽きた…
晩飯食おう…


posted by vagus at 00:27| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2006年12月31日

cannadic改:出しました

22万エントリ突破。
どぞ

[変更点]
・UTUMI さんの私家版 gcanna.ctd(anthy_gcanna_ut-20061121.tar.bz2) から取り込み(Thanks UTUMI さん)
・「ICOT 形態素辞書」から名詞のエントリ取り込みの続き
・新語追加(Thanks 登録希望さん)

ちと疲れたので詳しくは後で書こうと思いますが(ほんとか?)、今回のはアップデートした方がいいです。
そこそこパワーアップしたり誤登録を直したりしたので(変換精度のことではないのでそこは期待しないように)。

それではよいお年を。
posted by vagus at 15:16| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

広告


この広告は60日以上更新がないブログに表示がされております。

以下のいずれかの方法で非表示にすることが可能です。

・記事の投稿、編集をおこなう
・マイブログの【設定】 > 【広告設定】 より、「60日間更新が無い場合」 の 「広告を表示しない」にチェックを入れて保存する。