正直、きちんとチェックできてはいないので、おかしなところを見つけたら教えて下さい。
2007年08月12日
2007年08月10日
extra のみ出し直し
焦げそうな一日でしたね、今日は。
昨日も書きましたとおり、白井さんと松鵜さんのお陰で gt34-tankanji-hikanji.t が ~/.anthy/imported_words_default.d/ に置いても使えることが判明しましたので、出し直しました。
ついでに、ベースとして JISX0213 InfoCenter の「漢字音訓索引(onkun0213.txt [2000-09-11])」を使わせて頂いていることを README に書いていなかったので、書き足しました。
以下、蛇足というか備忘録。
続きを読む
昨日も書きましたとおり、白井さんと松鵜さんのお陰で gt34-tankanji-hikanji.t が ~/.anthy/imported_words_default.d/ に置いても使えることが判明しましたので、出し直しました。
ついでに、ベースとして JISX0213 InfoCenter の「漢字音訓索引(onkun0213.txt [2000-09-11])」を使わせて頂いていることを README に書いていなかったので、書き足しました。
以下、蛇足というか備忘録。
続きを読む
2007年08月06日
cannadic改: 070805 出しますた
あぢー上に一日がかり… orz
[変更点]
・新語追加&誤登録修正(内海さん、井汲さん、登録希望さん、Ishiiさん)
・UTUMI さんの wiki-analyzed-20070303/analyzed-unknownからの取り込みの続き
・Anthy Wiki の「単語収集/未分類語」から一部取り込み
・人名ランク分け完了
・anthy-9100 の base.t からの取り込み完了
・gtankan-okuri.ctd は extra パッケージへ
最後の奴ですが、新たに「alt-cannadic-extra」というパッケージを作り、厄介の種になっていた gtankan-okuri.ctd はそっちへ移しました。
ファイル名は
anthy用: gt_okuri.t
canna用: gt_okuri.ctd
になっています。
以下、補足説明をば。
続きを読む
[変更点]
・新語追加&誤登録修正(内海さん、井汲さん、登録希望さん、Ishiiさん)
・UTUMI さんの wiki-analyzed-20070303/analyzed-unknownからの取り込みの続き
・Anthy Wiki の「単語収集/未分類語」から一部取り込み
・人名ランク分け完了
・anthy-9100 の base.t からの取り込み完了
・gtankan-okuri.ctd は extra パッケージへ
最後の奴ですが、新たに「alt-cannadic-extra」というパッケージを作り、厄介の種になっていた gtankan-okuri.ctd はそっちへ移しました。
ファイル名は
anthy用: gt_okuri.t
canna用: gt_okuri.ctd
になっています。
以下、補足説明をば。
続きを読む
2007年06月22日
alt-cannadic-0621 の変更点 - 追記
遅くなってすみません。出しました。←表示されるように直しました。アフォでごめんなさい
[変更点]
・新語追加&誤登録修正(登録希望さん、Ishiiさん、UTUMI さんありがとうございました)
・UTUMI さんの wiki-analyzed-20070303/analyzed-unknown からの取り込みの続き
・人名をランク分け(並び順の補正はまだ半分くらい)
自立語の中で人名だけは頻度の参考にできるいい資料がなくてランク分けしてなかったんですが、いつのまにか並び順がグチャグチャになってたので、いっそのことと思ってランク分けしました。
ただ、並び順の補正はまだ半分くらいしか終わってないので、(タ行以降の)並び順はおかしいです。
# 固有名詞はヘンな読みでもそれが正しかったりするので、
# そこに誤登録が紛れ込んでると本当に誤登録なのかどうか
# 判断するのが難しいんですが、「やっぱり誤登録」が結構
# ある...
# なんつーか、もうね、登録した奴は社保庁の職員かと(ry
<追記>
よく考えたら、「人名のランク分け」はリリースした canna 形式の辞書には直接は関係なかった。canna 形式にする前の、作業用辞書ファイルでの話でした。ボロボロだな > 自分
もういいや...
[変更点]
・新語追加&誤登録修正(登録希望さん、Ishiiさん、UTUMI さんありがとうございました)
・UTUMI さんの wiki-analyzed-20070303/analyzed-unknown からの取り込みの続き
・人名をランク分け(並び順の補正はまだ半分くらい)
自立語の中で人名だけは頻度の参考にできるいい資料がなくてランク分けしてなかったんですが、いつのまにか並び順がグチャグチャになってたので、いっそのことと思ってランク分けしました。
ただ、並び順の補正はまだ半分くらいしか終わってないので、(タ行以降の)並び順はおかしいです。
# 固有名詞はヘンな読みでもそれが正しかったりするので、
# そこに誤登録が紛れ込んでると本当に誤登録なのかどうか
# 判断するのが難しいんですが、「やっぱり誤登録」が結構
# ある...
# なんつーか、もうね、登録した奴は社保庁の職員かと(ry
<追記>
よく考えたら、「人名のランク分け」はリリースした canna 形式の辞書には直接は関係なかった。canna 形式にする前の、作業用辞書ファイルでの話でした。ボロボロだな > 自分
もういいや...
2007年06月15日
cannadic改:次回は 20 or 21日に出します
今月はなかなか時間が取れてませんが、登録依頼も頂いているので 20日を目標に出そうと思ってます。間に合わなかったら 21日にずれ込みます。
2007年06月01日
cannadic改:次回のリリース
気づけば月末を過ぎてしまってますが、5月は 13日に出したばかりなので、月末には出し(せ)ませんでした。
次回をいつにするかはまだ決めていません。変な時期に出しちゃったからなぁ。
基本的には月末リリースにしていますが、登録依頼を頂いているのにあまりお待たせするのはよくないと思うので、少し早めにとは思っています。
続きを読む
次回をいつにするかはまだ決めていません。変な時期に出しちゃったからなぁ。
基本的には月末リリースにしていますが、登録依頼を頂いているのにあまりお待たせするのはよくないと思うので、少し早めにとは思っています。
続きを読む
2007年05月13日
alt-cannadic-070513 の変更点
[変更点]
・新語追加(登録希望さん、Ishiiさん ありがとうございました)
・「ICOT 形態素辞書」より名詞のエントリ取り込みの続き(一応終わり)
・UTUMI さんの wiki-analyzed-20070303/analyzed-unknown からの取り込み開始
前回から +2,000エントリ程です。
<追記>
@nifty TimeLine の方はどうしよう?
元々ちょっと使ってみたかっただけだし、やってみたら「日」表示じゃ間空きすぎだし、かといって「月」表示じゃ詰まりすぎだしでうまくないので、「まぁそのうち消そう」と思ってたんですが、今日見たら「週」表示が追加されてた…。しかも"今日"追加されたらしい…。「消すな」ってことですか?
でもなぁ、縦軸が 4桁までしか取れないんで、「週」表示でもほとんど横這いにしか見えなくて、まるで「ほとんど増えてませんよ」って言われてるみたいで嫌なんだよなぁ…。
・新語追加(登録希望さん、Ishiiさん ありがとうございました)
・「ICOT 形態素辞書」より名詞のエントリ取り込みの続き(一応終わり)
・UTUMI さんの wiki-analyzed-20070303/analyzed-unknown からの取り込み開始
前回から +2,000エントリ程です。
<追記>
@nifty TimeLine の方はどうしよう?
元々ちょっと使ってみたかっただけだし、やってみたら「日」表示じゃ間空きすぎだし、かといって「月」表示じゃ詰まりすぎだしでうまくないので、「まぁそのうち消そう」と思ってたんですが、今日見たら「週」表示が追加されてた…。しかも"今日"追加されたらしい…。「消すな」ってことですか?
でもなぁ、縦軸が 4桁までしか取れないんで、「週」表示でもほとんど横這いにしか見えなくて、まるで「ほとんど増えてませんよ」って言われてるみたいで嫌なんだよなぁ…。
2007年05月08日
cannadic改:週末に出します
かなり御無沙汰した気がしますが、いつ以来だっけかな?
結局あれから復活できずに、GW 中はほとんど人間廃業してました。
特にこれといった理由があるわけじゃなく、毎年1-2回こういうドツボな時期があって、そのサイクルが来ただけなんですが、まぁ結構ひどかったな、今回は。
一応ちょこっと作業は進めたので出せることは出せるんですが、今週はずっと帰りが遅くなるので、週末(多分土曜)に出します。
お待たせしてすみませんです。
結局あれから復活できずに、GW 中はほとんど人間廃業してました。
特にこれといった理由があるわけじゃなく、毎年1-2回こういうドツボな時期があって、そのサイクルが来ただけなんですが、まぁ結構ひどかったな、今回は。
一応ちょこっと作業は進めたので出せることは出せるんですが、今週はずっと帰りが遅くなるので、週末(多分土曜)に出します。
お待たせしてすみませんです。
2007年04月27日
cannadic改:復活中
昨日あたりからまた作業再開しました(ボチボチと、ですが…)。
今月はここまでほとんど何もしていないので、月末は出し出せませんが、GW 中にある程度進められたら、明けに出そうかと思ってます。
花粉症は大したことなさそうだし、環境もほぼ決まってあとはファイルを(整理しつつ)移行する作業をするだけになったので、思惑通り行けば多分出してもいいくらいのことはできそうな気がします。
遊びすぎなければ(w
今月はここまでほとんど何もしていないので、月末は
花粉症は大したことなさそうだし、環境もほぼ決まってあとはファイルを(整理しつつ)移行する作業をするだけになったので、思惑通り行けば多分出してもいいくらいのことはできそうな気がします。
遊びすぎなければ(w
2007年04月08日
2007年04月06日
alt-cannadic-070406 の変更点
単漢字の送り仮名あり/なしの分離作業が終わったので臨時更新
[変更点]
・単漢字(gtankan.ctd)を送り仮名あり/なしで分割
gtankan.ctd --- 読みに送り仮名のないもの
gtankan-okuri.ctd --- 読みに送り仮名のあるもの
※送り仮名部分は削除「うご-く #KJ 動」→「うご #KJ 動」
gcanna.ctd, gcannaf.ctd は 070403 と全く同じです。
まぁ、これで canna でお使いの方も gtankan.ctd の方は常時マウントしっぱなしでも問題なくなったんではないかと。
gtankan-okuri.ctd の方は微妙…。anthy でも canna でも、こっちは入れない方がいいかも。送り仮名取っちまうと「どうしてその読みでこの字が出てくるのか分からん」ということになるので…
gtankan34.ctd の方は当分先になります。こっちはそもそも参照できる辞書を探すところからやらなきゃなので…。
[変更点]
・単漢字(gtankan.ctd)を送り仮名あり/なしで分割
gtankan.ctd --- 読みに送り仮名のないもの
gtankan-okuri.ctd --- 読みに送り仮名のあるもの
※送り仮名部分は削除「うご-く #KJ 動」→「うご #KJ 動」
gcanna.ctd, gcannaf.ctd は 070403 と全く同じです。
まぁ、これで canna でお使いの方も gtankan.ctd の方は常時マウントしっぱなしでも問題なくなったんではないかと。
gtankan-okuri.ctd の方は微妙…。anthy でも canna でも、こっちは入れない方がいいかも。送り仮名取っちまうと「どうしてその読みでこの字が出てくるのか分からん」ということになるので…
gtankan34.ctd の方は当分先になります。こっちはそもそも参照できる辞書を探すところからやらなきゃなので…。
2007年04月03日
alt-cannadic-070403 の変更点
[変更点]
・今月も登録希望さんから登録依頼を頂きました。ありがとうございます。
・主に名詞を中心に新語追加
・自立語をランク分け(alt-cannadic_for_devel/docu/freq.txt 参照)
・誤登録修正( 30 くらいは直したと思う)
ランクについては、一応「おかしくなってるだろう」と見当を付けたところについては直した。細かい調整はこれから気づいたときにその都度調整していきます。
単漢字はまだ以前のままです。
・今月も登録希望さんから登録依頼を頂きました。ありがとうございます。
・主に名詞を中心に新語追加
・自立語をランク分け(alt-cannadic_for_devel/docu/freq.txt 参照)
・誤登録修正( 30 くらいは直したと思う)
ランクについては、一応「おかしくなってるだろう」と見当を付けたところについては直した。細かい調整はこれから気づいたときにその都度調整していきます。
単漢字はまだ以前のままです。
2007年04月01日
延期しまふ
ここんとこちとオーバーワーク気味でヘロヘロなのと、余計な作業始めて中途半端なので…
4/3 に出します。
ごめんなさい。
<追記>
エイプリルなんとかではありません。念のため。
4/3 に出します。
ごめんなさい。
<追記>
エイプリルなんとかではありません。念のため。
2007年03月24日
次回は
自分的最速でランクづけ作業をしてるところですが、終わらなくても(終わりっこありませんが) 3/31 or 4/1 に出します。
今現在の状態のを anthy-8723 でちょっと使ってみていますが、かなりいい感じになってきてる気がします。ちょっとだけ期待してもらってもいいかも(つか、anthy のお陰な気がしますが)。
# 最近まで T30 とか「する」接続する名詞がやけに虐げられてる気がしてましたが、
# それが直ってるようです。
# 「こてい」→「固定」、「さいせい」→「再生」、「いん」→「印」
今現在の状態のを anthy-8723 でちょっと使ってみていますが、かなりいい感じになってきてる気がします。ちょっとだけ期待してもらってもいいかも(つか、anthy のお陰な気がしますが)。
# 最近まで T30 とか「する」接続する名詞がやけに虐げられてる気がしてましたが、
# それが直ってるようです。
# 「こてい」→「固定」、「さいせい」→「再生」、「いん」→「印」
2007年02月28日
alt-cannadic-070228 の変更点
[変更点]
・今月も登録希望さんから登録依頼を頂きました。ありがとうございます。
・主に名詞を中心に新語追加
・名詞系と副詞の頻度をいじった(が、ほとんど効果なし。頻度は来月大幅にいじる予定)
・先月の続きで単漢字の非漢字をもう少し強化
・連絡先を gmail の方に変更した
今月は主に下調べ/下準備的な作業をしていたので、あまり大きな変更はありません。
jis第3第4水準の非漢字部分の単漢字辞書は今週中に出すつもり(多分…)。
・今月も登録希望さんから登録依頼を頂きました。ありがとうございます。
・主に名詞を中心に新語追加
・名詞系と副詞の頻度をいじった(が、ほとんど効果なし。頻度は来月大幅にいじる予定)
・先月の続きで単漢字の非漢字をもう少し強化
・連絡先を gmail の方に変更した
今月は主に下調べ/下準備的な作業をしていたので、あまり大きな変更はありません。
jis第3第4水準の非漢字部分の単漢字辞書は今週中に出すつもり(多分…)。
2007年02月18日
2007年02月15日
anthy-7900 用 anthy.dic 追加 - ミスってた
ふと、主だったディストリに含まれている anthy のバージョンを調べてみたら、7900 を採用しているものがまだ結構あったので、anthy-7900 用 anthy.dic を追加しておきました。
ついでに、付属語グラフも 8607 相当にし、「ぺ・よんじゅん」で「ペ・ヨンジュン」が出るようにもなってます。
ただし、7900 では単漢字が最初の候補に来てしまうので、単漢字は「読み:」と読みにコロンをつけて出すようにしてあります。コロンは(何故か)全角でも半角でも行けるようです。
<追記> 2/16
ミスってました。
昨日の奴は「する」が「し」の形の時(「して」「した」「したい」等)がだせなくなってました。
サ変のパッチは depgraph の中だけの変更じゃ済まないんだから、適用したらマズいんだった。昨夜布団の中で気づいたよ...
というわけで、さっき(2/16 20時頃)上げ直しました。
実は、8300 でも同じことをやっていたので、こっちも上げ直してあります。
失礼しました。
ついでに、付属語グラフも 8607 相当にし、「ぺ・よんじゅん」で「ペ・ヨンジュン」が出るようにもなってます。
ただし、7900 では単漢字が最初の候補に来てしまうので、単漢字は「読み:」と読みにコロンをつけて出すようにしてあります。コロンは(何故か)全角でも半角でも行けるようです。
<追記> 2/16
ミスってました。
昨日の奴は「する」が「し」の形の時(「して」「した」「したい」等)がだせなくなってました。
サ変のパッチは depgraph の中だけの変更じゃ済まないんだから、適用したらマズいんだった。昨夜布団の中で気づいたよ...
というわけで、さっき(2/16 20時頃)上げ直しました。
実は、8300 でも同じことをやっていたので、こっちも上げ直してあります。
失礼しました。
2007年02月03日
落ち穂拾い -- 追記
1/31 版の作業をしていて一番 orz だったのは、
・登録希望さんからの登録依頼にあった「同語反復」
・anthy の base.t にあった「爪切り」
でした。
こんな語すらまだ入ってないようなダメ辞書です。はい。
続きを読む
・登録希望さんからの登録依頼にあった「同語反復」
・anthy の base.t にあった「爪切り」
でした。
こんな語すらまだ入ってないようなダメ辞書です。はい。
続きを読む
2007年02月01日
cannadic改: 出した
[変更点]
・普通名詞、外国人名強化
・今回は登録希望さんからたくさん新語を頂きました。感謝です。
・ML でのやり取りに触発されて、単漢字の記号部分を強化
・ついでに、「記号と読みの対象表」を作成
jis 第3第4水準単漢字辞書は明後日以降に別で出します。
今日はもう力尽きた…
晩飯食おう…
・普通名詞、外国人名強化
・今回は登録希望さんからたくさん新語を頂きました。感謝です。
・ML でのやり取りに触発されて、単漢字の記号部分を強化
・ついでに、「記号と読みの対象表」を作成
jis 第3第4水準単漢字辞書は明後日以降に別で出します。
今日はもう力尽きた…
晩飯食おう…
2006年12月31日
cannadic改:出しました
22万エントリ突破。
どぞ。
[変更点]
・UTUMI さんの私家版 gcanna.ctd(anthy_gcanna_ut-20061121.tar.bz2) から取り込み(Thanks UTUMI さん)
・「ICOT 形態素辞書」から名詞のエントリ取り込みの続き
・新語追加(Thanks 登録希望さん)
ちと疲れたので詳しくは後で書こうと思いますが(ほんとか?)、今回のはアップデートした方がいいです。
そこそこパワーアップしたり誤登録を直したりしたので(変換精度のことではないのでそこは期待しないように)。
それではよいお年を。
どぞ。
[変更点]
・UTUMI さんの私家版 gcanna.ctd(anthy_gcanna_ut-20061121.tar.bz2) から取り込み(Thanks UTUMI さん)
・「ICOT 形態素辞書」から名詞のエントリ取り込みの続き
・新語追加(Thanks 登録希望さん)
ちと疲れたので詳しくは後で書こうと思いますが(ほんとか?)、今回のはアップデートした方がいいです。
そこそこパワーアップしたり誤登録を直したりしたので(変換精度のことではないのでそこは期待しないように)。
それではよいお年を。