2010年03月30日

「時に」が一語で登録されてる件

「時に」が一語で登録されてる件について。

これは、誤変換対策と言うより、「そもそも国語辞典で一語で「副詞」や「接続詞」として載ってるから」というのが答えになります。
「時に、○○さん、あの件はどうなりましたか?」とかの奴ですね。

「学習した時に」の「時に」がこれになるのは文法的にはおかしいですが、かな漢字変換でそれを見分ける/使い分けるのは無理だと思うので、諦めるしかないと思います。


posted by vagus at 01:25| 東京 ☁| Comment(0) | TrackBack(0) | cannadic改 - その他 | このブログの読者になる | 更新情報をチェックする

2010年03月23日

anthy で、「きょう?」で日付に変換する 【更新】3/31,4/27

-----
【更新】3/28
G-HAL 氏に反応を頂いたので(いつもお世話になります…)、実行時に学習履歴から古い日付エントリを削除するよう対応してみました。
自己責任でどうぞ。

datedic.t を更新した後、text の last-record* から日付エントリ(「きょう?」とか「ことし?」とか)の行を削除、その後、バイナリの last-record*.bin を削除します。
euc の場合も考慮したつもりですが、utf-8(last-record*.utf8)と euc の履歴ファイルが混在しているケースは考慮してません(普通、ないですよね?)

まぁ、作者が作者なので、一応、実行する前に ~/.anthy/ をバックアップしておくことをお勧めします。
一応、1世代だけバックアップ取るようにしてはありますが。

※以下の本文も若干変更しました。
P.S. 「言問橋」は「言問団子」等とともに登録させて頂きました。ありがとうございます。repo 公開準備ができるまでもうちょっとお待ちを。ここ 2ヶ月ほど格闘してるんですが、なかなかまとまらん…。でも多分もうすぐ

【更新】3/29
つまらないミスをしてコケてたので修正しました。

【更新】3/31
クォートをミスっていて、ケツの文字のない「きょう」や「きのう」等も履歴ファイルから削除されてしまっていたのを修正しました。確認したはずだったんですが…。すみません…。
ついでに、履歴ファイルが EUC、かつ、ruby1.9 を使った場合にエンコーディングがおかしくなるのも修正。

【更新】4/27
マジックコメントは "encoding" という文字列をキーにしてるんだから、"fenc" ではダメなんだよね、という訳で修正。
影響があるのは ruby1.9 系のみです。
-----

個人的には特に欲しい機能でもないんですが、「一応出来なくはない」のに「出来ない」と思われてるようなので、ruby の勉強がてら作ってみました。

datedic.rb.bz2 【更新】4/27

落として展開して実行権限付けて実行すると、

~/.anthy/imported_words_default.d/datedic.t

という辞書が作成されます(~/.anthy/imported_words_default.d/ がない場合は作成します)。

そのまま、「きょう?」と、読みのケツに "?" を付けて変換すると、「2010/3/23」や「平成22年3月23日」に変換できます。
「きょう?」で変換したところ
(画像は、「-f」オプションで全角数字の候補は出さないようにしたもの)

後は、「$ crontab -e」して自分の crontab に
@daily /path/to/datedic.rb
@reboot /path/to/datedic.rb
とか書いておけば宜しいかと。
(「/path/to/datedic.rb」は「datedic.rb の絶対パス」です。例えば「/home/vagus/bin/datedic.rb」とか。)
(「@daily」は「毎日0時0分に実行」。これだけだと、0時0分にマシンが起動していなかった場合には辞書が更新されないので、「@reboot」で起動時にも実行するようにする。
※ただ、その時間にスリープ中だった場合にはどうしようもないので、その場合は手動で実行する必要があります。)

続きを読む
posted by vagus at 01:16| 東京 ☀| Comment(10) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2010年01月10日

depgraph改: 100109 【追記】1/10, 1/11, 1/20, 1/22, 1/26

細かい所を気にし出したらキリがないので、出しました。
左のリンクからどうぞ。

暫定版からの変更点は、

・gcanna.ctd → gcanna.t にファイル名変更
・make update_params0 時に calctrans/devide.shdivide.sh で corpus.{1,3,5,x}.txt から corpus.{y,z}.txt を自動生成するようにした
・あと、辞書や depgraph の細かい修正

です。

一応、パッケージも置いときます。(1/11 1/21 1時頃 更新)
anthy-9100h.orig.newdep.final.tar.gz
・anthy-9100h.patch13B-09Y15.newdep.final.tar.bz2
・anthy-9100h.patch13B-09Z21.newdep.final.tar.bz2


リリースものはこれで終了です。
あとは、後片付け。

続きを読む
posted by vagus at 00:33| 東京 ☀| Comment(2) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2009年12月31日

暫定版: depgraph改 【追記】1/2

案の定間に合わないので、手元のものをそのまま丸ごとパッケージ化して、暫定版として置いておきます。

A. anthy-9100h.orig.newdep.tar.gz
B. anthy-9100h.09Y15.newdep.tar.bz2
C. anthy-9100h.09Z21.newdep.tar.bz2

※どれも展開後のディレクトリ名は "anthy-9100h/" になるので注意!!
 make dist でパッケージングしたため。.gz と .bz2 があるのもそのため。
※ほとんどテストできてないので、もしかしたらうまく動かないかもしれません。

それぞれベースは、

A. anthy-9100h.tar.gz のみ
B. anthy-9100h.tar.gz +
  anthy-9100h.patch13Bptn23.iconv.2009Y15.bz2 + anthy-9100h.mkworddic_fix.tar.bz2
C. anthy-9100h.patch13B-23-iconv-ucdict-combinedphrases.2009Z21.alt-depgraph-090712.alt-cannadic-091122.tar.lzma

です。

C は試験版なので、通常は B もしくは A をお使い下さい。

続きを読む
posted by vagus at 23:32| 東京 ☁| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

いつもながら

G-HAL 氏のところを改めて読み直してましたが、いつもながら、凄いと言うか、感服すると言うか…。
あのややこしい部分を実装してテストするだけでも大変だろうと思うのに、それを言葉でも説明するなんて…。

とにもかくにも、実験本当にお疲れ様でした & ありがとうございました。
また、しばらく留守にしていてすみませんでした。

明日 alt-depgraph 出したら反応できるところに反応していきたいと思ってます。

# しかし、議論についていくのが大変だ orz

posted by vagus at 01:26| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

広告


この広告は60日以上更新がないブログに表示がされております。

以下のいずれかの方法で非表示にすることが可能です。

・記事の投稿、編集をおこなう
・マイブログの【設定】 > 【広告設定】 より、「60日間更新が無い場合」 の 「広告を表示しない」にチェックを入れて保存する。