2011年02月09日

cannadic改 2010208 リリース

随分間があいてしまいましたが、更新しました。
必要な方は、左上のリンクからどうぞ。

なお、こちらは原作 Anthy 及び Canna 用です。

品詞コードを若干変えたりしてた alt-depgraph の続きは、sf.jp に PersonalForge というのができたそうなので、そっちでやります。
と言っても、もはや完全にモチベーションが枯渇したので、更新は年に数回とかそんな感じになると思いますが。

あと、郵便番号辞書の配布の仕方を変えました
が、ちょっと問題がぅぅぅ…。

「ken_all.zip* を取ってきて、白井さんの zipcode-make.el で zipcode.t を作成、alt-cannadic.sourceforge.jp に置くスクリプトを書いて、sf.jp のシェルサーバで毎月1日に cron で回す」という感じで完全自動化したかったんですが、シェルサーバの emacs が古いせいなのかなんなのか、手元でやった場合と出力が異なる…。


* (lzh だけじゃなく、zip でも配布するようになったらしい)

なので、当面、zipcode.t の作成は手元で行って手動で upload するため、更新が遅れることがあります。
一応、1日の朝までに上げるよう努力はしますが。

posted by vagus at 00:57| 東京 ☁| Comment(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

2010年06月25日

厄介な「な」

毎度お馴染み G-HAL 氏の所より。
alt-depgraph-100603
「文節のみな」(ぶんせつのみな) が1文節にできない。
「文節な」(ぶんせつな) は1文節に出来る。

この「…な…」は、多分ここ 20年くらいでよく使われるようになったんじゃないかという気がするんですが、形容動詞の活用語尾の流用なのかなぁ…。あるいは、助動詞「だ」か。
ここまでくると、殆ど "引用" に近い使われ方だなぁ…。

これが厄介だと思うのは、「語A + な + 語B」とあったときに、この「な」が、前の語(語A)ではなく、むしろ後ろの語(語B)に規定されてるケースがあると思われるからなんですよねぇ。

 …な気がする
 …な訳ないだろ
 …な筈なのに
 …なせいだった
 …なままで

みたいな。
後ろの語に規定されるケースは、anthy の depgraph では想定されてない。

ともあれ、「のみ」や「だけ」も、「文節」(T35) と同じように、弱い接続で接続できるようにしてもいいんですが、誤変換が怖い…。

# 実は今日、「おおきなもんだいというわけでは」が
# 「|お起きなもんだいと|言うわけでは|」になって驚いた。
# 「お起き」は T35。
# この「な」が何の「な」なのかは未確認ですが、多分、
# 「@_名詞35のあと "" Hj.@形動ダナ連体形」
# まぁ、例文登録すれば直るとは思いますが…

悩む…

続きを読む
posted by vagus at 00:49| 東京 ☀| Comment(3) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2010年06月24日

目が点になった

〈代表リポート〉「勝つために、2年半やってきた」 - asahi.com

W杯予選突破のかかったデンマーク戦を控えた岡田監督への(?)質問。
――もしデンマークに負けたら、そのときの心境は。

最近ニュース見てなかったからかもしれないけど、久々に見たな。
超絶破壊的バカ質問。

質問したの誰ですか? 日本人? デンマークの記者?
「マスコミ バカ質問コンテスト」みたいなのがあったら、エントリさせたい…。
posted by vagus at 22:04| 東京 ☀| Comment(0) | チラシの裏 | このブログの読者になる | 更新情報をチェックする

2010年06月21日

alt-depgraph: ToDo

・「…しおる」を出せるようにする(「…しよる」は保留)
・「…してんだ{よ,から,けど,etc}」を出せるようにする
・「…に|立って」と区切るようにする(|舞台に|立って| etc)
・「ご覧」「御免」「お止め」「お帰り」のような動詞丁寧語表現を別品詞にする(OKX 復活?)

動詞丁寧語は元々は OKX だったけど、「する接続」の有無をコントロールしたくて名詞の品詞コードにした。
でも、それだと上記のような「する接続無し」のものの「…なさい」が誤変換を起こす。

条件
・語幹が名詞か否か
・「する接続」の有無
・「する接続無し」のものも「…なさる」が付く
 「…下さい」は大抵誤変換しないし、漢字表記を使いたいので一文節にはしない

こんな感じか?

compound.t のマージ作業が終わったらやる
posted by vagus at 20:31| 東京 ☀| Comment(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2010年06月17日

これはコロンブスの卵かも

Mozc Issue 11: Suggestion: hybrid conversion engine

要するに、「Mozc は最小コスト法を採用してて、長い文章の変換は得意だけど、短い文節は苦手。短い文節の変換は N文節最長一致が得意。なら、読みが短い場合には N文節最長一致を使う hybrid engine にしたら?」ということだと思いますが、これは面白いかもなぁ(Mozc では却下みたいですが)。

posted by vagus at 00:58| 東京 ☁| Comment(0) | 日本語入力 - 一般 | このブログの読者になる | 更新情報をチェックする

広告


この広告は60日以上更新がないブログに表示がされております。

以下のいずれかの方法で非表示にすることが可能です。

・記事の投稿、編集をおこなう
・マイブログの【設定】 > 【広告設定】 より、「60日間更新が無い場合」 の 「広告を表示しない」にチェックを入れて保存する。