2012年03月10日

更新 【追記】3/13,3/25

超久々ですが「作業部屋-angie」の方を更新中です。

【追記】3/13
もうちょい続きます。

【追記】3/25
ダメだ、やっぱりこれで一区切りにします orz
ムダに待たせてしまって済みません。
(言い訳: 以前やりかけたまま放ってあったのがあったので(地名とかカタカナ語とか)、それを突っ込もうと思ったんですが、今の時間とモチベーションを上回る面倒臭さだったので挫けました)

続きを読む
posted by vagus at 20:56| 東京 ☁| Comment(2) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする

2009年11月24日

表記の揺れにもほどがある

ボジョレ
ボジョレー
ボージョレ
ボージョレー

ヌーボ
ヌーボー
ヌーヴォ
ヌーヴォー

"Beaujolais nouveau" 一語に対して 4*4=16 通りも表記がある日本語って一体何なんだろうか…。

posted by vagus at 02:38| 東京 ☁| Comment(2) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする

いくつか応答

「|付け|忘れ|が|」
ご指摘有難うございました。
cannadic改 091122 に「わすれ #D2T35 忘れ」を入れたので、「|付け忘れが|」と一文節で出るようになったと思います。

動詞連用形名詞化に手が回ってないせいもそうなんですが、この辺は他にもちょっと問題がありまして…。

「〜し忘れる」「〜し始める」「〜し終わる」「〜し続ける」「〜し切る」「〜し掛ける」「〜し合う」「〜し直す」「〜しまくる」等の「他の動詞連用形に付いて複合動詞を作る物」は、非常に多くの動詞につくため、すべてを登録するのは大変で、また、もしやったら辞書が一気に肥大化するので、どうしたもんかなぁ、で止まっています。

# 「付け忘れる」が一語で動詞で登録されていないと、「付け忘れ」が連用形名詞化の
# リストに上がってこない

D2S5 とか D2KS みたいな品詞コードを作ってみようかなぁとも思ったりしますが、wtype.h, ptab.h, wtab.h に登録しただけじゃ無理そう(anthy 本体の処理の部分もいじらないとダメそう)な気がしますし、やると、またありえない候補を作りまくるかもなぁ…、と。

depgraph に入れると漢字表記が使えなくなるのでやりたくないし。

細かいことを言えば、「〜し直し始める」「〜し忘れかける」みたいに、上記の語が連続する場合もあったり。
でも、まあ、この場合は一文節にしなくてもいいと思いますが。

「動詞連用形+動詞」という並びから言えば、連用修飾の次に用言が来てるわけで、適切な並び順なので、無理に一語/一文節にしなくても、「|遊び|続ける|」のように区切るようにしておいて、「付け忘れ」のような連用形名詞化の場合は、D2T?? でカバー(もしくは、名詞として一語で登録)する、という現状のままでもいいと言えばいいんですが、でも、実際は区切りミスが多いので、そうなると一語/一文節にしたくなるという…。

# あれ? 何か同じことをどこかで書いたような記憶が…
# 書いたけど消しちゃったんだったかな?? まぁいいや。

・「|旧|仕様|」
接頭辞、接尾辞の話は、自分も、全く下書き部分に書かれてる通りだと思っています。

「出すべきものは出せるように、でも、ありえないものは出さないように」しようとすると、

 a. あり得るものだけ一つ一つ辞書に登録する(一般辞書/複合語辞書(/用例辞書))
 b. 品詞コードを細分化して、接続を細かく指定できるようにする
 c. コーパスとかで単語レベルの接続情報を持たせる

のどれかになるのではないかと思いますが、現状は、「誤変換が比較的目立たないか、あるいは、無効にするデメリットの方が大きいもの」は残しつつ、残りを一番原始的だが一番確実な a で凌いでる状況、でしょうか。

b は、一年前くらいに考えたことがありますが、「多分ムリだ」という結論に達しました。詳細は忘れましたが…。

c は正直、よく分かりません。
「|旧|市街|」「|急|発進|」「|問題|外|」とかは行けるかもしれませんが、数詞絡みの表現はどうなんだろう…?


ともあれ、何か上手い手があればいいのですが…。
posted by vagus at 02:25| 東京 ☁| Comment(0) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする

2009年11月04日

調べた

> ふくそうじゅうし #JN*10 副操縦士 #T35*10 副操縦士
> ふくそうじゅうしだけなぜか #JN

「社長さん」とか「本屋さん」のように、人名以外にも人名接尾語が付くものがあるので、肩書きや役職名、職種名は JN でも登録してあります。
本当は嫌なんですが、仕方ないので…。また、抜けてるものも多いです。「床屋さん」が出せないことに今気づいたし…。

> しんふぉにえった #JN*10 シンフォニエッタ
> 楽曲の一般名詞らしい?

本来は「小さな交響曲」を意味するイタリア語らしいですが、「紀尾井シンフォニエッタ」(実在するオーケストラらしい)のように楽団名としても使われるので、そのせいで JN にされたんだと思われます。
一般名詞でも登録しておきました。

> しんきょく #KK*150 神曲
> 叙事詩の名前。「その他固有名詞」が #KK になってしまうのか?

KK は実質的に「人名・地名以外の固有名詞」として使ってます。作品名、製品名など。

> きおい #JN*10 紀尾井
> 御三家の総称の意味合いもないではないが、大抵は地名らしい

cannadic 時代からあるものなので詳細は不明ですが、もしかして上の「紀尾井シンフォニエッタ」を分解したのか? でも、どっちも JNS(人名・姓)だな…。よく分かりません。
一応、人名で「紀尾井」さんという人もいるらしいので、人名も残して、「紀尾井坂」「紀尾井町」と併せて、地名でも登録しておきました。

ご指摘感謝です。
posted by vagus at 00:55| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする

2009年09月28日

覚書: anthy の複合語関連

[品詞コード絡み]

「気(き)」や「身(み)」のような読みの短い語は誤変換を起こしやすいので、「みをゆだね #KS 身を委ね」のように、一語で登録してあったりする。

しかし、これだと「この身を委ねて」等の場合に「連体詞(この)+動詞(身を委ねる)」という並びになってうまくない。
※「この」は指示詞の品詞コードがないので連体詞で代用してる。

複合語形式で「みをゆだね #KS #_2身を_3委ね」と分割し、KS は最後尾「委ね」の部分の品詞コードとされれば、連体詞の直後に動詞が来ることにはならなくなる。
(「身を」の部分の品詞が何になるのかは分からない。NONE ?)

「めにつ #K5 目につ」では、「やたら|目につく」は分割しない方が「副詞+動詞」でいいかもしれないが、「#_2目に_1つ」に分割しても、前の文節の品詞が「NONE」とかなら大きな問題にはならないと思われる。


ただ、「きに #SX 気に」はどうしようもない。「その気にさせる」は「連体詞+動詞」になってしまうが、分割しようがない。

【追記】10/3
どうも自分の憶測は大ハズレだったらしい…。
下の G-HAL 氏のコメント及びサイトを参照。

続きを読む
posted by vagus at 01:20| 東京 ☁| Comment(10) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする

2009年09月15日

応答色々 - 【追記】9/28

随分遅くなってしまいましたが色々お返事。

まずは G-HAL 氏のところから。ご指摘感謝です。
Sun,23 Aug,2009
「|右|書き|と|」(|みぎ|かき|と|)
「|左|書き|を|」(|ひだり|かき|を|)
「書き」の名詞化?をすると助詞が付属しない。
とはいえ、仕様と言えば仕様だし、対応を考え始めるときりが無いと思う。

「右書き」「左書き」登録しました(辞書によると「みぎがき」「ひだりがき」と濁るらしい)。

動詞連用形名詞化の不足を補うのはずっと ToDo に入れっ放しのままで手が回ってません。申し訳ないです。
続きを読む
posted by vagus at 00:34| 東京 ☁| Comment(11) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする

2009年06月16日

「昔っから」「厚」 - 【追記】6/17

遅くなりましたが、ご指摘感謝です > G-HAL 氏

「昔っから」は「昔から」の音便化だと思いますが、付属語に「っから」を作るとありえない候補を作りまくると思うので、「昔っから」等よく使われるものだけを一語で辞書に登録することにします。
明日っから
今っから
こないだっから
最初っから
根っから
始(初)めっから
端(はな)っから
昼間っから
昔っから
このくらいあれば実用上不自由はしないんではないかと思いますが、他にもあったら教えて頂けるとありがたいです。

「〜厚」は機能的には「助数詞に付く接尾語」ということになると思いますが、JSSUC はありえない候補を作りまくるので(だから多分 Anthy でも無効化されてるんだと思いますが)、「センチ厚」「ミリ厚」を一語で助数詞(JS)として登録しておきます。

あと、「問屋(どんや)」は登録させて頂きました(もう一つ何でしたっけ…見たら消えてた orz 登録自体は以前した筈なので大丈夫なんですが)。


以下、余談。

「少雨」という用語もあることを最近知った。

 小雨(しょうう、こさめ) - 降り方の弱い雨
 少雨(しょうう) - (一定期間中の)降雨量が少ないこと

という感じらしい。
大辞泉には載ってないから、気象学用語か?

【追記】6/17
> g-jiritu-34.t:「びていこつ」に「t」がついていない
修正しました。ご指摘ありがとうございます m(_ _)m
posted by vagus at 01:04| 東京 🌁| Comment(4) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする

2009年06月14日

cannadic改で使用している品詞コードの一覧

一応作った
後で、もう少し書き足しますが。


尚、salvan さんのところで見て初めて知りましたが、霞の
形容詞 - しく活用 KYT
というのは誤りです。

前にもちょっと書いた気がしますが、形容詞は「ク活用」「シク活用」ともに "KY" です。
"KYT" は Canna のソース(main.code)を見ると、
* KYT 名ナノ・形 四角い,黄色い
(中略)
KYT _ _ /* 四角い,黄色い*/
となっており、「語幹が名詞でもある形容詞」の品詞コードですが、Anthy では使うようにはなっていませんし、cannadic改でも使っておりません。
「四角い」「黄色い」「丸い」は "KY" で、「四角」「黄色」「丸」は名詞で別個に登録してあります。



posted by vagus at 00:42| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする

2009年05月30日

「守備的」

某所より、
「しゅびたい」に「守備的」が登録されてる。

げ orz

すんません、直しておきました。
ご指摘感謝です。

posted by vagus at 00:47| 東京 ☔| Comment(2) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする

2009年04月15日

D2T35 を有効にする方法

一昨日昨日からの続き。

なんともう反応が。さすが、仕事が速い…。
#D2T35 に関して。
[Anthy-dev 3457] 2007年 4月 20日 (金) anthy-8819 では使える状態だったが、
[Anthy-dev 3465] 2007年 5月 7日 (月) anthy-8906 にて使えない状態になっていた。
anthy-8906/DIARY に
> --(2007/04/25)(yusuke)
> 「運転席|側」のように接尾辞は別文節にする
とあるので、故意に切ったと思われます。
src-worddic/wtab.h の #D2T35 の行を
> {"#D2T35",POS_NOUN,COS_SUFFIX,SCOS_T40,CC_NONE,CT_NONE,WF_INDEP /* "名詞化接尾語(っぱなし)"*/},
に書き換えて、depgraph/verb_base.depdef に
> @カ行5段連用形5 "き" Cy@
を追加した所、「書き様」(かきよう)が1文節で生成できた。
「書」(か)#K5、「き」付属語、「様」(よう)#D2T35。
# 付属語グラフで「HvCy@」とかすれば、元の品詞が何であっても #D2T35 が付けられる様な気が。
この辺りの複合語は、きりが無いので、バッサリ切り捨ててしまうのも手かと思います。
「書き|方|する」とすれば変換できますし。

おおう、そうでしたか。
確かに「|書き様|」「|書き方|」で変換できました。
さらに「|書かれ方|」もできました。つまり、助動詞が挟まっても D2T35 は効きました。

本当は depgraph/conjugate_table_indep.depdef で
> @_カ行5段語幹後 "" Cy@カ行5段連用形5
という風にしたいんですが、これじゃ効かないらしい。「Cy@ノード名」となってるとダメで、「Cy@」という風に「@」で終わってないとダメらしい。どうしてかは何となく想像がつく気はする。

D2T16 は元々使われてなかったのか。
N2T35 で使われてた T41 は anthy/wtype.h からも消されてますね。使う場合はこっちも T40 で構わないだろうし、問題ないか。【追記】4/22 N2T では使えなかった。
T40 は後ろの付属語は T35 と同じっぽい(ちゃんと確かめたわけじゃないけど)。【追記】5/4 自分が depgraph でそうしていただけだった。

なるほど。やり方は分かったぞ。ありがとうございます。
後は、実際に使うかどうかをもう少し考えます。
「書き|方|する」という風に区切るのは、

 ・「連用形+名詞」という並びになるのが嬉しくない
 ・「着|方」「見|方」のように、動詞の語幹部分の読みが 1文字しかないもののことを考えると辛い

というのがありますので。
まあ、「これで万事OK」という解はありえないですけれども。

「[こそあど]の程度」「ある程度」は、いっそ全部消すのも、一つの手かと思います。
変換する時に「|××程度|」になったり「|××|程度」になったりで迷わなくて済みますので。

そうですね。
ただ気になるのは、「消しちゃって、Canna は大丈夫なのか?」ということなんですが…。
一応「確認は Anthy で行い、Canna では行っていません」と言ってあるので、いいと言えばいいんですが、「|××程度|」になったり「|××|程度」になったりで迷うという程度のことなら、Canna ユーザのために残しておいてあげた方がいいかなと。
posted by vagus at 00:11| 東京 ☁| Comment(2) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする

2009年04月13日

「未完成らしい」他 【追記】4/13

4月も早 10日あまりが過ぎましたが、G-HAL 氏の日記が「その2」に移っていることに昨日やっと気づきました orz
そして、またありがたい情報が。いつもありがとうございます。

「未完成らしい」が一文節で出ないのは depgraph の問題でしたので、登録しておきました。

それ以外は辞書の方の問題ですが、こちらはちょっと面倒なので明日書きます(『レッド・クリフT』見てたら遅くなってしまった)。


# ところで、先月くらいから「病気か?」と心配になるくらい頭が動かんのですが、何とかならんのか > オレの脳味噌さん

【追記】4/13
続きを読む
posted by vagus at 00:08| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする

2009年03月21日

色々 - 【追記】4/4

「お」で「夫」が出ない

お、確かに。
理由は、「お」の読みは、本式の(?)音訓にある読みではなく、名付けというのか名乗りというのか正確な用語はわかりませんが、人名で使われる特殊な(?)読みだからですね。それ系の読みはカバーできてないので、多分他にもたくさんあると思います。

「夫」の「お」は登録させて頂きました。いつもいつもご指摘感謝です。

●補助動詞、補助形容詞、形式名詞を depgraph で出すべきか否か
続きを読む
posted by vagus at 00:17| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする

2009年03月10日

「専用にする」

あー、確かに「せんようにする」で変換すると「|せんようにする|」と一文節になって「|専用にする|」が候補の中にないですね。

意図としては「専用にする」は「|専用に|する|」と「に」の後で区切って出て欲しかったんですが、「一文節になって候補にない」だと「出せない」と思われちゃいますよねぇ…やはり。
一応手元では「|専用にする|」と一文節で出るようにしてみました。

「〜にする」とか「〜てある」のように助詞を挟んで補助動詞が続くようなパターンを「|〜に|する|」「|〜て|ある|」のように区切って出すか、それとも一文節で出すかは非常に微妙で判断が難しいんで、また戻すかも分かりませんが…。

T35 のものが一文節で出るのは、noun_base.depdef に
@_名詞35のあと "" Hj.@_形動ダナ型
というのを入れてあるからです。T35 は「な」接続なしなので本当はいらない(あっちゃおかしい)んですが、色々あって弱い接続で一応出せるようにしてます。


ついでに、「恐ろし」が出せないのは、これは Canna の品詞コードの仕様でしょうね(と言っていいと思う)。

Canna の品詞コードでは形容詞は「ク活用」も「シク活用」も区別せずに「KY」

あか #KY 赤
おそろし #KY 恐ろし

で、シク活用は「し」までを語幹にしてしまっているので、「恐ろし」を出そうとすると「語幹のみで文節になる」としなければならない。でも、それでは「ク活用」は「し」が付かないので「赤し」とか「寒し」が出せない上に「寒(さむ)」とか「暑(あつ)」が文節になることになってしまうのでマズい。逆に「赤し」「寒し」を出すために「語幹+活用語尾「し」」で出すようにすると、シク活用は「恐ろしし」で出すことになってしまう(でも、仕方ないので現状こうなってます)。

「ク活用」と「シク活用」で品詞コードを分けないと正しく対処できないですね。

【追記】
「縮退させる」が一文節で出ないのは品詞コードが間違ってるからです orz
 × T35
 ○ T30

むう、こんなミスがまだ結構あるんだろうか…?
posted by vagus at 20:54| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする

2008年11月10日

今やってる作業

・自立語のランク付け直し
・depgraph 作り直し

どっちを取っても吐き気を催す作業ですが、それをなぜ並行してやってるかは本人にも分からん。
G-HAL 氏に刺激されたというのはありますが。

続きを読む
posted by vagus at 12:03| 東京 🌁| Comment(0) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする

2008年10月25日

今日の誤登録

登録は「松牛」の「まつざかぎゅう」。
正式なのは「松牛」で「まつさかうし」らしい

三重に間違っとる…。


でも、「まつさかうし」って言われると違和感があるなぁ。
「ウシ」って言われると牧場とかで草食ってるあの牛を思い浮かべてしまうので、食用の肉になってるのは「ギュウ」って言ってほしいんだけど……と思ったところで、生産者は肉ではなく、生きた牛を扱ってるわけだから、「ウシ」で自然なのかと思い至った。

でも、生きてる姿を見ずに肉だけを見る消費者としてはやはり違和感がある。

ちなみに、「まつさか」を「まつざか」と読み、その上「阪」を「坂」と書いたりすると、地元の人は相当怒るらしい。ごめんなさい…。
posted by vagus at 02:18| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする

2008年10月22日

wiki に説明書きました - 追記

使い方_Anthy
使い方_Anthy-UTF-8

どっちも「誰でも編集可」にしておきましたので、お気づきの点があれば適宜編集してやって下さい。

続きを読む
posted by vagus at 23:43| 東京 🌁| Comment(0) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする

2007年11月13日

動詞ランク見直し

終了。

ついでにいくつか typo 等の誤登録を見つけたので修正。

…しかし、動詞でこれじゃ、名詞なんて 10回は死ねるな…。

とりあえず二三日休む。Mac も触りたいし。

登録依頼放置しててすみません。もうちょっとお待ち下さい。

posted by vagus at 23:04| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする

2007年10月17日

「暗黙裏」

wiki の方で登録依頼を頂いたが不採用扱いにしてしまった「暗黙裏」ですが、すみません、自分が勘違いしてました。
本来は「暗黙裡」が正しくて、「裏」は音が同じだから当て字みたいな感じで慣用的に使われてるだけだ
と勝手に思い込んでたんですが、「裡」は「裏」の異体字だったんですね。知りませんでした。

何でこう思い込んでたかというと、「裡」は「うち」と読んで「うら」とは読まない、だから「裡」と「裏」は別の字のはずだ、と思ってたからですが、その前提がそもそも間違ってました。「裡」にも「うら」という読みがありました。異体字なんで当たり前ですが。

ちなみに、「裏」は普通は「うち」とは読みませんが、「内裏」という語でも分かるように、意味として「うち」という意味も持っているそうです。なるほど。

というわけで、「暗黙裏」は取り込ませていただきました。
失礼しました。

posted by vagus at 00:37| 東京 ☔| Comment(0) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする

2007年09月11日

wiki に「登録・修正依頼」のページ他作成

タイトルの通りですが、気づいたら sf.jp の wiki がちょっとパワーアップしてて、ページ毎に権限を設定できるようになっていたので、「登録・修正依頼」のページを作っておきました。

ぱっと見は Anthy wiki の「単語収集」のページみたいなイメージですが、あくまで依頼の受け付けであって、「スクリプトで自動的に個人辞書に取り込む」というのを想定したものではありません。また、cannaic改に取り込む前にこちらで誤りがないかチェックします。

現行の掲示板も並行して利用可能ですが、個人的には wiki の方に集約したいなぁという希望がなきにしもあらず…。

依頼してくださる方としてはどっちがいいんでょうか。
やっぱ wiki の方が面倒ですかね。

続きを読む
posted by vagus at 00:22| 東京 ☁| Comment(0) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする

2007年08月30日

虫取り

nosuke さんが compound.t を探検、色々発見されてるのを読んで、自分もちょっと思うところがあって今日はその辺をゴニョゴニョとやってました。

続きを読む
posted by vagus at 01:03| 東京 🌁| Comment(0) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする

広告


この広告は60日以上更新がないブログに表示がされております。

以下のいずれかの方法で非表示にすることが可能です。

・記事の投稿、編集をおこなう
・マイブログの【設定】 > 【広告設定】 より、「60日間更新が無い場合」 の 「広告を表示しない」にチェックを入れて保存する。