内容自体は自分にはよく分からんのでさておき、「崩解」という字が気になった。
今見たら「typo」と指摘されてるけど、「物理とか化学とかそっち系の専門用語かな?」と思ってググってみた。
ざっと見た感じ、あながち間違いとも言い切れないような…。
野間宏の作品に「崩解感覚」というのがあるらしいし、専門用語的な使われ方をしてるように見えるものもある。昭和初期とか昔の文章で使われてるようでもある。
確かに普通の国語辞典には載ってないし、一般的な文脈で「壊れること」を意味する場合には現在では圧倒的に「崩壊」が使われるのは間違いないと思うけど、さて、どうしよう?入れるべきか入れざるべきか…。
あんま専門性の高い用語や昔の表記を何でもかんでも共有辞書に入れるのは問題があるけど、かといって専門辞書があるわけでもなく、しかも実際問題今でも非常に専門性の高い用語がいっぱい入ってるわけだし…。
まぁ、気づいちゃったんだから入れとけ。
…という非常にアバウトな状態です、今のところは。
いずれはあまりに専門性の高い用語(=共有辞書にあるべきではないと思われる語)は分離したい、とは思ってるんですがね、いつになるかは…。
【関連する記事】
ちょっとやそっとじゃ速度低下は起きないはずですし。
むしろ専門用語や珍しい名前や方言やタイトルや口語や呪文やキャラの名前などをもっと共通辞書に入れて欲しいです。
> 優先順位を低くしておけば何でもかんでも共有辞書に入れても問題ないと思いますが。
> ちょっとやそっとじゃ速度低下は起きないはずですし。
速度低下以前の問題として、辞書が大きくなりすぎると、ザウルスや古いPCで「そもそも辞書がコンパイルできなくなる」という問題があるそうです。anthy 自体が低スペックのマシンでも快適に動作するよう作られているのに、あまり辞書が足を引っ張るわけにも行きません(仕方のない部分もありますが)。
また、「おもうが」が未だに「小間生が」になるように、頻度を下げれば問題ないというわけでもないので、やはり「何でもかんでも」というわけには行かないと思っています。
(「それは辞書のせいではなく、anthy が悪い」と言われればそうかもしれませんが、今や anthy の開発は止まってしまったようなので…)
> むしろ専門用語や珍しい名前や方言やタイトルや口語や呪文やキャラの名前などをもっと共通辞書に入れて欲しいです。
おそらく Anthy wiki の「単語収集/未分類語」を念頭に置かれていると思いますので、そのつもりで書きます(違ったらごめんなさい)。
前回「単語収集/未分類語」からあまり積極的に取り込まなかったのは、
・「単語収集/未分類語」は基本的に「個人辞書」だと考えている
(個人辞書を共有する試み?)
・「単語収集/未分類語」から個人辞書に取り込む方法が用意されている
(cannadic改に取り込まなくても変換することができる)
からです。
「単語収集/未分類語」は今は色んなジャンルの語が混交していますが、これらを cannadic改に取り込むよりは、せっかくある程度のまとまりがあるのですから、ここから色んな専門辞書(2ch/ニコ動辞書やマンガ/アニメ辞書等)を作っていく方がいいのではないでしょうか?
そして今 cannadic改に入っている語も、それらの専門辞書に入れるべきものはそちらに移行していく、という風にできたらなぁと思っています。
(今未踏で頑張っていらっしゃる nokuno さんの SocialIME もこの辺とうまく絡んでくるといいなぁとも思っています)。
あと、「単語収集/未分類語」は上記のような性格のものだと思っておりますので、もし「これは共有辞書に入れるべきだ」と思われる語がありましたら、「単語収集/未分類語」ではなく、cannadic改の掲示板(左側の「お気に入りリンク」にリンクがあります…って既にご存知ですね)の方へご連絡いただければと思います。
cross compileで十分な気がします。もしくは辞書だけpre compileしとけばいいのでは?
>頻度を下げれば問題ないというわけでもないので
anthy側の学習で何とかなってると思います。
>専門辞書(2ch/ニコ動辞書やマンガ/アニメ辞書等)を作っていく方が
専門辞書については保守の面*では*賛成です。
ただファイル自体を分けるとしても、専門辞書を共通辞書扱いして欲しいです。理由は↓*2
#それと頻度の付け方などのノウハウの公開をお願いしたいです。
>「個人辞書」だと考えている
辞書ツールとの連携が無いので現状ではそこまで個人辞書という感じではないと思います。
>共有辞書に入れるべきだ
私は↑に書いたように捉えてるので、2ch、nico、neta以外は基本的にそう思う物しか「単語収集/未分類語」に追加してません。一部2ch用語は既にネット用語になっていってますし(例:「常考」や「電突」など)、ゲームタイトルや半導体用語、科学的な用語などもニュースやそのニュース系・実況系の板、及びその派生サイトなどでよく使われてますし、古代の神の名前などがアニメや小説、ゲーム、ソフトウェアの名前などでしばしば使われるので、チャットや実況やニコ動やMMOなどを使う際には様々な分野の専門用語が即座に変換できないと困ります。
共有辞書=すべてのユーザが使う(使わざるを得ない)辞書
=従って、最大公約数的なエントリを集めたもの
だと思うんですが、どうでしょう。
そこにユーザが各自で必要な専門辞書を追加していく、というのが自分にとって理想のあり方なのですが(悲しいことに現実はそうはなっていませんが)。
>>「個人辞書」だと考えている
> 辞書ツールとの連携が無いので現状ではそこまで個人辞書という感じではないと思います。
「個人辞書」という表現がよくなかったかな。自分が言いたかったのは「ユーザが各自で使う/使わないを選択できる辞書」ということでした。「オプション辞書」と言えばよかったかな。
alt-cannadic-extra みたいな感じです。
~/.anthy/imported_words_default.d/ に置く辞書なら「単語収集/未分類語」とほぼ同様の単純なテキストファイルで済むわけですから、辞書ツールの有無はほとんど問題にならないと思いますよ。
現に私はそうやってメンテしてますし。
> ただファイル自体を分けるとしても、専門辞書を共通辞書扱いして欲しいです。理由は↓*2
ここがどうしても分かりません。
「共通辞書扱いして欲しい」というのは gcanna.ctd に含めて欲しいということだと思いますが、なぜ折角別個にしてある専門辞書を共有辞書に入れてしまうんでしょうか?
「使う/使わない」をユーザが選択できなくなってしまうと思うんですが。
# canna で使うからというのならまだ分かりますが…
> 2ch、nico、neta以外は基本的にそう思う物しか「単語収集/未分類語」に追加してません。
n さんが追加したのがどれで、他の人が入れたのがどれなのか分かりませんが、china, taiwan, game, comic, anime, novel 等もその他ジャンルのないものも、私には「共有辞書に入れるべき」とは思えないものがたくさんあるんですが(^^;
> チャットや実況やニコ動やMMOなどを使う際には様々な分野の専門用語が即座に変換できないと困ります。
「単語収集/未分類語」に追加して ~/.anthy/imported_words_default.d/ に落とし込んでおけばすぐに使えると思うんですが、どうして共有辞書にないと困るんでしょうか?
せいぜい月に 1回しかリリースされない cannadic改を待つより、ずっと速くて便利だと思いますよ。wiki なら同じ嗜好の他のユーザと協力して作ることだってできるわけですし。
> #それと頻度の付け方などのノウハウの公開をお願いしたいです。
私がやっている頻度の付け方についてはこの辺↓をお読み下さい。
http://lists.sourceforge.jp/mailman/archives/anthy-dev/2007-March/003429.html
http://lists.sourceforge.jp/mailman/archives/anthy-dev/2007-March/003430.html
リンク先のファイルもまだ落とせます。
今はこの時とは頻度の値などが多少変わっていますが、やり方としては基本的に同じです。
ただ、canna にも anthy にも「頻度はこういう風に付けるべし」というようなドキュメントは一切なく(少なくとも自分は知りません)、あくまで自分で試行錯誤した結果です。
しかも全く満足していませんので参考にならないかもしれません。
また、anthy は辞書にある頻度値からさらに独自に頻度を計算するようなので、辞書の頻度にどこまで意味があるかは結構疑問です。
頻度以外のことで知りたいことがあれば、聞いていただければ答えられる範囲でお答えしますので聞いて下さい。
# 辞書のソースファイルなどは近いうちに公開します。
共有辞書=ユーザが使う可能性のあるエントリだと思います。ただし技術的制約によって全部入れることが無理ならば頻度の低い専門用語をextra扱いするしか無いかもしれませんが。
>「使う/使わない」をユーザが選択できなくなってしまうと思うんですが。
果たしてそこまでユーザに選択させる意味はあるのでしょうか。手段と目的を履き違えてませんか? 私には理解できません。
>どうして共有辞書にないと困るんでしょうか?
wikiではダメな理由は
-メンテナが不在である
-現状では簡単に使う仕組みがない(pythonスクリプトを読んで安全性を確認して…という手順を踏まなければいけないので結構敷居は高い)
-ユーザーは能動的ではなく受動的であるべき(自分から導入しなければならない、自動アップデートが無いなど)
だと思うからです。
>私がやっている頻度の付け方についてはこの辺↓をお読み下さい。
>今はこの時とは頻度の値などが多少変わっていますが
ありがとうございます。追加した単語に旧基準で頻度つけてみようと思います。
> 共有辞書=ユーザが使う可能性のあるエントリだと思います。
ああ、やはりここの認識の違いでしたか。
「ユーザが使う可能性のあるエントリ」はすべて共有辞書に入れていこうとすれば確かにおっしゃる通り、何でもかんでも共有辞書に入れていくことになると思います。
しかし、それはたとえば Linux のインストール時に、デフォルトでリポジトリにある"すべての"パッケージがインストールされるようなものではないでしょうか?
「ユーザがどれを使うかは分からないから、firefox も konquerer も opera も Epiphany も Dillo もとにかく全部入れとけ」と言われたら、私なら「頼むから止めて」と言いますが。
>>「使う/使わない」をユーザが選択できなくなってしまうと思うんですが。
> 果たしてそこまでユーザに選択させる意味はあるのでしょうか。手段と目的を履き違えてませんか? 私には理解できません。
たとえば、仕事用に使っている PC で 2ch 用語がバンバン出てくるのはやはりマズいのではないでしょうか?
それに、折角選択可能な状態にあったものを選択できなくしてしまうことの方が私はおかしいように感じます。
専門性特殊性の高い用語辞書を共有辞書と分けて、オプション的な扱いにするのは他の IME でもやってることで、特別おかしな考え方ではないと思ってるんですが…。
>>どうして共有辞書にないと困るんでしょうか?
> wikiではダメな理由は
> -メンテナが不在である
今「単語収集/未分類語」にある語については私の知らない語が大半なので、私としてはむしろ n さんにメンテをお願いしたいんですが…。
もし私がメンテするとなったら相当しんどいです。
> -現状では簡単に使う仕組みがない(pythonスクリプトを読んで安全性を確認して…という手順を踏まなければいけないので結構敷居は高い)
別に田畑さんのあのスクリプトを使わなければ使えないわけではないですから、メンテしてる人がテキストに落として「これを ~/.anthy/imported_words_default.d/ に置いて再ログインしてね」という風にすれば充分簡単だと思いますよ。
> -ユーザーは能動的ではなく受動的であるべき(自分から導入しなければならない、自動アップデートが無いなど)
そもそも Linux 自体が自分で導入しないと…というのは置いておいて、確かに導入や管理はできるだけ簡単であるべきですね。
でも、「今そういう仕組みがないから、じゃ、共有辞書に入れちゃえ」というのなら、それは違う気がします。
なんか反論ばっかになっちゃいましたが、最終的にどういう形で出すかはまた考えるとして、とりあえず「単語収集/未分類語」にあるものは基本的に n さんの方で管理していただけませんか?
「見っける」等共有辞書にあってもいいなと思ったものについてはこちらで取り込んで、「これとこれはこっちに入れました」とお知らせする(wiki の別ページに移動する?)、という風にしたいんですが、いかがでしょう?
専門用語といっても様々ですし、方言や呪文やキャラ名などそれぞれ別個の事柄を同時に挙げられても具体的な返事は難しいかと思います。したがって以下はおおざっぱな話です。
標準辞書は日常的に使う単語を収めることが基本で、特殊な単語は個人辞書で対応していただくのがベターだと思います。
特殊な単語を詰めすぎると、文章の前後のつながり次第で偶然その特殊語に一致してしまい、歪な変換を引き起こすことがあります。
それが差別語だとすると大きな問題になるし、萌えアニメの主人公だと笑いの種になってしまいます。
そして何よりも、特殊語のために日常文の変換に支障が出ると、不快感が高まります。
「頻度を極端に下げて登録すれば良いのではないか」とお考えになるかもしれませんが、完全一致すれば頻度が低くても第一候補になり得ます。
また vagus さんのおっしゃるように、少し前に Anthy の変換アルゴリズムが大きく変わったので、「辞書の頻度にどこまで意味があるかは結構疑問です」。
Anthy は世界中の Linux ディストリビューションで標準の日本語かな漢字変換エンジンとして採用されており、cannadic 改は標準辞書として世界中で使われています。編集に当たってはある程度保守的な態度が必要なのはやむを得ません。そういう意味では特定のジャンルに強い思い入れのあるかたは、編集者には不向きなような気がします。
日本語の変化は早いので、時々辞書全体をざっくりチェックして、古い単語の頻度を変更する必要があります。vagus さんや私が 旧 cannadic をエディタで開いてチェックしていたときは、昔の漫画家の名前や漫画名などの多さに参ったものです。
標準辞書の収録語については、次のような配慮が行われていると思います。
・ある程度広く使われている(ヒット数)
→ Yahoo/Google でのヒット数が数万以上ある
・ある程度長く使われる可能性がある(期間)
→ これは編集者/投稿者のセンス次第ですが、半年もすれば使われなくなりそうな単語は個人辞書での対応でよいと思います。
・世界中に撒いても問題がない(著作権、差別性)
→ 製品が回収されるようなことはないと思いますが、右も左もスラングも、なるべく無難なほうに編集しておくほうが良いでしょう。
編集者も人間なので、多少の嗜好により上記を満たしていてもなお追加されない場合があるかもしれません。また逆に、広く配布しても問題がなく、誤変換を引き起こす可能性が低い内容であれば、多少頻度が低くても編集者にとって必要な単語が追加されることがあるかもしれません。辞書の編集はとても大変なので、許容幅を広めにとっていただけるとうれしいです。
それでも納得いかなければ、自分で新しい辞書を作ることもできます。cannadic 改はおそらくそうして必要に迫られて編集された辞書です。
n さんの書き方がちょっとキツく見えたのが気になりました。
というのはさておき、
目的: 日常文を変換する際になるべく無難な変換結果を出す
手段: 専門語は誤変換を引き起こす可能性があるので切り離す
ということではないかなーと。
それに日本語は同音異義語が多いので、複数の専門辞書を突っ込むとバッティングが生じたり、部分一致が生じて必要な候補が優先されなかったりする可能性もあります。
> 一部2ch用語は既にネット用語
「常考」...聞いたことがないです。
http://search.yahoo.co.jp/search?p=%22%E5%B8%B8%E8%80%83%22&ei=UTF-8&fr=top_v2&x=wrt
参考までに Linux との使用例を調べると、
http://search.yahoo.co.jp/search?p=%E5%B8%B8%E8%80%83+linux&ei=UTF-8&fr=top_v2&x=wrt
中国語も多いようですね。
個人辞書で良いのではないかと。
「電凸」...聞いたことはありますが、標準辞書に必要ですかね?
http://search.yahoo.co.jp/search?p=%22%E9%9B%BB%E5%87%B8%22&ei=UTF-8&fr=top_v2&x=wrt
なんか怖いです。:-)
> ゲームタイトルや半導体用語、科学的な用語などもニュースやそのニュース系・実況系の板、及びその派生サイトなどでよく使われてますし、古代の神の名前などがアニメや小説、ゲーム、ソフトウェアの名前などでしばしば使われるので、チャットや実況やニコ動やMMOなどを使う際には様々な分野の専門用語が即座に変換できないと困ります。
冷めた他人から言わせていただきますと、個人的嗜好をここまで開陳して、しかもその嗜好に基づく単語を標準辞書に入れてくださいというのは、ちょっと大人げないかなーと。
ジャンルがバラバラだし、派生サイトまで含めて取りとめがないし。
極端に言うと(n さんがそうだとは思っていません)、「2ちゃんねるハングル板」「萌えアニメ」「ライトノベル」「ゲーム」を否定する気はありませんが、そういうのは個人辞書でやったほうがいいと思います。
ただでさえ
//
968 :login:Penguin [] :2007/07/25(水) 04:48:32 ID:nGpm5P1q
ごめん。anthyってなんて読めばいいの?「あんしー」?
969 :login:Penguin [↓] :2007/07/25(水) 05:26:03 ID:pVmLATlD
姫宮アンシーから
970 :login:Penguin [↓] :2007/07/25(水) 06:27:59 ID:dos0R+Aj
>>965
中の人の趣味思考が色濃く反映されてます(´・ω・`)
//
のように苦笑いされているので。
n さんがどこかのサイトで個人辞書を公開なさって、anthy-devel にその旨を連絡すれば、個人的に利用する人はいると思います。vagus さんがその辞書を参考になさることもあるかもしれません。
あと MS-IME/ATOK 用に 2ch 用語辞書を作られている方がいて、その辞書を cannadic 形式に変換して配布しているサイトがあったと思います。Debian の anthy-cannadic-2ch がそのパッケージです。たぶん「電凸」ぐらいは入っているのではないでしょうか。n さんがプログラマなら、新たに Windows 用 2ch 辞書を cannadic 形式に変換するプログラムを書くのも良いと思います。
ものすごく長くなりましたが、今後もこのようなことが起きるかもしれないので、ががっと書いてみました。
私は vagus さんを目一杯応援しています。:-)
同じ種類では無いのでそれとは違うと思います。例えばOfficeしか使わないのにディストロにGIMPやInkscape、Rosegarden、Audacity、Gaim、おちゅ〜しゃなどなどが付いてくるというの方が近いと思います。
>たとえば、仕事用に使っている PC で 2ch 用語がバンバン出てくるのはやはりマズい
そもそも2ch用語を打つのが間違いだと思います。
>n さんにメンテをお願いしたい
残念ながら私には一つ前との差分しか取れないWikiページのメンテはできる気がしません。
専用のcgiを作ってもいいのなら出来そうですが、いつまで続けられるか分かりません。
>確かに導入や管理はできるだけ簡単であるべき
個人的には現段階ではanthyと辞書を離して別パッケージにし、「単語収集/未分類語」をスクリプトでジャンル毎に定期的にパッケージングして、特殊辞書を追加/削除時に現在のdebianでのパッケージようにリビルドするのがベストだと思います。
実は以前パッチを書こうとしたのですが、testが辞書に依存するのでどうすればいいかに悩んでそのまま放置しているという状況です。
>「今そういう仕組みがないから、じゃ、共有辞書に入れちゃえ」というのなら、それは違う
これは同意です。
>「見っける」等共有辞書にあってもいいなと思ったものについてはこちらで取り込んで、「これとこれはこっちに入れました」とお知らせする(wiki の別ページに移動する?)、という風にしたいんですが、いかがでしょう?
とりあえずはそんな感じで良いと思います。
#それと確かMSIMEでは口語は別の辞書になってたはずですが、口語は専門辞書にしない予定なのでしょうか。
>n さんの書き方がちょっとキツく見えたのが気になりました。
キツく見えたのならすいません。特にそういう意図はありません。
>個人的嗜好をここまで開陳して、しかもその嗜好に基づく単語を標準辞書に入れてください
個人的には全てを明確な基準で決めてほしいにつきます。
少なくともおジャ魔女、ドラえもん、クレヨンしんちゃん、機動戦士ガンダムは標準で変換できます。
>ただでさえ(中略)苦笑いされているので。
元ソースを示さないで切り抜きは良くないですよ。
>「常考」...聞いたことがないです。
>「電凸」...聞いたことはありますが、標準辞書に必要ですかね?
感想じゃなく検索件数という客観的事実を見て言ってください。
>anthy-cannadic-2ch
anthy-cannadic-2chは既にメンテされてない化石です。
既に標準辞書に入ってる語と一般的ではないAA(全角半角がおかしかったり)と殆ど使われてない語しか入っていません。
勘違いならいいのですが、捏造ならやめてください。
965 login:Penguin sage 2007/07/23(月) 23:03:22 ID:BN9H6LZa
「きょうと」の場合は、「教徒」「凶徒」が先に出てくるな。
後ろの方に「京都」もあるが。
970 login:Penguin sage 2007/07/25(水) 06:27:59 ID:dos0R+Aj
>>965
中の人の趣味思考が色濃く反映されてます(´・ω・`)
同意です。
>・ある程度長く使われる可能性がある(期間)
基本的に流行った語は場所を移りながら使われ続ける傾向があります。
検索エンジンで更新期間を絞ると分かりやすいです。
>・世界中に撒いても問題がない(著作権、差別性)
題名は著作権によって保護されません。
差別性についてはなんとも言えません。
> そもそも2ch用語を打つのが間違いだと思います。
あ、いや、「2ch用語が辞書に入っているために誤変換を起こして(打つつもりはないのに)出てきてしまったら」ということです。「バンバン」は誇張しすぎましたかね(^^;
> 残念ながら私には一つ前との差分しか取れないWikiページのメンテはできる気がしません。
これは私も同じです。
> 個人的には現段階ではanthyと辞書を離して別パッケージにし、(中略)
全く同感です。
>実は以前パッチを書こうとしたのですが、testが辞書に依存するのでどうすればいいかに悩んでそのまま放置しているという状況です。
ですので、ここは是非頑張っていただきたい :-)
> #それと確かMSIMEでは口語は別の辞書になってたはずですが、口語は専門辞書にしない予定なのでしょうか。
話し言葉に限っての話ですが、ATOK や MS-IME のように一々変換モードを「話し言葉優先」にしないと上手く変換できないというのは、個人的には非常にイラつきます。
なので、この点は話し言葉と書き言葉をあまり区別しない anthy/alt-cannadic の方が気に入っています。といっても、登録が不十分だったり、辞書側では対応できなかったりするので「これは変換できるのに、なんでこっちは…」というのは多々あると思いますが。
他方、文語や方言は別にしないとまずいと思っていますが、分離作業には取りかかれていません。
確かにそうですね。文章校正ツールがあれば問題ない気がしますが、文章校正ツール自体が無いのが…。
>> 残念ながら私には一つ前との差分しか取れないWikiページのメンテはできる気がしません。
>これは私も同じです。
とりあえず今の状態ではどうしようもないので何かしら作ってみます。
>ですので、ここは是非頑張っていただきたい :-)
何とかしてみます。
>一々変換モードを「話し言葉優先」にしないと上手く変換できないというのは、個人的には非常にイラつきます。
>なので、この点は話し言葉と書き言葉をあまり区別しない anthy/alt-cannadic の方が気に入っています。
個人的には同意ですが、客観的にはどうなのかなぁとも思います。