要するに、コーパスの元ネタの文章には著作権の問題がつきもので、それを回避しつつ、どうやって不特定多数から協力を得るか、ということなんですよね、多分。
で、基本的な方向性としては以下の二つが考えられる、と。
a. 問題が発覚しても影響を最小限にとどめようとする方向まぁ、当たり前の話ですね。
b. そもそも絶対に問題が起こらないようにしておこうとする方向
ユーザが自分で書いた文章を送ってもらうのはいかにもオプソ的だが、受け取った方はそれが本当にその人が自分で書いたものなのか確かめようがなく、結果、リスクをゼロにできない。
なので、a. の場合は、corpus 部分を anthy から分離することで、影響が anthy 本体に及ばないようにする方向。
corpus で作成した統計情報のみを anthy に入れて anthy をリリース、curpus の方はソースも公開するけど、ディストロには含めないようにしてもらう。
こうすることで、anthy 本体及び anthy のソースを含んだディストロへの影響を回避する。
「統計情報だけなら、元の文章に問題があっても影響ないだろう」という想定ですが、本当に「影響ない」のかどうかは自分は知りません。
b. は逆に、corpus 部分を分離せず、フリーであることがはっきりしていないものは入れないことで問題を回避しようとする方向。
たとえば、「ユーザから受け取るのは、青空文庫とかプロジェクト杉田玄白とか JF とかフリーであることが明白であるものからの文章に限定する」みたいな。
# もっとも「改変自由」まで言っていいのかどうかは個別に確認しなきゃいけないかもしれませんが…
でも、著作権のある文章でも出典を明記して引用という形にすれば問題は起こらないはずだし、そこから算出した統計情報だけなら anthy 本体に含めてもやはり問題ないのなら…というわけで、a. と b. を折衷した、
c. corpus 部分を anthy から分離、ユーザから受け取るのは出典の明記された文章に限る(著作権のある文章でも良い)というのもありかなと。
|ゆめは|じかんを|うらぎらない| |夢は|時間を|裏切らない| (『銀河鉄道999』松本零士)みたいな。
|じかんも|ゆめを|うらぎっては|ならない| |時間も|夢を|裏切っては|ならない| (『銀河鉄道999』松本零士)
# ほんと意味不明な文章だよなぁ、これ。
# そもそも「夢」が行為主体になるような想定が自分にはできません
ただし、この場合は分離した corpus 部分は「改変自由」というわけにはいかなくなるだろうけど。
大体この 3つのうちのどれかになるんじゃないかなと思ってますが、この 3つが本当に問題ないのかどうかは分かりませんし、「単純に考えるとこんな感じになるんじゃないかな」くらいで、この点についてはこれ以上考えてません。
自分としては、辞書をいじってる人間としてもうちょっと別なことを考えてます。
他に著作権問題が発生しなさそうな場合には、「短くてごく一般的なフレーズ」というものがあると思います。「秋の夕日に」というフレーズだけなら、短いしごく一般的なフレーズなので、仮に『紅葉』作詞:高野辰之とか出典を入れてなくても問題にはならないんじゃないかと思います。まして、自分で思いついた「短くてごく一般的なフレーズ」がたまたま何か著作権のある文章と一致していたとしても、それで訴えられることはないだろうと。
なので、こういう「短くてごく一般的なフレーズ」なら corpus に入れる文章としてユーザに送ってもらっても大丈夫だと思いますが、「短くて一般的なフレーズ」といえば、辞書に載ってるような「用例・語法」もそうです。
ならば、corpus に使うだけじゃなく、用例・語法としても使えば一石二鳥じゃん、というわけで、その方向でなんとか行けんものかとあれこれ考えてたりします。
ちなみに、scim-anthy-1.3.0 には用例・語法を表示する機能があったりします。↓

ただ、scim-anthy-1.3.0 ではまだプロトタイプというか作りかけというか、問題が色々あるので、正直実用性にはちょっと「?」がつきますし、何より開発が止まってるのでアレですが。
なので、特に scim-anthy-1.3.x 向けに作業するつもりはないですが、かねてから「『読み』と『品詞コード』と『候補』だけじゃなく、いずれは辞書的な内容、『意味』とか『語源』とか『用例』とかも cannadic改に入れていきたい」と思っていたので、これをきっかけにしようかなと思ってます。
ちなみに、これをやると wikipedia の姉妹版の wiktionary とかなりカブります。一緒に出来れば作業分担できてウマーだとは思いますが、あっちはそもそも方向性が全然違うのでムリだと思ってます。
で、具体的にどうやるのかということですが、これが何とも頭痛い…。
不特定多数から用例を集めるのだとすると、また wiki にするのかとか DB に入れて登録フォームみたいなのを作るのかとかあると思いますが、他方で今のテキスト形式の簡便さ扱いやすさを失いたくもないし…。
…と、このところずっとあれこれ考えてましたが、一応今のフォーマットをちょっと拡張して、テキスト形式のままで行くことには決めました。なので、自分一人が作業することはできるようになりました。
が、どういう方式でユーザから集めるかがまだ何とも、いいアイデアが浮かびません…。もうちっと考えます。
ちなみにこれは「cannadic改で独自に集めて、用例部分をこちらからまとめて anthy に送る」というものなので、anthy とは直接関係ありません。あくまで自分が勝手に考えていることですのでお間違えのないように。
【関連する記事】