前川 喜久雄
独立行政法人国立国語研究所 研究開発部門
文科省特定領域研究「日本語コーパス」代表者
1.コーパス
コーパス(corpus < L.corpor-“body”):言語にかかわる研究・開発のために電子的に集積された大量のテキスト
2.誰が使うか
自然言語処理,音声自動認識,言語研究
→ 1980年代以降,大量データを用いた統計的機械学習による知識獲得が実用化水準に達した
3.どのように使われるか
音声言語情報処理,自然言語処理(より具体的には音声認識,機械翻訳,音声自動翻訳など)のための統計的な言語モデル,音響モデルの構築
→ データ自体は使い捨て。学習結果だけが重要 → 本当に著作権処理が必要か?
言語研究:辞書,文法書の編纂,言語の実態把握,未来にむけての文化財構築
→ データの共有(そのための公開)が重要 → 著作権処理が大切
4.どのように作るか
A.Web crawlingによる場合(情報処理用途)
特長:迅速,容易,大量(数十~数百億語),多言語
問題:書誌情報欠落,言語としての偏り,著作権
B.手作りする場合(言語研究用途)
※kotonoha『現代日本語書き言葉均衡コーパス』( http://www.kotonoha.gr.jp/demo/ )
特長:出版データなどを母集団とした無作為抽出による代表性の確保,書誌情報が明確
問題:構築コストが高い,特に著作権処理,たかだか数億語
5.著作権処理の実際
kotonohaにおいて処理を要するサンプル数,書籍のみで約3万件。過去19箇月に15,600サンプルの処理に着手。研究員2名,研究補助員3名(週30時間),アルバイト数名の体制。
連絡先が判明したもの9,324件。その反応は,
→ 許諾5,554件,拒否372件,Agent金銭要求(翻訳)624件,回答待ち2,774件
権利者の意思による拒否率 | (372)/(9324)*100 = 3.9% | = 3.9% |
権利者の意思ないしagentの要求による拒否率 | (372+624)/(9324)*100 = 10.6% | = 10.6% |
→ 連絡不能率が40% → 雑誌サンプルの場合は一層悪化
6.まとめと要望
情報処理領域での利用に関して言えば,実際上の著作権侵害は生じないので,原則として自由な利用を認めていただきたい。公開を前提としたコーパスの場合,著作権処理は必要であろうが,本人の意思による拒否率を考慮すると,著作権法を遵守するためのコストが異常に高い。有限の時間内に低廉なコストで処理が終了する方式が必要。一定の手順を経ても連絡不能な著作物は利用を認めていただきたい。それが日本語という公共財,文化財の価値を高めることにつながる。