文化審議会著作権分科会法制度小委員会(第3回)

日時:令和5年10月16日(月)

13:00~15:00

文部科学省東館3F1特別会議室
(オンライン併用)

議事

1開会

2議事

  • (1)生成AIについての有識者ヒアリング
  • (2)AIと著作権について
  • (3)その他

3閉会

配布資料

資料1
有識者提出資料(日本新聞協会)(1MB)
資料2
有識者提出資料(国立研究開発法人情報通信研究機構)(2MB)
資料3
有識者提出資料(うめ 小沢高広様)(142MB)
資料4
生成AIに関する各国の対応について(266KB)
資料5
生成AIに関するクリエイターや著作権者等の主な御意見(200KB)
参考資料1
第23期文化審議会著作権分科会法制度小委員会委員名簿(237KB)
参考資料2
AIと著作権に関する論点整理について(第1回法制度小委員会配付資料)(651KB)
参考資料3
AI学習に対する技術的な対応手段の一例について(第2回法制度小委員会配付資料)(486KB)
参考資料4
本検討会において検討すべき課題について(第1回 I時代の知的財産権検討会配付資料)(1MB)
参考資料5
広島AIプロセスの今後の進め方(296KB)

議事内容

【茶園主査】では、ただいまから文化審議会著作権分科会法制度小委員会(第3回)を開催いたします。

本日は御多忙の中、御出席いただきまして、誠にありがとうございます。

本日は、委員の皆様には会議室とオンラインにてそれぞれ御出席いただいております。

オンラインにて御参加いただいている皆様におかれましては、ビデオをオンにしていただき、御発言されるとき以外はミュートに設定をお願いいたします。

議事に入る前に、本日の会議の公開につきましては、予定されている議事内容を参照いたしますと特段非公開とするには及ばないと思われますので、既に傍聴者の方にはインターネットを通じた生配信によって傍聴していただいているところですけれども、この点、特に御異議ございませんでしょうか。

ありがとうございます。

では、本日の議事は公開ということで、傍聴者の方にはそのまま傍聴いただくことといたします。

それでは、まず、事務局に人事異動があったようですので、事務局からその紹介と併せて配付資料の確認をお願いいたします。

【持永著作権課長補佐】著作権課の持永です。それでは、まず、人事異動の紹介をいたします。前回の会議で紹介すべき者もおりまして、大変申し訳ございませんが、改めて紹介させていただきます。

まず、文化庁次長の合田哲雄が本分科会担当次長として出席しております。

【合田文化庁次長】どうぞよろしくお願いいたします。

【持永著作権課長補佐】また、8月8日付で、文化著作権課長として、籾井圭子が着任しております。10月1日付で文化庁著作権課専門官として白井美由紀が着任しております。また、私、持永が小倉の後任として著作権課課長補佐に着任しております。どうぞよろしくお願いいたします。

それでは、資料の確認に移ります。議事次第にあります配付資料一覧を御覧ください。本日はヒアリングということで、有識者から提出いただいた資料を準備しておりますほか、資料4、資料5、また、参考資料としまして、前回までの法制度小委員会の配付資料、参考資料4としてAI時代の知的財産権検討会配付資料と、参考資料5として広島AIプロセスの今後の進め方に関する資料を用意しております。

資料の確認は以上でございます。

【茶園主査】どうもありがとうございました。

それでは、報道関係の方には、御退室いただきますようにお願いいたします。

(報道関係者退室)

【茶園主査】それでは、議事に入ります。

本日の議事は、議事次第のとおり、(1)から(3)の3点となります。早速、議事(1)の生成AIについての有識者ヒアリングに入りたいと思います。

本日は、一般社団法人日本新聞協会、国立研究開発法人情報通信研究機構、うめ 小沢高広先生より、生成AIについて御発表いただきたいと思います。

日本新聞協会からは、著作権の侵害のおそれのある事案に関する事例の紹介と新聞記事のデータベースの取扱いなどについて御発表いただきます。

情報通信研究機構は、情報通信分野を御専門とする研究機関として、生成AI利用時の著作権侵害等の防止に資する技術的手段について御発表いただきたいと思います。

小沢先生は、創作活動で生成AIを利用している漫画家でいらっしゃいまして、その生成AIの利用の仕方と著作権者としてAIに対してどのような懸念があるかといった観点から御発表いただきます。

委員の皆様におかれましては、有識者ヒアリングより御知見を深められた上で御議論に進んでいただきたいと考えております。

それでは、初めに、資料1に基づきまして、日本新聞協会より御発表いただきます。御担当いただくのは、是枝智様、福山崇様、植木康夫様、竹内敏様でございます。

それでは、どうぞよろしくお願いいたします。

【日本新聞協会(是枝氏)】日本新聞協会から本日は4人が出席しております。説明は私、是枝のほうから説明させていただきます。

それでは、早速ですが、資料を御覧ください。まず、最初に冒頭に資料2ページ目を御覧ください。まずは、どういう生成AIで、どういう使われ方をしているか、どういう結果が出るかという事例から簡単に御紹介させてください。

3ページ目です。まず1つ目、報道コンテンツの無断使用が疑われる事例について説明したいと思います。これは左側が8月10日に読売新聞オンラインで掲載された星の記事についてです。右側がマイクロソフト社Bing AIに質問を投げかけて出てきた回答になります。

4ページ目を御覧ください。元の記事が左側に書いてあり、右側にMicrosoft Bing AIの回答が書かれております。赤字の部分が元の記事と一致した箇所になります。御覧いただければ分かりますが、かなりの部分で似たような表現、また全く同じような表現が多々読み取れると考えております。

続きまして、5ページ目です。これは有料会員限定のコンテンツを基に回答を生成した事例になります。左側は毎日新聞デジタルに掲載された鍵つきの記事で、右側がグーグルのSGEによる出力になります。有料会員限定のコンテンツということは、本来的にはID・パスワードを入力しないと閲覧できないものになります。どのような仕組みで右側のグーグルのSGEが回答をしているのかははっきりしないのですが、毎日新聞デジタルに書かれている記事のかなりの分量が使われているのではないかと推察されます。実際に毎日新聞から引用しているということも書いてあります。

【事務局】すみません。只今WEB会議システムの音声が乱れてしまっておりまして、大変恐縮です。御発表の順番を変更させていただきまして、4ページ目以降については後ほど改めて御説明いただきたいと思うのですが、よろしいでしょうか。

【日本新聞協会(是枝氏)】承知しました。

【茶園主査】では、順番を変えていただきまして、小沢先生、急にお願いしてすみません。では、資料3に基づきまして、うめ 小沢高広先生より御発表いただきたいと思います。

小沢先生、どうぞよろしくお願いいたします。

【うめ 小沢高広先生】よろしくお願いします。今日は生成AIと漫画制作ということで、利活用の現状、バージョンとしては2023年初秋とさせていただきました。非常に技術の進歩の速い業界なので、これぐらいの季節感で切っていかないと全く古びた話になってしまうので、2023年の秋、頭の話だと思ってお聞きください。

小沢高広と申します。2人組漫画家うめで、大体20年ぐらい漫画を描いています。主にIT業界だったり、ゲーム業界だったりとか、仕事系の漫画を描いていることが多いです。あと、たまにアニメとかの脚本を書いたりもします。

ちょうど年内に始める新連載がありまして、それに向けていろいろストーリーだったり設定考証、キャラクターデザイン、背景なんかで多方面で先生AIを使っています。

ちなみに、旧文部省時代の某大臣をモデルしたキャラクターが出ます。

今日話すこと、主にこんな感じです。生成AIとどう関わるか、生成AIで何ができるのか、生成AIを使うデメリット、あと、今後の展望、この辺りで話していこうかと思います。

生成AIとどう関わるか。これはちょっと直接漫画の仕事とは関係ないんですけれども、今年の春頃、3月の終わり、ちょっとツイッターでバズった話なんですけども、娘、うちの次女が12歳、子供が作文の宿題をすごく渋っていた。そのときにChatGPTに家庭教師役をやってもらったんですね。小学校の思い出は何ですかというふうな形の宿題だったので、書けない。それに対して小学校の家庭教師役としていろいろ聞き出してくれる。子供がいろいろあって分かりませんというふうに子供が答えても、大丈夫ですと答えて、より具体的な例を引き出してくれた。これは要するにいわゆるコパイロットとしてのAIの使い方なんですね。

生成AIでよく言われていることといえば、事実の検索には不向き。そもそも事実をここから引き出そうとするというのは非常に難しいことであり、あまり有意義なことだとは思っていません。いわゆるもっともらしいうそをつくというハルシネーションですね。ただ、こういう言葉があるんです。「講釈師、見てきたようなウソをつき」。これは昔の川柳なんですけど、これはエンタメに生きている人間の非常に矜持を表しているすばらしい文章だと僕は思っているんですが。ということは、創作にとても向いている。これは生成AIというものと創作の相性のよさというものを語っていると思います。

生成AIで何ができるのか。基本的には、コンセプト1、苦手なものを代わりにお願いする。これですね。おじさん構文。漫画家っていろんな役を描かなくてはいけない。中には、僕は書いたことないんですが、おじさん構文を書かなくてはいけない場面というのも存在しなくはないんです。

こういうときに、これはじきるうさんという編集者がつくってくれた、特徴とか、そういうのをまとめてつくったんですけども、変換してくれるんですね、おじさん構文に。「おじさん構文に変換したい文章を入力してください」。「おはようございます。今日はよろしくお願いします」。僕は至って普通の文章を入れたんですけれども、これに対して、「おはよー! チュッ♡今日もよろしくダネ」というふうにちゃんと訳してくれる。これだけ顔文字をいっぱい入れて。最後には「ナンチャッテ」ってつけてくれる。これを一瞬でつくってくれると非常に助かります。

あとは、こういうのですね。SFの設定監修。こちらの欲しい設定を聞き、可能な限りつじつまの合う設定を考えてください。で、聞いてくれます。例えば、「ドラゴンが口から炎を吐けるのはなぜですか判定 自分は焼けたりしないんですか?」。これに対して、「すばらしい質問ですね」と言って、いろいろな解説をしてくれます。炎の生成、炎の点火、自己防御、こういった形で具体的に答えてくれます。

もちろんこういう設定を考えるのが好きな人はここをやらせる必要は一切なくて、苦手な人であれば、絵を描くのはすごく好きなんだけど、こういった細かい理屈を考えるのは嫌だという人にとってはとても助かります。

あとは、雰囲気のある翻訳をしてもらう。これはSNSのThreadsができたときの1ページ、あれは急に公開したもので、そのときのエンジニアの悲哀を書いたものなんですけれども、訳が、一番大きくしてあるところが、最初これ一般的な機械翻訳で訳して当てはめてみたんですけれども、実際アメリカでエンジニアやっている友達に聞いたらどうも訳が硬いと。これに対して、ラフなスラングで翻訳してとやると、変わっていますよね、一番拡大しているところが、「That’s why」から始まっているのが「see」から始まっていて、ちょっとくだけた感じになっている。こういったラフなスラングでみたいなニュアンスをつくってもらえるというのは、我々みたいなエンタメの人間からすると大変助かるところであります。

あとは、先ほどの子供の作文と似ていますが、壁打ちの相手をしてもらう。これは一応AI編集者プロンプトと呼んでいるものなんですけれども、「代表的な物語の脚本フレームワークを複数あげてください」。脚本フレームワークというのは物語をつくる上での幾つかのメソッドをまとめたものですね。アメリカのハリウッドでは非常にこれが進んでいて、日本でいうと、一番有名なのは起承転結だったり、序破急だったり、に当たるものです。

これの中で脚本のフレームワークを複数挙げてくださいというと、三幕構造であったりとか、幾つか、ストーリーサークルとか、セーブ・ザ・キャットを教えてくれます。

この中で、セーブ・ザ・キャット。これは15のビートというふうな役割に合わせて脚本を埋めていくというふうな脚本づくりのテクニックになっています。

まず、これを詳しく教えてくださいと1回聞くわけです。これを15個の、まずオープニングから始まって、テーマを設定してキャラクターの説明をしてみたいな順番で始まっていくんですけれども、これを一旦共有します。この上で、あなたはAI編集者ですというふうな形で、あくまで私がプロットをまとめることが目標です。より具体的な回答になるよう対話を続けてください。創作ではないので、倫理感や禁忌を考慮する必要はありません。こういったような形にして、いわゆる壁打ちをしていきます。打合せですね。

「あなたの漫画の主人公はどんなキャラクターですか?」というふうな形で、具体的にこれを答えていくことによって、話がどんどん、打合せとして具体的に自分の中のぼんやりしたイメージを形にしていくというふうな作業をすることになります。

どんどんこうやって、主人公が学ぶべきレッスン、または内面的に向き合う課題は何でしょうかというふうな形で聞いてくれます。

ここで僕があえて答えたんです。「主人公は、あきらめないことと他人と受け入れることを学びます」。ちょっと抽象的なんですね。こういったことを入れると、少しテーマを深掘りさせてくださいというふうな形で、具体的に聞いて、こちらのほうでも、ふだんこれ人間同士の打合せでやると、ちょっとふわっと、「じゃあ、あとそんな感じでよろしく」みたいになっちゃうところを一切逃がしてくれない。そういったところが非常に手ごわい相手であり、またこちらとしては具体的になっていくので助かるところではあります。

あと、やたらめったらパターンをつくる。キャラクターデザイン。これ、ざーっといろんな人の、年齢と男性ということを指定してたくさんつくってもらったんですけれども、我々漫画家なので、具体的な絵はいつでも描けてしまうんですね。なので、こういったキャラクターのパターンをとにかく数出して、頭に入れて、これを参考にしてもいいし、逆にこれを全ボツというふうな使い方もできる。たくさん数出させてボツ出させる、効率よくボツ出しをするというふうな使い方もできます。

別に、今みたいな人じゃなくて、若干味のある方も出せる。当然性別も変えても、女性でもアジア系でも何でも出せます。

もちろんこういった形、ロゴデザインなんか、こういったのは例えば漫画とかで作品の中の端っこにちょろっと何か出てきた看板とか、そういうところにぺたっと貼っておくと、作品に妙なリアリティーとか厚みみたいなものが出るんです。あとは、こういったメカデザインなんかもできます。

ただ、これですね。やっぱり背景は描いてほしい。漫画家って結構独りでうんうんうなってずっとやっているように思われるんですけれども、実のところは、アシスタントと呼ばれるスタッフを使っている仕事場がとてもたくさんあります。その中でも一番お願いする作業の1つというのが背景を描いてもらうという作業なんですね。

例えばこれです、これ一緒に載せましたが、今、これぐらいのものまでは描けるようになっています。これはMidjourneyで描いたものなんですけれども、東京のちょっと寂れたまちみたいなイメージで描いてもらったものになります。

あとは、これですね。具体的なプロンプトは省きますが、ちょっとしたオフィスっぽいところ、あとは駅前、東京の風景、ニューヨークの風景。これちょっと面白いのが、東京の風景ってちょっと線路で湾曲しているような雰囲気があるんですよ。これに対してニューヨークの町並みというのはちゃんと真っすぐな風景になっているんですね、升目の。この辺というのはちゃんと描き分けができているというのがすごくありがたいところですね。

あとは最近、ちょうど先週ぐらいに発表された、DALL-E3のChatGPTと会話できるほうのバージョンですね。これだと対話しながら物をつくっていくことができます。「東京の街並みの特徴を項目に分けてまとめてください」。これは本当に生のスタッフに指示出しをするときと全く変わらない感じなんですね。「ちょっとこの辺、適当に東京の街描いて」と言ったところで、言われたほうは困るわけですよ。東京の街といっても、ぱっと思い浮かべる街はみんな違う。そうすると、ここに具体的な特徴を挙げてくれるんですね。高層ビル群だったり、狭い路地、歴史的建造物。確かに。いろいろあるので、これに対して、じゃあ、狭い路地、こういう感じ、こういう感じ。

2の特徴をさらに深掘りして分けてくださいというと、狭い路地、伝統的な下町エリア、ショッピング街には狭い路地が多い。この辺の特徴をさらに挙げてくれます。

この中からこの2つ、居酒屋と飲食店、猫との出会いみたいな、こういう雰囲気のものというふうに具体的に指示を出して描いてもらうと、これぐらい描いてくれるんですね。

そうすると、東京の商店街、確かに、千駄木とか、根津とか、あの辺にありそうな感じの町並みというものを描いてくれています。

ただそのまま貼れるかというと、画風によっては、作家の画風によっては合わない。結局そこを合わせるためにどうするか。これ、ちょうど今度の新作のある1コマなんですけども、これ、漫画の1コマとして、皆さん目にしたときに特に違和感はないと思うんですね。これはどうやってつくっているかというと、もとはこの絵なんですよ。これは生成したものです。これ、よく見ると何だか分からないものが多いんですね。この辺をどうするか。結局ここをスタッフが手でトレースするんです。これが現状では今のところ一番早いです。この辺が2023年の秋と呼ばれるゆえんなんですけれども、スタッフが手でトレースをしています。

そうすると、前のところであった、ちょっとぐにゃっとした何だか分からないものだったりとか、鉄塔がよく見ると崩れていて鉄塔っぽくなってない、崩れているところが、はっきりとした形になるわけです。

これを仕上げると最初のこの形になるというふうな形になります。

今回、スタッフにこれをお願いするに当たってマニュアルを作りました。生成AI画像トレースマニュアルというものを作りました。簡単に言うとこんな感じのところを気をつけてねというものになっています。

1、最初の謎文字の置き換え。やはりまだまだ日本語を正しく書いたり、文脈を読み取って書くということは不可能なので、この辺は全部直してねということです。

あとは、時代設定の調整。今書いているのは1950年代を舞台にした物語なんですけれども、(2)で描いてあるところに高層ビルなどが映ってしまっている。これは確かに1950年代にはないので、これは削除してね。

あとはディテールとパースのごまかし。これはさっきの鉄塔などのぐにゃっとしちゃっているところと同じですね。

あとは、謎エスニックの排除。右下の画像の提灯がたくさんある。なぜか日本を描いているんですが、どうしてももう少し中国大陸、台湾、ベトナム辺りのイメージのものというのがジャパンと入れると出てしまうんですね。テクニックとしては実はここは昭和とか平成と入れるともう少しこういうのが出なくなるとか、そういったテクニックはあるんだけど、こういうものが多いので、これを直してねというふうな形でスタッフにお願いしています。

これですね。生成AIが描いた絵をベースにするにするメリット。わざわざニューヨークに行かなくてもトレースの素材を用意できる。例えば、漫画って非常に日本では大事な文化ではあるんですけれども、あいにくちょっとニューヨークの場面が1シーンあるからニューヨークに行かせてと言って予算が出るほどの世界ではないです。そうするとこれを使えるメリットがある。

あとは、既存の素材集よりも自由度が高い、もしくは高くなる可能性がある。これは、どうしても漫画というのはテーマが広いので、ファンタジーだったり、宇宙だったり、そういったもの、SF的なものを書くときには、素材集ではないものを見なくてはいけない。そういったときに非常にできる。

あとは、自分で撮った写真を基にした場合でも起きるトラブル。これは実際にあった例なんですけれども、自分である作家さんが写真を撮って、その絵を使って漫画に描きました。別に公道から撮った場所だしオーケーだろうと思ったんですけれども、とても立派なお宅だったので、個人宅だったんですけど、それを暴力団関係者の組長の家だというふうにして描いたんです。そうしたらその家からクレームが編集部に入ってきて、これは法的にどうこうのレベルではなく謝らなくてはいけない事態。こういったようなトラブルも回避できる。

あとは、いわゆるトレパク警察と呼ばれる、実際にパクっている、バクってない、法的に黒白関係なく、取りあえず似ているというところでネットで炎上するケースというのは多々あります。これを回避することができるというふうなことで、生成AIを描いた絵をベースにするメリット、もちろんこれだけをベースにする必要はない、今までどおりいろんなものをベースにしていいんですけれども、ある種の安心感を得ることができるという1点はあるかなと思っています。

あと、生成AIを使うデメリット。こちらもお話ししておこうかと思います。

まず、仕事を奪うのか。これですね、漫画っぽい絵を生成してみました。いわゆる生成AIで描くような、見る絵とはちょっとニュアンスが違うと思います。これ一旦描いてから別プロンプトで表情だけ選択して差し替えているんですね。こういった形で行っています。

じゃあ、漫画描けるのかというと、これちょっと描いてみたんですけれども、よく見ると、いろいろ字がおかしいとか、同じキャラクターばかり出ている、空間の整合性がない。こういったことで漫画はまだまだ描ける気が正直しません。

次、じゃあ、アシスタントの仕事を奪うのか。日本漫画協会の会員数が今3,100人、毎年数百人ずつ増えています。漫画家全体の14~15%と言われている。しかも、紙プラス電子コミック市場の推移でも今ずっと上向いています。おそらく漫画家は増えている傾向にある。だったらアシスタント数はどうかというと、同様に増えているということはない。慢性的な人手不足を現場では感じます。

そういった意味では、こういったもので生成AIによって効率化が図られるのであれば、それはそれでいいことなのかなと思っています。

じゃあ、生成AIの利用は権利侵害になるのか。学習という側面ですね。個人的には学習されることに対する危機感というのはありません。生成AIを利用することによるメリットのほうがはるかに大きく感じています。

あとは、生成側のほうにおいては、これで仕事が奪われるのは、今、申しましたように到底考えにくい。正直、権利侵害をするのであれば生成AIを使わなくても我々はいくらでもやろうとしてしまえばできます。やらないだけです。生成AIを使わなくてもやっていけないことはやらない。数少ない懸念すべき可能性というのは、他人の作品と意図せず偶然一致してしまう場合、これは確かに気をつけなくてはいけないケースかなと思っています。

具体的にはこちらになります。これです。これ、企業のロゴをたくさんつくったんですけども、下にプロンプトが書いてありますが、この中に「Apple」という単語は一つも入ってないんですが、世界で一番有名な企業のロゴらしきものが幾つかあるのは分かるかと思います。もちろんこのクラスの会社のロゴであれば僕も見て分かるので、これをはじくこと、もちろんこれをうっかり使ったりすることはないんですけれども、可能性としてはある。

ただ、これに対して過剰に恐れてしまっても仕方がなくて、現時点でできる対策としては、画像検索などで類似の画像がないか検索するという類似性の対策。あとは、プロンプトや、今日は主にテキスト・トゥ・イメージ、テキストから生成する話にしましたが、イメージ・トゥ・イメージ、画像から画像を生成する場合においても、元画像だったりとか生成環境などを保存しておくということで、意図的にやったものでありませんよというところの依拠性対策。これが、100%ではないにせよ、現状でできる現実的な対策かなと思っています。

今後の展望です。漫画を描く基本はほとんど変わらないです。ストーリー、ネーム、作画という順になります。具体的にはこういう感じですね。シナリオみたいなものがあって、ネーム、一番ラフな形のもの、で、完成原稿という形になります。

これに対してストーリーの部分であったりとか作画の部分というのはいろいろなものでフォローアップができています。ここに生成AIというのが1つ加わる。新たにちょっと加わるというだけの認識であるというのが僕の認識です。

一番大変なのは、漫画家が悩んでいるのはここのネームの部分なんですね。ここが1人で考えて、本当に気持ち悪くなるぐらい考えなくちゃいけないです。ここのところは、あいにく、誰も手伝ってくれないです。

なので、どういうことが起きるか。基本的には変わらないんですけど、既に描ける人にとっては、効率化、高品質化、作品数の向上。新たにこれから漫画を描きたい人にとっては、生成AIを伴走者にした、先ほどのコパイロットのようにした作品づくりが可能になる。

あと、これ、非常に面白い例なんですけども、最近絵を描けなくても漫画を描きたい、漫画を描ける人が出てきているんです。生成AIで絵を描けることによって子供のときになりたかった、漫画を1回描いてみたい。そのためにどうしたらいいかって、結局皆さん行き着いているのはネームの勉強なんです。ここで言ったネームのところです。結局ここだよねと言って、今、生成AIによって自分が絵を描く力を手に入れた人たちがネームの勉強をしている。これは何かというと、結局は漫画というものの作品数が増えることにつながっており、生成AIの普及は日本の漫画文化のさらなる多様性の向上につながる可能性があるかなと考えています。

ちなみになんですけど、最後に1つだけ、この画像、こちら、2022年8月11日に僕が生成した東京の町並みの画像です。これでも当時は奇跡の1枚だったんです。これからさっきの町並みまでおよそ1年ちょっとということ考えると、ここから先、また1年、2年たったときにどういうものが出るかなというのは非常に楽しみにしているところです。

以上になります。

【茶園主査】どうも小沢先生、ありがとうございました。

では、ただいまの御説明を踏まえまして、御質問、御意見等がございましたら、お願いいたします。

福井委員、お願いいたします。

【福井委員】福井でございます。うめ先生、本日はお忙しいところ、大変充実した御発表ありがとうございました。

まず、紹介されたおじさん構文につきましては、会場にいるおじさんを代表して、抗議を差し上げたいと思います。

冗談はさておき、やはり生成によって似たものができてしまうこと、大変心配ではないかと思うんですね。それで先ほど、依拠性の対策として、プロンプトなどを保存しておくと。過程を保存しておくことは確かに有効だとは思うんですが、実は依拠性の議論次第ではこれではプロテクトに十分ならない可能性があります。そうすると、やっぱり似たものをスクリーニングできるということに期待が集まるわけですけれども、画像での検索ということを挙げていただきました。実感として、これ、今、どのくらい効きそうでしょうか。実効性が、画像検索、ありそうでしょうか。

【うめ 小沢高広先生】ロゴレベルでは似たものというのは出てくるけれども、まあ、違うな。さっきのアップルはかなり奇跡の1枚的に出た感じはあります。ITカンパニーというところで非常に強く出た気はしています。

風景とか背景に関して、においては、出たなと思うことはないですね。ただ、これが具体的にLoRAであったりとか、追加の強化学習みたいなものを行っていない状態のものでやっているので出ていないというふうな可能性は高いと思います。

【福井委員】今のは類似画像の出現率のお話をしていただいたと思うんですけども、画像検索等で、自分が意図していないけど似た画像が世の中にあるということを発見できる可能性ってどのくらいありますか。私の感覚だとまだ画像検索はそこまで効かないなという感じも持っているんですけど。

【うめ 小沢高広先生】そうですね。それに関しては、もちろん画像検索をすれば何かしらのものは出力は出る、検索結果は出るんですけれども、それでどこまで出るのかというのは分からない。ただ、今後、今、ここまで生成もできている以上、検索のほうのレベルも上がるはずなので、今後そこのところは強化されていくとは思います。

【福井委員】ありがとうございました。

【茶園主査】ほかにございますでしょうか。

𠮷田委員、お願いいたします。

【𠮷田委員】𠮷田でございます。どうもありがとうございました。

分からないところがあって教えて頂きたいのですが、漫画を描かれる過程のところで、ネームをおつくりになるという話がありましたが、漫画の設計図のようなところをこれは指しておられるのかなと思ったんですけれども、実際にAIを使うのと、AIを使わないで作業される場合とでは、ネームにかける時間が随分違うような感触をお持ちでいらっしゃるのでしょうか。

【うめ 小沢高広先生】これは2つあって、1つは、より深くまで掘れるという作業が1つ。あとは時間が短くなるという作業が1つという2つのメリットの側面があると思うんですけれども、そこが漫画家の悲しいところで、時間が短縮されると、より深く掘って余計なことまでまたつい凝ってしまうんですね。なので、効率化は図られているはずなんですが、より深く描いてしまっているという可能性が高いです。

【𠮷田委員】ありがとうございました。

【茶園主査】ほかにございますでしょうか。

羽賀議員、お願いいたします。

【羽賀委員】羽賀でございます。本日はありがとうございました。お嬢様の作文の話は私もツイッターでリアルタイムに拝見しておりまして、面白いなと思っていたところでございます。

私も漫画は読むばかりでつくり方については全く存じ上げないのですけれども、先生がお描きなのはいわゆる伝統的な、きちんとコマが割ってあるような形のものかと思うんですが、今はやりのコマだけがスクロールされるような……。

【うめ 小沢高広先生】縦スクロールの。

【羽賀委員】はい。あのような種類の漫画のネームとの関係では生成AIはどうなるだろうかということについて、プロの方の知見を伺ってみたいと思います。

【うめ 小沢高広先生】基本変わらないと思います、そこは縦でも、どちらでも、お話をつくって、ある種のせりふと絵でストーリーを構成していくというところは、縦スクロールであっても、普通のページ単位の漫画でも変わらないので、有用だと思います。

【羽賀委員】ありがとうございます。

【茶園主査】ほかにございますでしょうか。

【今村主査代理】すみません。先ほど現時点でできる対策というところで、類似性とか、依拠性とか、その点について検索をされるという話をされて、そういう対策があり得るという話をされたと思うんですけれども、先生がいろいろプロンプトで画像生成をする場合に、これはどこかで見たことがある絵だなというものに直面することというのは、実際あるのか、どの程度あるのか、その点についてお伺いしたいんですけれども、いかがでしょうか。

【うめ 小沢高広先生】生成したものがどこかで見たことがあるかな、ないかなということに関しては、よほど突飛なものを描いたのでなければ、見たことあるか、ないかでいったら、全てあるものになります。ただ、それは人間が描いたものでもほとんどの絵は全て見たことがある絵になるので、あまり変わらないかなと感じています。

【今村主査代理】分かりました。どこかで見たことあるかなというのは、既にある作品の中で見たことあるかなという、特定の作品と結びつくような類似性というのを経験したことがあるかなという質問だったんですけども。

【うめ 小沢高広先生】なるほど。先ほどの会社のロゴのところで触れた例が一番極端な例で、それ以外では感じたことはないです。

【今村主査代理】分かりました。どうもありがとうございます。

【茶園主査】ほかにございますでしょうか。

私からお聞きしてよろしいですか。先ほど、最終的に漫画を描くところで、ネームの部分が残って、それはあまり変わらないのではないかということでしたが、技術がさらに進歩していって、ネームのところまでAIができるようにならないでしょうか。今まであった漫画のパターンに従うものであれば、全く新しいというものではないでしょうが、そのパターンでやっていくということが考えられるではないかと思うのですが。そして、もし考えられるとしたら、その場合には漫画の世界は一体どうなると思われますか。

【うめ 小沢高広先生】確かにその可能性は全くゼロではないけれども、漫画って、絵と文字を、コマというものを使って時間軸を2次元に落とし込んでというところが非常に難しいものなんですね。なので、ネームを描くことというのは僕は相当先にならないと無理だなとは思っています。かつ、それで面白いものができるのか。我々の好奇心なり、エンタメを求める気持ちを満たすものができるのかというのは、相当そこは悩ましいなとは思っています。ただ、もしそれができたときには、僕は喜んで一読者としてずっと読み続けようと思います。

【茶園主査】どうもありがとうございました。

ほかにございますでしょうか。

澤田委員、お願いいたします。

【澤田委員】大変興味深いお話ありがとうございました。クリエイター側の懸念として、自分の描いた絵の画風とかを追加学習されて、自分の画風で全く別の絵を描かれてしまうということについて懸念を持たれている方がおられます。それが著作権法上どう評価されるのかという問題は別にあるとは思うんですけれども、そういった懸念について、先生御自身の御意見としてはどのように考えておられるか、教えていただければと思います。

【うめ 小沢高広先生】そうですね。法律の部分とは別のところの気持ちとしてそれをどう受け入れるか、受け入れられないかというところはすごく難しいところで、ここは本当に人にはよると思うんですけれども、絶対やめてくれという人もいれば、いや、気にしないよ。確かに日本には2次創作というふうな文化もあって、それが創作者の揺り籠にもなっている部分もあるというところを考えると、十把一からげに駄目ということもできないけれども、それを嫌だという気持ちも大変よく分かるところであります。

なので、そこのところというのは何か軟らかいマナーみたいな形でうまい落としどころに行くといいかなとは思っています。

【澤田委員】ありがとうございます。

【茶園主査】ほかにございますでしょうか。

よろしいでしょうか。

では、小沢先生、どうもありがとうございました。

【うめ 小沢高広先生】ありがとうございました。

【茶園主査】随時、御退室いただいて結構です。

ありがとうございました。

それでは、戻りまして、日本新聞協会様より御発表いただきたいと思います。先ほどはこちらの技術的な問題で御迷惑おかけしてすみませんでした。

新聞協会様、よろしくお願いいたします。

【日本新聞協会(是枝氏)】それでは、改めて4ページ目から説明をしたいと思います。

4ページ目は、平安時代に現れた明るい星「客星」について、読売新聞オンラインの記事とマイクロソフトのBing AIにプロンプトを入力して出てきた回答を比較したものになります。言葉遣い、あと文章構成等もかなり似ているのではないかなと考えておりまして、特に赤い字の部分については元の記事と言葉遣いが一致したものになっております。

続いて、5ページ目になります。5ページ目は有料会員限定のコンテンツを基に回答を生成した事例になります。左側、これは毎日新聞のオンラインの記事なんですけども、右側がグーグルのSGEによる出力結果になります。「ミニラテラルとは」というプロンプトに対しての回答になりますが、実は左の毎日新聞の記事は有料会員限定のコンテンツになっています。有料会員限定ということは、ID・パスワードを入力しないと閲覧できないものです。つまり、自由に使われたくないという新聞社側としての意思表示をしているものについても、かなりの分量を引用した形でAIが回答しているということが分かると思います。

続きまして、6ページ目です。もっと悪質な、コンテンツを盗用する海賊版サイトの記事から回答を生成した事例になります。左側の上の部分が海賊版のサイトで、URLは海賊版サイトということであえて伏せている点を御了承ください。ただ、右側の回答したMicrosoft Bing AIの詳細情報という、引用元が記されているところに、ぼかしているのですが海賊版サイトが記されています。こうした海賊版サイトからも引用しているというのが、我々から見ると非常に悪質なのではないかと考えています。

続きまして、7ページ目です。著作権法の30条の4によって、新聞社・通信社は、AIの学習過程において報道コンテンツの利用を法律上、原則拒否できないとなっています。

robots.txtの設定による技術的な拒否についても限界があると考えております。

それから、実際出てきた生成物をきちんとチェックできるのかというと、膨大な量が出てくるわけで、著作権侵害の有無を一つ一つ確認するのは困難であると考えております。

8ページ目を御覧ください。著作権者である新聞社・通信社に対価は支払われておりません。つまり、データというのは取られ放題だと考えております。30条の4がある限り、報道コンテンツのただ乗りというのは避けられないのではないかと懸念しております。

実際、日本新聞協会だけではなくて、内外の多くの著作権団体が生成AIに対する懸念を表明していることからも分かりますように、それだけ著作権者からすると危機感が強いのだと考えております。

9ページ目を御覧ください。そもそも新聞社・通信社は報道コンテンツに対してどう考えているかということですが、報道コンテンツは多大な労力とコストをかけてつくった貴重な知的財産であると考えております。報道コンテンツを利用するユーザーは新聞社・通信社から許諾を取って対価を支払うというのが大原則だと考えております。

10ページ目ですが、無許諾で学習した著作物、報道コンテンツをベースに、現状、生成AIというのは大量のコンテンツを生成しております。

生成物において、報道コンテンツの表現上の本質的な特徴と類似した表現も多く見られます。

それから、生成物において、いわゆる軽微利用を認めた著作権法47条の5の事例を逸脱するような事例も少なくないと考えております。

しかも、新聞社は、記事データベースを有償で提供しております。最近ではAIの開発にも使えるような情報解析用の記事データ集も販売しております。生成AIによる報道コンテンツのデータ収集、生成AIがデータを蓄積していくということは、新聞社が手がける記事データ販売市場と衝突するのではないかと考えております。

12ページ目は繰り返しになりますが、生成AIによる報道コンテンツの学習は、30条の4のただし書き、「著作権者の利益を不当に害する場合」に該当するのではないかと考えております。

そもそも2018年改正で今の30条の4が導入されたというのは、人の知的、精神的欲求を満たす目的には使わないで、著作権者の収益機会を損なわないことが前提だったはずです。そういう意味では、立法時の趣旨と前提が変わってきているのではないかとも考えております。

我々からすると、生成AIをめぐる問題はプラットフォーマー問題の延長線上にあると考えております。プラットフォーマー問題というのは、例えば低い配信料、スニペットやサムネイル等のただ乗り、検索結果を見て満足してオリジナルを見ないゼロクリックサーチ、不十分なデータ開示などがあります。とりわけプラットフォーマーは規模が大きいので、1社1社の新聞社が対峙する上では交渉力でも大きな格差があると考えています。

そういった問題を全部交えてプラットフォーマー問題と言っていますが、我々としては、生成AIの問題というのは、プラットフォーマー問題の延長線にある、結構根深い深刻な問題であると考えております。

少し話はそれますが、先日、公正取引委員会は「ニュースコンテンツ配信分野に関する実態調査報告書」を公表しました。要するに、独禁法から見てプラットフォーム問題をどう捉えているかというふうに指摘がなされております。

主な指摘事項として例えばニュースポータル事業者、検索事業者はニュースメディアに対して、独禁法上の優越的地位にある可能性があるとの記載がありました。ニュースポータル事業者というのは、例えばヤフー、検索事業者であれば、例えばグーグル、そういったところが対象となります。

先ほどゼロクリックサーチの問題を指摘しましたが、まさに「検索結果を見るだけで、オリジナルのサイトにアクセスしなかったことがある人」が8割に上っているという結果も紹介されており、消費者は、ネット検索においてスニペット等の閲覧だけでニュースコンテンツを一定程度消費していると指摘しております。

ポータルサイトへの配信料についても、広告収入以外の収益への貢献についても反映することが望ましいとしています。

つまり、配信料が安いというニュースメディア側の不満について解決を後押しするような意見かなと我々は捉えております。

続いて、15ページ目に行ってください。それでは公取委のスタンスというのはどういうことなのかというと、まずはプラットフォームがニュースメディアに大きな影響を与えるということ、それから、ニュースコンテンツについては、国民に適切に提供されることは民主主義の発展において必要不可欠だと指摘しています。

それから、この報告書を読めば分かりますが、対プラットフォーマーということで、こういうような団体交渉であれば認められますよということが幾つも複数例示されてあります。本来独禁法というのは、自由競争というか、団体交渉を規制する立場にあるんですけども、その中でもできる範囲を例示するという異例の対応をとっております。

そして、この公取委の報告書では生成AI等が競争に与える影響についても注視していくと言及しています。新聞社・通信社が打撃を受けているということの裏返しであろうと考えられますし、生成AIの問題というのは事態をより深刻化させるのではないかと我々としては考えております。

16ページ目に行きます。生成AIの問題というのは、まさに著作権法の話ももちろん大事ですが、それ以上にもっとより大きな問題を抱えていると言えます。

社会全体にとって大きな脅威というのは、例えばハルシネーション、幻覚と呼ばれるものです。それからディープフェイク、これもどんどん進化しておりまして、見破るのが困難になってきております。

これによって例えば偽情報、誤った情報を学習したAIがさらに偽情報・誤情報を拡散していくおそれもありますし、例えばディープフェイク、ハルシネーション等々が民主主義の根幹の1つである選挙等にも悪影響を及ぼす可能性があると考えております。

17ページに行きます。現状のままでは、生成AIの普及等に伴ってニュース市場が毀損されかねず、さらにニュースメディアが弱体化するのではないかと懸念しております。

それから、ハルシネーション等の問題によって社会が混乱する可能性もあると考えています。

先ほど公取委の報告書の中でも言及いたしましたけども、やはり良質な報道コンテンツは民主主義を支える基盤であると考えており、このまま放置していくとやはり民主主義の危機になるのではないかと、危機感を持っております。

最後、新聞協会として、どう考えているのかということです。少なくとも著作権法30条の4の改正が必要ではないかと考えております。

さらには、AIによる学習を著作権者が拒否できる、もしくは利用時にはきちんと許諾を取ってもらう、そういう仕組みの整備が必要ではないかと考えております。

権利保護もそうですし、データ利活用もそうですし、双方の観点からやはり技術の急速な進化に見合った適切なルール整備が必要なのではないかと考えております。

やはり2018年の法改正時には、こういう生成AIのような高度な高性能なAIまでは多分想定してなかったはずです。その点、技術の急速な進歩に合わせた環境整備が必要なのではないかなと考えている次第であります。

説明のほうは以上になります。

【茶園主査】新聞協会様、どうもありがとうございました。

ただいまの御説明を踏まえまして、御質問、御意見がございましたらお願いいたします。

福井委員、お願いいたします。

【福井委員】いつも最初で恐縮ですけれども、福井でございます。新聞協会の皆さん、お忙しいところ、充実した御発表ありがとうございました。幾つかお尋ねをさせていただければと思います。

まず、最初の類似の例ということで3つの生成例を挙げていただきました。これはBing、それからグーグルSGEということなので、恐らくは検索と生成を組み合わせたサービスであろうと思うんですね。私の理解が間違っていなければ、まずクエリ、質問を入れると、それによってネット上で見つけられる記事を検索する。恐らくその記事をAIにインプットして、AIが要約を作成してくれる。それが表示されていると理解しましたけれども、まずその理解はよろしいでしょうか。

【日本新聞協会(是枝氏)】それで問題ないかと思います。

【福井委員】ありがとうございます。そうすると、今回のこの類似は、主には論点としては、学習よりも生成段階の論点かなと理解します。そうすると、考えるべきは、このぐらいの元記事との要約の類似性は著作権侵害のレベルに達しているか。もし達しているとすると、47条の5で軽微利用が許されているので、これは軽微利用に当てはまるのか。最後に、仮に軽微利用だとしても、これは改変だから許されないんじゃないのかなという論点かなと思いました。

これは重要な御指摘だとは思うんですけれども、そうなってくると、我々は、やっぱり物事を定量的に見るべきだと思うんですね。ここではデータが重要なので、出現率が重要になると思うんです。そうすると、少なくないということを書いていらっしゃるけれども、こういう例はほかにどのぐらいあるのか。特に、どのくらいの回数試みて、どういう出現割合だったのかについて、もしよろしければ、この場か、そうでなくてもデータを教えていただければと思ったわけです。これが1点目。

それから、2点目として、学習はそういう要約能力を持ったAIがいかに生まれるかという話ですから恐らく今回の類似とは別論だと思うんですけれども、そこは30条の4の議論になってくる。この点で、現行の30条の4はちょっと問題あるよということの根拠として、robots.txtというような技術的手段には限界があると書いてあって、ここが非常に興味のあるところなんですね。私の理解によれば、世界最大の文章系の学習用データセットであるコモン・クロールなどはrobots.txtは完全に尊重するというふうに表明しており、ある程度真っ当なクローラはこれを尊重するとも聞いているのですけれども、限界というのは一体何のことをおっしゃっているのか。これが2つ目の質問になります。

最後になるんですけれども、プラットフォーム問題の延長線上にこのことは位置づけられるという視点は、私は実に大変賛成でありまして、その意味でいうと、市場での衝突ということをその前後で書いていらっしゃるんだけれども、新聞社さんの市場と実際にどういうふうに衝突しているのか。これもぜひ定量的にというか、データをもって、本日ではないにしても、お示しいただければ参考になるかなと思った次第でした。

私からは以上です。

【日本新聞協会(竹内氏)】まず福井先生のお尋ねの1つ目、出現率という御指摘でした。これは私どもと加盟社、主だった社で探した中で、本日の資料ではごく典型的な3例のみをお示ししたということであります。

私の手元にはもっとサンプルはあるのですけれども、これらがどういった出現率で現れるかといった定量的な分析は、まだできてはおりません。

今日は、一定数、一定頻度でこういったサンプルが得られたということを御紹介しました。

【日本新聞協会(是枝氏)】2点目のrobots.txtについてですけども、もちろんコモン・クロール等々、大どころのものについてはrobots.txtで拒否できることは分かっておりますし、実際にそれを設定して拒否している新聞社も当然あります。

一方で、robots.txtを超えて、それを無視して収集してしまうものもあると理解しています。

それから、さらに言いますと、ほとんどの新聞社はヤフー等々外部の配信先に有料で記事を配信しております。それについては、外部の配信先の判断によりまして、新聞社がコントロールできない状態です。

それから、さらに有料の配信先どころか、先ほども紹介したように勝手に転載しているサイトもありますので、そこからデータを収集されてしまう。そういうことから限界があると指摘した次第です。

【日本新聞協会(福山氏)】今の是枝さんの話に補足しますと、分かりやすいのは、例えばウィキペディアなんかを御想像いただくと、新聞社の記事がかなり使われています。新聞社の記事は、自社サイトだったら1日で消えたり、あるいはヤフーさんなんかに配信しているものだったら一、二週間で消えたりするわけです。ある程度正当な引用であっても、ウィキペディアに引用される形で、部分的に大量に積み重なって残っている場合がございます。そこにクローリングされると我々からはコントロールできないという、こういった細かい例がたくさんあるので、事実上どこまでコントロールできるのかという問題が1つございます。

それから、いろんなクローラがこれから出てくる中で、我々が全てのクローラにオプトアウトするか、取らないでくださいと全部登録できるかというと、これも物理的に可能なのかというところもまだ見えない部分がございます。

【日本新聞協会(竹内氏)】御質問の3点目です。プラットフォーム問題というのは御賛同いただいたということ、ありがとうございます。私どもが販売している記事データ、コーパスなどとの具体的な衝突ですね、これも定量的な分析が宿題だろうということは承りました。

一方で、記事コーパスを大学とか研究機関などにお売りする際、目的が公共的だったり、非営利目的であったりする部分もあり、販売額は割とお求めやすい価格を設定している例もあります。それゆえ、必ずしも営利目的で売られている市場との衝突が想定しにくい面もあります。

したがって、市場規模、具体的な衝突の実相を調べよということは、宿題として承りつつ、なかなかその辺の難しさもあるのかなと考えたところです。

以上です。

【福井委員】ありがとうございました。やはり法制度論というのは、どんな場合でも影響がゼロか100かという二分法では非常に難しいので、どのぐらいのインパクトがあるかということを伺えないと議論がしにくいわけですね。その意味で、新聞協会さん、非常にデータをお持ちだからこそこういうことをお願いしてしまうわけですけれども、ぜひrobots.txtの限界等についても、繰り返しなりますが、定量的にこのぐらいのインパクトがあるんだよということを伺えるといいなと思うんですね。中には従わないクローラがいる。それはそうだろうと思うんです。でも、それは大勢にどのぐらい影響があるかというようなこと、あるいは、ウィキペディアから引用部分をクロールされてしまうと。なるほどなと思ったわけですけれども、それが一体大勢にどのぐらい影響があるか、可能な範囲で結構ですので、教えていただければ、検討しやすいなあと思いました。

最後に1点。ヤフーさんはコントロールできないというお話が出ましたが、ヤフーさんにおいて我々の提供する記事を不本意な学習から守るためにこうしてくださいというような交渉は、ヤフーさんとの間ではされましたか。

【日本新聞協会(福山氏)】契約の内容に関わってくるので、多分これからだと思います。急速な技術的な発展を想定してあらかじめ契約条項に盛り込んでいるわけではないので、福井先生御指摘のとおり、これからそういったことをヤフー側と相談していくことになろうかと思います。

それと、すみません、先ほどの福井先生の御指摘、ごもっともだと思います。ある程度、実証データを持って根拠を示していくのは我々も可能な限りやっていきたいと思いますが、懸念が2点あります。1点目は、大体そうしたデータは、プラットフォーマー側やAI開発者・運用者側にあることが多くて、どうしても我々からデータを指し示すというのは限界があります。これがまさにプラットフォーマー問題であるゆえんでもあります。2点目は現在の利用量と将来的な利用の拡大という観点です。AIが社会に浸透し、いろんな場面であらゆる人が使えるようになった状態と、現在の生成AIが出始めて試しに使っている状況では、大分違うと思います。まだ始まりの段階なので、将来予測みたいなところが変数として見えにくいこともあり、将来的にこういうリスクがあるんじゃないかというのはなかなか実証しづらい、といった性質もお伝えしておきます。

【福井委員】おっしゃること、よく分かります。どうぞ今後の情報提供についても期待をしておりますので、よろしくお願いいたします。

私からは以上です。

【茶園主査】では、島並委員、お願いいたします。

【島並委員】神戸大学の島並でございます。新聞協会様におかれましては、今日は御報告ありがとうございました。

私からは、生成面ではなくて、学習面に絞って2点お伺いをいたします。まず1点目ですけれども、具体的にどういうことをお望みなのかという点に関わります。つまり、一方では、スライド12ページでは、30条の4のただし書に報道コンテンツの学習は該当するとおっしゃっておられ、他方で、18ページでは改正が必要だという御主張が含まれております。

御案内のとおり、ただし書に該当しますと権利制限はなされず、原則に戻って学習そのものが違法だということになりますので、法改正は必要ないという結論になりそうですが、なお改正を求めておられるということでは、結局12ページと18ページはどういう関係にあるのか。つまり、具体的に何を御期待されているのかということを教えてください。

それから2点目です。スライド1枚戻りまして、11ページですけれども、AIの学習によって新聞社が手がける記事データ販売市場と衝突するというお考えは肌感覚としては非常によく分かるのです。確かにそういう面があるだろうなと思うのですけれども、仮にそういたしますと、要するにお金の話ですので、AIによる機械学習を幅広く一方では認めながら、他方で何らかの形で対価が新聞社に還流するような制度づくりをすれば足りるようにも感じるのです。しかし、今日のお話ですと、たとえば18ページには許諾権そのものが必要なんだという御主張が含まれておりますし、12ページのように、ただし書に該当するということであれば、著作権の侵害となる学習は拒否できると、やはり許諾権そのものを手にしたいという御主張もされています。

そこでお伺い致しますが、あくまで禁止や許諾をする権利までが必要であって、対価が還流されるだけでは足りないのだという御主張をもしお持ちだということであれば、その理由について何かあれば教えてください。

以上2点です。

【日本新聞協会(福山氏)】まず2つ目の御質問で、対価の還流があっても、なお権利を確保するのかというところ。我々、相手が大きいというか、プラットフォーマー問題に類すると見ているので、なかなか交渉力の格差があって、我々が望むような対価が果たして本当に実現されるのかという、その辺の未知数なところがございます。

したがって、ある程度強い権利を、オプトアウトするとか、許諾を拒否するとかという、そういう権利を確保しないとまともな交渉にならないのではという危惧がございます。

それから、1点目の12ページと18ページの整合性のお話なんですけども、これ先生が御指摘のとおりかと思うんですが、まず12ページで申し上げているのは、やはり30条の4の解釈が非常に曖昧なのではないかと、これが我々の問題意識でございます。

したがって、我々権利者側としては、この曖昧な部分を、我々のビジネス上、必要な範囲で読み解いてこういった主張をしています。しかし一方で、開発者側も彼らにとって都合のいいように解釈して、これは権利制限に当たるんだと恐らく言っているわけです。

したがって、我々としては、今ある現行法に基づいて我々の主張をするんだけれども、どうしても曖昧性というものが残るんだとすれば、18ページ記載の法改正そのものが必要なんじゃないかと、こういう2段構えで本日御説明差し上げています。

【島並委員】差し当たり了解いたしました。ありがとうございます。

【茶園主査】ほかにございますでしょうか。

上野委員、お願いします。

【上野委員】上野でございます。新聞協会の皆様、本日は大変有益なお話ありがとうございました。具体的な事例もご紹介いただき、この問題に関する問題関心がよく分かったかと思いますので、今後の文化庁さんにおける議論においても参考にされることと思います。

今の島並委員の御質問とも関係するんですけれども、御提案なさっている30条の4の見直しの具体的内容について、二点ほどお伺いしたいと思います。

今日のプレゼンでは、「生成AI」の学習のために新聞記事を用いることを問題にされた上で、30条の4の見直しの御提案をされていますので、「生成AI」が御議論の中心かと思いますけれども、30条の4が対象にしている「情報解析」というのは、大量の情報を解析して何らかの知見を得ることでありますので、生成AIのための学習だけではなくて、何らコンテンツを生成しないような「非生成AI」、例えば自動運転AIや画像認識AIといった非生成系AIのための機械学習も含まれますし、またそもそもAIとは関係のないような情報解析もあるかと思います。例えば、SNSの書き込みを大量に学習して、将来何が流行するかを予測するようなことも情報解析であります。そうした情報解析が非営利で行われる場合もあります。

さらに、30条の4は、2号は情報解析ですけれども、1号は技術の開発のための試験の用に供する場合の規定でありまして、例えば、営利目的で新聞記事をOCR技術の開発のために使うというような具体例が挙げられておりまして、これもおっしゃるような報道コンテンツの無断利用に当たるのではないかと思います。

このように生成AIの学習のために新聞記事を用いる場合以外にも様々なものがある中、御提案としては、あらゆる情報解析について、あるいは情報解析以外の非享受利用についても、全体的に30条の4を見直すべきだというお考えなのでしょうか。もし、あらゆる情報解析あるいは非享受利用一般について権利者の許諾を要するように改正するとか、オプトアウト可能なように改正するということになりますと、これは非常に影響ないし波及効果が大きいように思います。

もちろん、今日のお話を伺っておりますと、新聞社・通信社の報道コンテンツというものが多大な労力とコストをかけてつくった貴重な知的財産であるとおっしゃっていて、あくまで報道コンテンツというものを対象に同条の見直しを主張されているように思いますので、だとすると、そうした新聞記事や報道コンテンツの特殊性に鑑みて、これを「生成AI」の学習のために利用する場合に限って、権利者のコントロール下に置くべきと主張されているようにも聞こえたところであります。

そこで、30条の4のどのように見直すことを提案されているのかを確認するために、どのような著作物のどのような利用について見直すべきとお考えなのかということについてお尋ねする次第でございます。現時点ではそこまで提案内容が決まってないということかもしれませんけれども、もし何かお考えがありましたら御教示いただきたいと思います。

2点目は、短い質問です。冒頭で御紹介いただきました「報道コンテンツの無断使用が疑われる事例」というのは大変興味深いもので、もちろん創作的表現の共通性が認められるようなケースかどうかは議論があるところかと思いますけれども、いずれもマイクロソフトとかグーグルといった外国企業の例であると承知しております。そうすると、仮に日本の30条の4を改正して、こうしたAI学習のための著作物利用について権利者の許諾を要するものとした場合、そのような改正によって、新聞社等がマイクロソフトやグーグルによる情報解析を禁じることができるようになる、そういうお考えと理解してよろしいでしょうか。もちろん、これは非常に難しい問題なんですけれども、基本的に日本法は日本における情報解析に適用されると考えられますので、仮に御提案のような日本法の改正が実現したとしても、御懸念の解消あるいは問題の解決につながるのだろうか、という点が気になったものですから、お尋ねする次第でございます。

以上でございます。

【日本新聞協会(竹内氏)】上野先生、御質問ありがとうございます。

まず1点目のお尋ねは、多分先生の御指摘のとおりで、私ども、何か非享受目的の記事解析まで止めようということではありません。例示くださったOCRの読み取り精度の向上とか、そういったものに記事が使われることはあり得るだろうと想像いたします。あくまでも、今、生成AIが行っている学習がそのまま生成に直結しており、スライドの12ページにありますとおり、人の知的、精神的欲求を満たす目的に使われており、これは記事の本来的利用に近い態様での出力、生成が行われていることを問題視しているというふうに御理解いただければと思います。

それから、2点目の日本法の改正の限界という点は、おっしゃるとおりだと理解しています。

【上野委員】ありがとうございました。1点目については、ご提案の見直し対象は「生成系AI」の開発のための情報解析だけ、そして新聞記事だけということになるんでしょうかね。あるいは新聞記事以外についても改正すべきだということかも知れませんが、他のジャンルについては御意見をおっしゃりづらいのかもしれませんね。すみません。非生成系AI、つまり何らのコンテンツも生成しないようなAIについては特段改正を要しないという御意見ですかね。

【日本新聞協会(竹内氏)】まさに、ご説明があったような元の著作物をパラメータに分解して抽象化・断片化するにとどまる、非享受目的の解析であれば問題ないと承知しております。

【日本新聞協会(福山氏)】補足いたします。どういうふうに具体の法律を、30条の4を直していくかというのは、非常に高度な法的な技術論が必要かなと思いますが、もちろんそこに我々もこうして参画させていただいて、プロの皆様と一緒に考えさせていただきたいと思っています。あくまで原則で申し上げると、やはり我々がやりたいことは、良質な記事を社会に提供し続ける、再生産し続けるということが持続できればいいと、その1点でございます。

したがって、AIが広がることにより、我々の財政基盤に一定のインパクトを与えて、良質な記事を出すことが難しくなるということは避けたいところです。

なので、どこまで何を求めるかというのはありますが、それがクリアになるような法律構成だといいなと思っています。我々はどちらかというと、全く我々の記事を使うなというよりは、ぜひ一定の対価の還流の下で社会の皆様に使っていただいて、よりAIがすばらしい進歩を遂げるということに対しては肯定的です。その辺りの基本方針をお酌み取りいただけますとありがたいと思っております。

【上野委員】どうもありがとうございました。

【茶園主査】羽賀委員、お願いいたします。

【羽賀委員】羽賀でございます。

新聞協会の皆様、大変ありがとうございました。御懸念等々、大変勉強になりました。大きなところをうまく私が理解できていないのでお教えいただければと思うのですけれども、とりわけ頂きましたレジュメの16から17ページの「大きな影響」のところに関心を持っております。先ほど上野先生、また島並先生の質疑でおおむね伺ったかとも思うのですが、現行法、とりわけ日本法のみでは限界があるというお話がありました。では、報道コンテンツ利用について、生成AIについても、新聞業界として最も望ましい形というのは一体何なのでしょうか。対価さえもらえれば使ってもいいよ、となるのかどうかをお伺いしたく思います。と申しますのは、先ほど30条の関係で拒絶権の話が出ていたんですけれども、情報がきちんとAIに入らないとなりますと、情報の偏り、あるいは誤った情報が促進されてしまうのではないかという印象をもちまして、そのような状況はむしろ望ましくないと新聞協会様も思われるのではないかと考えました。

ですので、率直に、一旦細かい条文とか解釈はおくとして、どのような形が望ましいと思っておられるのかということを御教示いただければと思っております。

【日本新聞協会(福山氏)】なかなか大変な御質問をいただいたなと思って、今、我々考えあぐねているところではございますが、大きな流れが2つあると思っております。我々のコンテンツが何らかの形でAIによって流布することによって、我々の財政基盤が脅かされる。その結果、我々の取材活動とか報道がしにくくなるという、こういうルートが1つあります。これについては、先ほどの対価性の問題で、一定程度カバーできないかなというのが我々の主張でございます。

2番目、さきほど先生が御指摘の偽情報とか誤情報は、対価性の問題とは全く別のルートだと思っていまして。我々は大体140年ぐらい、この商売やっていますけども、日常の報道において、間違った情報とか、そういったものを打ち消したり、検証したりということを常にやっております。AIによって非常に深刻なデマとか、そういったものが出回った場合は、それを打ち消すことを日常の報道によってやっていくというのがまず1つの対策です。一方で、そもそもこうしたハルシネーションとかディープフェイクというのが起こらないような、技術的なのか、あるいは倫理的なのか、法的な枠組みなのか、一定程度たがをはめていくということも入り口の部分で必要なんだろうと思っています。ただ、これは新聞社の仕事として直接できるところではなく、我々はあくまで出たものを打ち消すようなところはやれますけども、生成AIの仕組みの上流の部分については、ちょっと今なかなかお答えしづらいところがございます。

【羽賀委員】どうもありがとうございます。

【茶園主査】ほかにございますでしょうか。

早稲田委員、お願いいたします。

【早稲田委員】大変貴重な御発表ありがとうございました。私も先ほど皆様から御質問があって、もう既にお答えになっているのかもしれないのですが、30条の4のところで、やはりこれ生成AIというところが1つのポイントなので、そういう意味で、福井委員のほうでおっしゃっているのは、検索と生成で、生成のところで元の著作物がストレートに出てくるように見えるというところが問題なのではないかなあというのが1つでございます。

御質問なのですが、今の羽賀委員のほうでおっしゃったように、対価性の問題ですと、なかなか新聞記事とそれからBing等の出てくる回答というのをパラレルに普通の人は考えないんじゃないかなと思っておりまして、コーパスの売却やライセンスという意味では、そこで非常に市場がバッティングする可能性があるのかなと思ったんですけれども。そこで、Bing等の回答は、ただで使ってほしくないという御趣旨なのか、それとも、新聞協会の加盟新聞社さんが出されている新聞のコンテンツとほぼほぼバッティングするんだというような御主張なのかというのをお聞かせいただきたいと思います。

【日本新聞協会(竹内氏)】早稲田先生、ありがとうございます。今御指摘の点は両方あると思っております。例として名前を出して恐縮ですけども、Bingなどに私どもの記事をそのまま使ってほしくない。使うんだったら対価をということはあります。

今日の例示になかったかもしれませんけれども、私どもの複数の記事をつなぎ合わせたような回答文を、AIはやすやすとつくってしまいますので、そうしたことは非常に困るという実態はございます。

それから、2点目の御指摘であったコーパスですね。これは現に言語処理などの研究機関などに販売実績がありまして、AI開発に何回も活用されていると承知しています。そうした市場がありますので、そういったコーパスを使ってAI開発されたいという企業様にはきちんと御購入いただきたいということをスライドでは申し上げています。先生御指摘の2点は、いずれも私たちの要望というか、主張だと御理解いただけたらと思いました。

【早稲田委員】ありがとうございます。

【茶園主査】では、澤田委員、お願いします。

【澤田委員】委員の澤田です。御発表ありがとうございました。先ほど発表の最後のほうで2018年の改正当時想定していなかった高性能なAIが出てきたというお話がありました。2018年の改正当時からAIによる機械学習というのは30条の4の典型例として挙げられていたという認識ではあるんですけれども、その当時に想定していたAIと今出てきている生成AIというのが具体的にどのように違うという御認識なのかというところについて御意見を伺えればと思います。

【日本新聞協会(福山氏)】その当時からずっと見てらっしゃる先生方の前で具体的にここがというのは難しいところもございますけども、例えばで申し上げますと、18年の改正時には、有名なレンブラントプロジェクトとか、ああいったもので現在の原型となるものは当時一定程度想定されていた部分はあろうかと思います。

ただ、レンブランドプロジェクトの際は生成に、1枚の絵をつくるのに数十時間とか、あるいは500時間かかったという報道もありました。それが今は性能が全然違っています。

それから、ユーザー側にとってもコストや時間が違います。ウェブを介して、一般の人が、子どもまで簡単に使えるようになって、ここまで人口に膾炙して使われるというのはどこまで想定されていたのかというのは単純な疑問としてございます。

オフィスであるとか、あるいはそれぞれの家庭の中で、どんなニュース関連のキーワードを入れて、先ほどの例でお示ししたような、ほぼ我々の記事に近いような形で生成されているということが覚知できない。それが世界中で大量に行われていることが容易に想像できますが、こうしたことまで本当に当時想像していたのかという疑問はございます。

【澤田委員】ありがとうございます。御意見よく分かりました。

【茶園主査】よろしいでしょうか。福井委員。

【福井委員】すみません、2度目の福井ですけれども、大事なところなので、最後確認させていただきたいんですけれども、今回お示しいただいた3つの類似例は、いずれも検索と生成を組み合わせたもので、よって、新聞記事がインプットされて、それがAIによって要約されたから似たものが出てきたというケースですよね。

30条の4によって、学習したことによって何か既存の記事と似た記事が生まれてしまったという例は今回はお示しいただいていないと受け取ったんですけれども、これ自体は理解としてよろしいでしょうか。

【日本新聞協会(是枝氏)】それで問題ないかと思います。

【福井委員】ありがとうございました。

【茶園主査】どうもありがとうございます。

新聞協会様、どうもありがとうございました。御発表者は随時御退出いただいて結構です。

それでは、資料2に基づきまして、情報通信研究機構様より御発表いただきたいと思います。御登壇いただきますのは、情報通信研究機構フェローの鳥澤健太郎様、同機構ユニバーサルコミュニケーション研究所顧問弁護士の川内康雄様、総務省国際戦略局技術政策課研究推進室長の高橋文武様でございます。

それでは、鳥澤様、どうぞよろしくお願いいたします。

【情報通信研究機構(鳥澤氏)】情報通信研究機構、NICTの鳥澤と申します。私ども、国立の研究機関でありまして、生成AIの一種であります大規模言語モデルを現在開発しているところであります。著作権侵害は非常に深刻な話だと思っておりまして、日々悩んでおるところでございますが、その辺の悩んでいる状況等を御披露させていただければと思います。

まず、大規模言語モデルについて簡単に技術的内容を御紹介したいと思います。大規模言語モデル、ここで取り上げますのはGPTと呼ばれるタイプのものだけでありまして、今後別種の同様のモデルが出現した場合には再度検討が必要になりますし、先ほど来お話が出ております検索エンジンの結果を大規模言語モデルに入力して何らかのテキストを生成するといったタイプの処理とは若干話が異なりますので、御注意ください。

まず、GPTという大規模言語モデルなんですけれども、ここの図にありますように、極めて複雑な格好をしております。これを極めて単純化しまして、専門家には怒られそうな単純化なんですけれども、図式的に説明をしたいと思うんですけれども、仮に「エーゲ海での新婚旅行のプランは」という入力を大規模言語モデルに入力してみますと、基本的にはその続きのテキストが生成されます。まずやることは、各単語を、ベクトル、ここでは黄色い四角で表現しておりますが、これに変換します。これ、学習の初期段階では乱数で決めますので、かなり最初はいいかげんな値だということです。

まず、単語ごとにこのベクトルを徐々に上に上げていくんですが、その上に上げていく過程で周辺の単語の情報をある種融合していくと。こういう作業を数十回から数百回繰り返すというのが基本的な動作になります。

続きの単語を生成したいわけですけれども、最後、1つ前の単語、この場合ですと「プランは」の「は」がそれに相当しますけれども、この出力のベクトルをもとに辞書にある全ての単語が次の単語として出現する確率を計算します。基本的にはですが、その中で確率最大の単語を次の単語として生成するという仕組みです。

辞書と申しましても、実はそんなに大きくなくて、数万語から数十万語、それらの辞書にないものは未知語として扱うわけなんですけれども、これらの単語それぞれについて確率を計算しまして、このケースですと「エーゲ海」の確率が一番大きいので、続きは「エーゲ海」だと、こういうふうにしてテキストを生成する。こういうことを繰り返すことで長いテキストが生成されます。

ここで、学習はどうやってやるかということなんですけれども、学習データ中に正解のテキストがあるわけですけれども、ここに出てくる単語の確率が高くなるように、ニューラルネットの重みや単語のベクトルを修正していきます。これを大量の正解テキストに繰り返します。例えば学習データ中の正解テキストが「エーゲ海での新婚旅行のプランはクルーズ船がおすすめ」であったとすると、「クルーズ」「船」「が」といったような単語が続く確率が高くなるように様々な重みですとかベクトルを微調整していくと、そういったのが基本的な学習の操作となります。

というわけで、大量の正解テキストを参照しながら単語の確率を徐々に大きくしていくんですけれども、特定の1つの正解テキストのみに基づいてある特定単語の確率を直ちに最大にするわけではありません。つまり、正解テキストをそのまま出力することを学習させているわけではないというわけです。

このため、仮に学習データ中のテキストXがあたかも丸ごとコピーされて出力されたように見えるとしても、Xを用いた学習のプロセスとXが丸ごと出力されることの間の因果関係は実は明確ではないということです。

続きまして、こういった学習が終了したときに単語のベクトルはその単語の用法や意味を反映していると考えられるんですけれども、具体的にどのように反映しているか。こういった解析は極めて困難で、誰も成功していないという状況であります。

また、ここ御注意いただきたいんですけども、ネットワーク内の処理、ニューラルネット内の処理というのは、学習はベクトル、数値計算だけで行われていまして、いわゆる文字列、学習データ中の文字列を切り貼りするような操作は一切していません。

実は私、AIの研究、30年近くやってきているんですけれども、この程度の学習でむしろ意味の通るテキストが出力されるほうが不思議で、さらには、常にというわけではないですけれども、抽象的な概念、アイデアまで学習して、それに基づいてテキストを生成しているという印象すら持つという状況でございます。

学習データと出力の間の因果関係が極めてややこしいという話をさせていただいたんですけど、それをもう1点補強する材料をここに書かせていただいております。ここで学習ステップの12,345回目で「エーゲ海での新婚旅行のプランはクルーズ船がおすすめ。」この正解データで学習したとします。この学習の直後にこのテキストを丸ごとコピーして出力できることに仮になったとします。でも、その後、学習を延々と続けまして、そこには「クルーズ船」とか「新婚旅行」といった先ほどのエーゲ海云々のテキストに出てくる単語も出てきまして、その単語が出てくるたびに単語のベクトルは更新されるということになります。

したがいまして、「エーゲ海での新婚旅行のプランはクルーズ船がおすすめ。」と、一旦丸ごとコピーできるようになったとしても、その後の学習でその辺はまた状況が変わっていくということになります。

なので、恐らくですが、技術の内容が分かっていてやるべきことをきちんとやっているという前提は必要なんですけれども、仮に学習データ中のテキストが丸ごとコピーされる、あるいはそれが多発されるというような状況が起きるとすれば、同一のテキストを何度も繰り返して学習するとか、あるいは、非常に偏って収集された非常に少量のデータだけで学習する等の条件が重なる必要があると、そういうふうに推測をしております。

これは1つの傍例ですけれども、我々幾つかモデルを同一の学習データでつくっておりますけれども、同一の学習データでつくったにもかかわらず、出てくるテキストは全部違うということですね。この辺は極めて解析、分析するのは難しいという状況です。

ここで少し話題を変えまして、我々、著作権侵害を防ぐためにある手だてを講じようとしているわけですけど、それについて御紹介をさせていただきます。

まず入力は、トマトソースのスパゲティのレシピを聞いていますが、こういうプロンプトを入れますと、箇条書でレシピが出てまいります。そうしますと、ここに赤線が出ているんですけれども、「フライパンにオリーブオイルを入れ、ニンニクを炒める」に赤線が引かれていますが、これは学習データ中に極めて類似したテキストがあったということで、この赤線をクリックしますと、学習データテキスト中のテキストの一部がこのテキストを取ってきたURLとともに表示されるということです。

こういった仕組みでもって著作権侵害のおそれというのをある程度検出することができるのではないかなと思っているところでございます。

もう一遍、しつこいですけれども、ダイアグラムで説明しますと、まず、学習データから学習した大規模言語モデルがあります。それが生成したテキスト、②ですけれども、「フライパンにオリーブオイルを入れ、ニンニクを炒める」というテキストがあるとしますと、これと学習データの間の類似性というのをテキスト間の編集距離、これは後ほど説明いたしますけれども、それに基づいて評価をしまして、編集距離が極めて近いテキストがあった場合には先ほどのように赤線を引くということになります。

ここで編集距離とは何かということを簡単に説明したいんですけれども、編集距離といいますのは、今、ここに例でテキスト1とテキスト2という2つのテキストが書かれておりますが、これらの間の近さを計算する一種の距離であります。この心は、テキスト1からテキスト2に至るまでに何回単語の置換、削除、挿入をしなきゃいけないか。そういった回数を積算しまして、その積算の値を距離とみなす。そういう比較的単純なものでございます。

先ほどの赤線を引くメカニズムも、この編集距離を使って、学習データ中のテキストと生成されたテキストの間の距離というのを評価しているということになります。

ただ、これ、実際に実用化するに当たっては様々に詳細な設定を決める必要がありまして、編集距離が一定の値よりも近ければというような条件でチェックをしたいわけですけれども、その閾値はどう決めるのかと。あるいは、先ほど御説明した編集距離の計算の仕方で、例えば単語を置き換える場合と挿入する場合で同じ重みでいいのかどうかとか、あるいは著作権侵害チェックをする単位は丸で終わる文でいいのか、それとも長い文は分割して評価しなきゃいけないのかと、こういったような詳細を決めなければいけないということになってきます。

また、そもそも技術的に困難な課題もまだいろいろあると思っていまして、例えばあるテキストに創作性が認められるのかどうなのか。これも現状の技術では認定、判断するのは困難かと思います。

また、同義語でテキストを置き換えられている。先ほどの編集距離では、単語というのは一致しているか、一致していないか、二者択一だったわけなんですけれども、同義語みたいなものが出てくると話は厄介ですし、翻案への対応というのも現状どうしたらいいかといったところを悩んでいるというところでございます。

こういったいろんな困難があるんですけども、ちょっとややこしいのは、技術者的視点ではこういった問題に対処するには実は大規模言語モデルが技術的手段としては最良でありまして、ある意味、鶏が先か卵が先かみたいな話になりつつあるのかなと、そんなようなことも思ったりするわけでございます。

また、技術が仮にできたとして、ユーザーへの提示方法ですとか、あるいは、仮にこのテキストは著作権侵害があると認定されたときに、そのテキストを生成しない、ユーザーに見せないという判断をした場合には代わりのテキストを生成する必要が出てくると思うんですけれども、これは無理筋のテキストを生成することになりますので、品質が低下したりハルシネーションが増えたり、こういったようなことが起き得るのかなと思っています。

また、最も深刻なのは、今、いろんなベンチャーさんが大規模言語モデルに挑戦していますけれども、ある種の検索エンジンを脇に置いておかなければいけないものですから、実際に運用コストが増大してビジネス上、不利になる。なおかつ、プラットフォーマーなんかは検索エンジンに非常に強みがありますので、そこと競争しなければいけない、あるいは制度上、外国ではこういったツールの設置が義務づけられないとすると、コスト面で不利になると。そういったような課題があるかなと思ってございます。

ここで終わりとしますけれども、大規模言語モデルの学習プロセスを概観しましたけれども、学習データ中のテキストが丸ごとコピーされたとしても、コピーと学習プロセスの間の関係というのはそれほど単純ではありませんということです。

また、著作権侵害チェック支援ツールというのも紹介させていただきましたけれども、いろいろ技術的課題ですとか社会的課題、いろいろあるなと思っております。

引き続き技術的課題や法的議論等、今回のこの議論も非常に参考になりますけれども、を踏まえつつ、著作権侵害防止に資する研究開発を実施してまいりたいと、そのように考えております。

私からは以上になります。

【茶園主査】鳥澤様、どうもありがとうございました。

では、ただいまの御説明を踏まえまして、御質問、御意見がございましたらお願いいたします。

では、中川委員、お願いいたします。

【中川委員】中川でございます。御説明ありがとうございました。1点、御質問でございます。もう既にお話しいただいたところの確認になってしまうかもしれませんが、最後のまとめでもお話をいただきましたように、仮に学習データ中のテキストが丸ごとコピーされて出力されたとしてもテキストの存在とコピーの間の因果関係が不明確であると御説明いただいております。この不明確の趣旨ですが、不明確なんだけれども、ある程度の蓋然性はあるよというような説明だったらできる余地があったりするのか、逆に言うと、技術的に完璧な説明ができないことを誠実に表現しようとして不明確とおっしゃっているのか、それとも、そもそもそういった説明自体が非常に困難で、蓋然性のある・なしみたいなことを言うのも難しいんだよという御趣旨なのか、その辺り、ちょっとイメージが持てればということで御質問でございます。

【情報通信研究機構(鳥澤氏)】どうもありがとうございます。あえて言うのであれば、3つ目ですかね。つまり、コピーがなされたとして、それは学習プロセスのゆえんであるというようなことを証明することも難しいということかと思います。その逆もまたしかりですかね。お答えになっていますでしょうか。

【中川委員】ありがとうございます。理解いたしました。

【茶園主査】ほかにございますでしょうか。

では、福井委員、お願いいたします。

【福井委員】まずは非常にクリアな御説明ありがとうございました。私、個人的にも大変勉強になりました。

やはり最後の編集距離のところ、恐らく興味を持たれた委員の方は多いと思います。これも全くのコメントなんですけれども、その問題点の把握も極めて正確でいらっしゃると思います。つまり、単に各要素の文字数の置き換え等の基準では少なくとも従来の著作権侵害の議論のレベルには達しておらず、個別の要素の創作性の認定という極めて文化的なコンテクストのある判断、また、同義語の置き換えの範囲、また、同義語の置き換えの創作性、こういったような要素が様々に絡んでくるであろうなと思います。これらを課題と感じつつも、この研究の今後に熱い視線を送りたいなと個人的に思いました。

私からは以上コメントです。

【情報通信研究機構(鳥澤氏)】どうもありがとうございます。なかなか難しい問題が多いんですけれども、よろしくお願いいたします。

【茶園主査】ほかにございますでしょうか。

では、𠮷田委員、お願いいたします。

【𠮷田委員】大阪工業大学の𠮷田でございます。貴重なお話ありがとうございました。

私からの質問ですけれども、テキスト間の類似性を評価するアルゴリズムのところがあったかと思います。スライドでいいますと16だと思います。そこの類似性を判断するところで、編集距離、レーベンシュタイン距離ということを実際に挙げていただいていたんですけれども、こういう類似性をはかるほかの評価としては、何かこれ以外のもので検討されているようなものというのはございますでしょうか。

【情報通信研究機構(鳥澤氏)】すみません、私、法律の専門家ではないんですけれども、著作権の侵害というのは割とテキストの表層に近いところの話であって、アイデアであるとか、そういったものというのは著作権の保護の対象にはならないと伺ったことがあります。

編集距離をここで言わせていただいたのは、そういう意味でテキストの表層に近いところの距離を扱うものであるからであります。

一方で、例えばテキスト間の意味的な近さですね。表層の字面は全然違うんだけれど、ほぼ同じことを言っていると。そういった判断をするのは、実はこれ大規模言語モデルが得意とする、あるいは現状では大規模言語モデルが最良の手段になる話であります。

最近研究のトレンドとしましては、どちらかというと大規模言語モデルを使ってそうした意味的な近さ、アイデアの近さみたいなのを判定するところに研究のフォーカスは当たっているのかなと思っておりまして、その辺は著作権侵害とはちょっと距離があるのかなと感じております。

お答えになっておりますでしょうか。

【𠮷田委員】ありがとうございます。

【茶園主査】ほかにございますでしょうか。

では、早稲田委員、お願いします。

【早稲田委員】大変貴重な御発表ありがとうございます。大変勉強になりました。質問ですが、18ページに書かれている著作権侵害チェック支援ツールの技術的課題2というところの3点、これは本当におっしゃるとおりだと思っていて、こういうものを今のところ、チェックして、出力されても、これが著作権侵害になるかどうかというのは、人間、裁判官とかが判断しなきゃいけないところ、今はそうなのかなと思っております。

それで、4ポツ目の、こういう場合、それでもある程度課題を解決できるのは、抽象的な表現にも対応できる大規模言語モデルというのを今検討されていて、それであれば、この3つとか、そういう問題もある程度解決できるというようなお考えでいらっしゃるのでしょうか。

【情報通信研究機構(鳥澤氏)】これ、解決できるというのはどこまでというふうに、どこまでをもってして解決と言うかとも関係してくると思うんですけれども、例えば90%の精度でもって判断する、こういったことは恐らく将来的にできると思うんですけれども、100%の精度というのはこの種の技術では今まで達成されたことがありませんで、今後も達成できないんじゃないかと思っています。

ですので、あくまで支援ツールにとどまる可能性もあるのかなとは思っておりますが、使い方によっては有用なものになるのではないかなと思っております。

【早稲田委員】ありがとうございます。その後の19ページにも書かれていたように、これを全部排斥してしまうと、生成テキストの品質低下という問題があるというのはそのとおりなので、例えばチェックをしたところで、それを利用者にこういうところが似ているよというような提案をすると、そういうふうな使い方が考えられるんでしょうか。

【情報通信研究機構(鳥澤氏)】そうですね。1番目で「学習データ中の類似テキストと警告を提示するだけでいいか?」と、ここで書かせていただいているのが、まさにおっしゃったとおりの使い方になるかと思うんですけれども、この場合ですと、企業が大規模言語モデルを使って第三者にサービスとしてテキストを出す場合には、そもそも著作権侵害のおそれのあるテキストは第三者に提示されてしまうので、著作権侵害を結果として防げないということになるのではないかということをちょっと心配しております。

【早稲田委員】ありがとうございます。

【茶園主査】ほかにございますでしょうか。

では、中川委員。

【中川委員】すみません、もう1点御質問させてください。学習自体を著作権侵害とすべきかどうかということがまさに議論されているわけでございますけれども、仮に学習が著作権侵害だという、そういう前提に立ったときに、従来の著作権法の枠組みで考えると、違法に学習したもの、違法に複製したものは消去してくださいという請求を著作権者ができるというのがこれまでの一般的な考え方なのかなと思っておりまして、ただ、今日お話しいただいたようなことも踏まえても、学習済みのモデルに対して違法に学習されたものだけを消去してくださいという要求が果たして実現可能なのか、それはどういう技術的な困難性を伴うものなのか、その辺りについてお伺いできればという御質問でございます。

【情報通信研究機構(鳥澤氏)】学習したテキストに何か法律に違反するようなものが含まれていたとして、それを学習済みのモデルから取り除く技術というのは私の知る限り存在しません。それに近いことをやろうとすると、学習データから問題のあるテキストを取り除いて、再度学習し直すといったことになるのではないかと思います。

ちなみに、最近の大規模なモデル、1回学習をしますと数億から数十億円かかると言われていまして、しかも時間も数か月かかります。なので、何か問題のあるテキストが出たからといって、すぐ再学習しますと民間企業さんが言うかというと、場合によってはそれやったら会社潰れちゃうみたいな話もあるのではないかなと思っていまして、実際、データを取り除けというのは極めて難しい問題になるのではないかなと思っております。

【中川委員】ありがとうございます。理解しました。

【茶園主査】よろしいでしょうか。

では、鳥澤様、どうもありがとうございました。

【情報通信研究機構(鳥澤氏)】ありがとうございました。

【茶園主査】では、続きまして、議事(2)のAIと著作権についてに入りたいと思います。事務局に資料を御準備いただいておりますので、まず資料4について説明をお願いいたします。

【三輪著作権調査官】事務局でございます。では、資料4を御覧ください。こちらは、本小委員会での検討の参考となりますように、生成AIへの対応に関して、各国・各地域の著作権法、また著作権法以外の法制等による対応の状況、こちらを事務局においてまとめたものでございます。

各国の規定の内容及び動向については、公表されております法令の条文及び報道されております内容等から事務局において調査し、まとめたものでございますが、これに加えまして、先日、中原内閣審議官が欧州の著作権制度担当者等と意見交換を行いましたので、これにより得た情報等も含めております。この点に関しては、後ほど中原内閣審議官より補足の説明をさせていただきます。

資料の内容といたしましては、まず資料の左列におきまして、各国・各地域の著作権法において設けられている生成AI関係の規定、特に、AIの学習を含む情報解析の目的で著作物を利用することに関する権利制限規定、こちらをまとめております。この点、このような権利制限規定が各国・各地域において設けられているということを紹介しております。

また、生成AIを含むAIに対する規律といたしましては、EUのAI規則案、いわゆるAI Actが近時注目されておりますけれども、これは著作権法とは別の枠組みで規律を設けようとするものでございますので、同様に著作権法以外の枠組みで規律を設けようとする動き、こちらを表の右列に他の法制等としてまとめております。

この点、先ほど挙げたAI規則案以外にも各国で規律を設ける動きがあるということ、また、その方式といたしましては、立法に限らず、民間向けのガイドラインでありますとか、事業者による自発的な誓約、また実践規範の策定といったものも見られるということを紹介しております。

以上が資料についての御説明となりますが、引き続き、先ほど御紹介しました欧州の著作権制度担当者との意見交換につきまして、中原内閣審議官より補足して説明をさせていただきます。

【中原内閣審議官】中原でございます。よろしくお願いいたします。今、御説明申し上げましたように、欧州の著作権に係る政府関係者の皆様と最近の状況等について議論をしてまいりました。

それで、まず概略ですけれど、資料4に記載してありますとおり、欧州には、3条に基づく許諾なく実施可能なTDMの規定というのがあります。この実施主体は研究組織及び文化遺産機関とされていて、オプトアウトの規定はないということでございます。

そして、それとは別に4条というのがございまして、主体とか目的といったところについては限定がないのですが、権利者による複製権の留保、いわゆるオプトアウトが可能であるということでございます。このように主体、目的、いわゆるオプトアウトの有無という点で内容を異にする3条と4条といった2つの規定があるわけでございます。

アメリカにはご高承のとおりフェア・ユースの規定がございます。

次のページを御覧いただきまして、ドイツにおきましては、欧州指令を受けてこれと類似した規定がございまして、TDMに著作物を用いる場合について権利制限規定を設けているわけでございます。44条b条として、主体や目的といったところに限定は無いものの、いわゆるオプトアウトが可能なTDMの権利制限規定があり、60d条として、主体としては研究組織、文化遺産機関などの非営利組織又は非営利の個人研究者、目的としては非営利の目的といった限定はある一方で、いわゆるオプトアウトの規定はないTDMの権利制限規定があります。

イギリスにつきましても、TDMに関する権利制限規定はございますところ、主体について限定は無い一方で、目的は非営利の研究、オプトアウトの規定はないという内容となっております。また、一時的複製物の作成についての権利制限規定がありまして、関係者と議論している中では、実際にAIの企業の中には、この権利制限規定を根拠に機械学習を行っているという主張をされる者もいるのではないかという指摘もございました。

欧州の著作権の関係者と議論させて頂きましたところ、総論的には、いわゆる著作権者あるいはクリエーターの皆様の権利利益を守りながら、その利用とのバランスを適切に確保していくことの意義について、我々と同じように悩んでいるということでございます。すなわち、クリエーターの中には、こうしたAIを既に使って新たなものを創造している者もいらっしゃる一方で、そもそもの著作権者の権利利益をどのように考えていくかという点について、当審議会において我々が悩んでおるように、全く同じ問題に直面しているのだなという印象を持ちました。今日、新聞協会の皆様からも御発表を頂戴しましたけれども、海外のマスコミの皆様も同じような悩みを抱えておられて、こうした問題に政府の当局者、あるいは関係する事業者の皆様と一様に取り組んでいるというような状況でございました。

欧州、ドイツなどには、いわゆるオプトアウトの規定がございました。そして、TDMエクセプション自体の立証責任は、AI企業側にあるのですが、実際に権利者によるオプトアウトがされていた場合において、それが尊重されずに機会学習がされたときについて、そもそも権利侵害がされたかどうかが分かるか、オプトアウトを通り越して実際に権利侵害がされたかどうかが分かるかというと、私がお伺いした限りでは、先方の実務においても必ずしも実効的であるとは言い切れないという印象でございます。

そして、こうしたオプトアウトを通り越して実際に権利侵害がされたかどうかがそもそも分からないといった点を解消し、オプトアウトを実効性のあるものにするといった趣旨も含めて、AI Actといった形で、新たな規制の創設に関する議論がなされているという指摘がございました。

AI Actがオプトアウトの実効性を担保するために議論されているというようなことについては、そういった趣旨が書かれたものはございません。したがって、実際に文献として残っていたりとか、どなたかの提案に残っていたりするわけではないのですが、欧州の関係者と議論した感触としては、欧州の関係者は、そうした文脈の中で捉えているようでございます。それから、これらAI Actの技術的な可能性、ルールに違反された場合にそれを回復するための措置の執行可能性などがどれぐらいあるかということについては、今日の御報告に関連するようなことも含め、私も同様の類似したお話をお伺いしながら当局者と議論したのですが、確定的に執行可能であるとか、これが経済的にペイするかどうかということについては、当局者の間でも検討の途上にあるのではないかという印象を受けたところであります。これは人によっては少し違った意見もあるかもしれませんが、執行可能性については、まさに立案プロセスそのものを通じて深化させていくというようなところにあるのかと思いました。

もう一つ留意すべき点として、非営利でオプトアウトなしの状況の下で創られたAIのモデルを、それ以後において営利目的に利用することができるか否かという論点については、可能であるとする見解が一般的であったと思います。

総じて、私どもの30条の4の規定についてもそうですけれども、どの国の規定についてもいろいろと解釈を要するようなところはあり、関係当事者によって同じように解釈を検討している状況にあるという印象を持った次第でございます。

いずれにしましても、これらの議論を見ますと、いずれの国もルールメイキングというか、新しいソフトロー、ハードローを含めたルールメイキングに向けた取組がされているわけですけれども、多くのステークホルダーを含めたルールメイキングプロセスそれ自体の意義と重要性を強く感じました。特にイギリスなどにおきましては、「他の法制等」のところに書きましたように、Code of Practice on Copyright and AIという実践規範の策定に向けて、ワーキンググループによる検討が進められておりまして、この実践規範というのは、各当事者が自発的に遵守する性質とされているわけですけれども、状況改善のための適切な措置が講じられない場合には立法による措置を排除するものではないということで、このプロセスをステッピングストーンにするんだというような御説明もありました。当審議会でも御検討いただいているようなプロセス自体も含めて、関係当事者に対して一律の行動を要請しつつ、さらに技術進歩も含めながら将来の検討に準備をしているのではないかという印象を受けたところでございます。

私からは以上でございます。

【茶園主査】どうもありがとうございました。

ただいまの説明を踏まえまして、本件に関する御意見等がございましたらお願いいたします。

よろしいでしょうか。

では、どうもありがとうございました。

続きまして、資料5及び参考資料4について説明をお願いいたします。

【持永著作権課課長補佐】事務局でございます。時間の関係もございますので、具体的な中身には触れませんが、資料5について簡単に御紹介させていただきます。生成AIに関するクリエーターや著作権者等の主な御意見ということで、前回の会議で意見をまとめたものを御紹介させていただきましたが、前回会議以降、事務局のほうでさらにクリエーター個人や団体の方を含めまして様々な関係者にヒアリングを行いまして、そういった声を追記させていただきました。

赤字の部分が前回の会議でお示ししたものから追記のものとなります。

次に、参考資料4についてですが、10月4日に内閣府知的財産戦略推進事務局においてAI時代の知的財産権検討会というものが、生成AIと知財をめぐる懸念やリスクの対応等について検討する場ということで設置されております。文化庁もこちらの会議、オブザーバーとして参加させていただいております。また、具体的な検討すべき課題というのは資料の2枚目に、ページ番号でいうと1番ですけど、こちらに項目がございまして、その中身はそのページ以降にございますので、こちらも時間の関係もありまして紹介は省かせていただきますが、こういった検討がされております。

文化庁が聞き取った主な御意見について、特に著作権関係のところ等について様々な意見がありましたので、委員の皆様に机上配付としてその概要をお配りさせていただいております。

では、こちらの会議の紹介は以上にさせていただきます。もしこの会議について何かございましたら、次回の会議でまた我々からも御紹介させていただきます。

こちらからは以上です。

【茶園主査】ありがとうございました。

では、全体を通しまして、何かございますでしょうか。

では、どうもありがとうございました。大分、時間を延長いたしまして、最後は十分な時間がとれませんで申し訳ございませんでした。

それでは、本日の議事は全て終了ということになりましたので、本日はここまでとしたいと思います。

最後に、事務局から連絡事項がございましたらお願いいたします。

【持永著作権課長補佐】本日はありがとうございました。ちょっと機器の設定の問題で委員の皆様には御迷惑をおかけして、大変申し訳ございませんでした。

次回以降の法制度小委員会は、改めて事務局にて調整の上、日程をお知らせすることとします。今後ともどうぞよろしくお願いいたします。

【茶園主査】それでは、以上をもちまして、文化審議会著作権分科会法制度小委員会(第3回)を終了させていただきます。

本日はどうもありがとうございました。

―― 了 ――

Adobe Reader(アドビリーダー)ダウンロード:別ウィンドウで開きます

PDF形式を御覧いただくためには、Adobe Readerが必要となります。
お持ちでない方は、こちらからダウンロードしてください。

ページの先頭に移動