クリエイティブ・コモンズはAIモデルやAI出力にどのように影響を及ぼすか?

AIモデルの学習やAI出力の利用において著作権の扱いが論じられることは世界的に多いが、著作権の許諾であるライセンスがAIの学習や出力に及ぶ影響について論じられることは少ない。しかし、ソースコードと実行コードの1対1の関係で捉えられる通常のソフトウェア領域とは異なり、AI領域においては「入力(データ)・モデル・出力」の三層が複雑に絡み合う。その関係性の経路上において学習時に利用されるデータのライセンスやモデルのライセンスが法的にも影響を及ぼすルートが存在し、より複雑な問題が生じる可能性がある。

そこで本稿では、文書や画像等のコンテンツで広く汎用的に使われる著作権ライセンスの体系であるクリエイティブ・コモンズ (Creative Commons, 以下CC)を取り上げ、CCの各条件がAI利用の各工程においてどのような影響が生じる可能性があるかを解説する。これにより、オープンソースライセンスやその他のライセンス契約についても、AI利用の各工程における影響を考える上での示唆となれば幸いである。

なお、本稿ではクリエイティブ・コモンズ側のガイダンスに準じ、「保守的運用」と「法的に必要な場合」をできるだけ分けて記述していく。これは現在の状況ではどうしてもグレーゾーンが大きくなるからである。また、プライバシーや倫理、データ保護はCCライセンスの射程外であるので、それらについては別の機会があればそこで述べる。

  1. CC条件が及ぶ前提
    1. ステップ1:そもそも著作権の許諾が必要な場面であるか?
    2. ステップ2:CCのどの要素がどの行為でトリガーされるか?
    3. データセット頒布における論点
  2. 「入力(データ)→ モデル経由 → 出力」の経路でCC条件が及ぶか? (BY/NC/SA/ND)
  3. 「入力(データ)→ モデル」の経路でモデルそのものにCC条件が及ぶか?
  4. CCモデル → 出力の経路でCC条件が及ぶか?
  5. まとめ
  6. 参考

CC条件が及ぶ前提

CCライセンスは著作権に基づく許諾の手段であり、したがって、著作権法上においてライセンスによる許諾が必要ない場合には、CCの各種条件(BY表示・NC非営利・SA継承・ND改変禁止)は発動しない。この前提を踏まえ、先ずはAIの学習やその他の利用において、どういった場合に著作権の許諾が不要となる例外・制限規定が適用されるか、またどういった著作物の利用のトリガーでCCの条件が発動するのかを下記で確認する。

ステップ1:そもそも著作権の許諾が必要な場面であるか?

CCは著作権ライセンスであるため、著作権の許諾が必要な利用だけがCC条件の問題となる。逆に言えば、各国法の例外・制限に該当し、権利者の許諾が不要な場合にはCC条件も意味を持たない。AIの学習に関しては各国において著作権の例外・制限規定が整備されつつあり、ごく簡単にまとめると主な法域では以下のようになる。

米国:著作権法上のフェアユース(17 U.S.C. §107)に該当すれば、著作物の利用は非侵害とみなされ許諾は不要となるという考え方が基本となる。AIの学習目的での大量のデータ複製がフェアユースに当たるかはその事案毎にケースバイケースとなるが、Authors Guild v. Googleにおいては検索エンジンのための書籍スキャン等のデータ解析目的の複製がフェアユースと判断された判例が一般的にはベースの考え方とされることが多い。もっとも生成AIの学習利用を巡る民事訴訟は複数進行しており、和解や中間判断が出始めているとしても、フェアユースの適用範囲は裁判例の形成途上である。判断が割れている論点も残るため、フェアユース境界については引き続き注視が必要である。特にフェアユース四要件における「潜在的市場又は価値への影響」の評価は、訴訟類型や証拠関係によって結論が揺れ得る点に留意すべきである。

欧州連合(EU):2019年EU DSM(デジタル単一市場)著作権指令において、テキスト・データマイニング(TDM)のための複製等に関する例外規定が導入されている。なお、いずれの類型においても、少なくとも「適法にアクセスできること」(lawful access)が前提とされる。研究目的(第3条)の場合は、研究機関等が「科学研究」(scientific research)のために行うTDMを対象とし、権利者による権利留保(オプトアウト)は含まれない。一方、一般の目的(第4条)の場合は主体の限定が小さい一方で、権利者が第4条(3)に基づきTDM目的での利用を「明示的に留保」(expressly reserved)したコンテンツについては例外の適用外とされる。さらに、TDMのために作成された複製物・抽出物の保持について、第3条(2)および第4条(2)において、目的達成に必要な限り保持し得る旨や、特に研究目的では適切なセキュリティの下で保管することが想定されているため、学習データの保存期間やアクセス制御、削除方針といった運用設計も論点となり得る。オンラインで公衆に提供されるコンテンツについては、機械可読な手段による留保が想定されており、実務上はrobots.txtやメタタグ等が留保表現の候補として議論されることが多いが、具体的要件や運用は加盟国での実装に依存する点に留意が必要である。なお、CCライセンスを付与して公開すること自体は、直ちに権利留保を意味するものではない。

日本:著作権法第30条の4等により、情報解析目的であれば著作物の複製等を権利者の許諾なく行える包括的な例外規定が整備されている。これは「利用者による享受を目的としない利用」であれば広く適用されるが、ただし、その利用が「著作権者の利益を不当に害することとなる場合」には例外の適用外となる。通常、AIモデルの学習のためのデータ収集及び加工は人間による著作物の享受を目的としないため、この例外に該当し得ることになる。なお、法第30条の4ただし書の「不当に害することとなる場合」としては、情報解析用として有償提供され、情報解析用のライセンス市場が成立しているデータベース著作物をライセンス料を支払うことなくAI学習目的で複製・取り込むような態様が想定され得る。著作物の利用市場と衝突するか、将来における潜在的販路を阻害するかという観点から、利用態様等の諸事情を総合的に考慮して判断されるべきである。

日本ではAI学習に必要な複製が著作権法の例外で許諾される一方、EUでは権利留保がない限りTDM例外の射程に入り、米国ではフェアユース等により許される可能性があるということであり、各国で許諾が不要となる範囲は異なる。自社のAI開発がどの法域で行われるかに応じて、まずはこうした例外規定に照らし合わせ、学習行為それ自体が権利侵害になるか否か、若しくは許諾がそもそも必要かどうか、を検討する必要がある。

ステップ2:CCのどの要素がどの行為でトリガーされるか?

前提として著作権の許諾が必要な行為である場合、次に検討すべきはCCライセンスのどの条件(要素)が、AI開発プロセス上のどの段階で発動し得るかである。クリエイティブ・コモンズ側のガイダンスを踏まえると、「表示(BY)」はライセンス作品(又はそれを含む素材)を公衆へ共有する局面で中心的に問題となり、「継承(SA)」および「改変禁止(ND)」は主として翻案物(Adapted Material)を公衆へ共有する局面で問題となる。その一方、「非営利(NC)」は共有行為に限られず、著作権法上許諾が必要となる利用行為全般について営利目的か否かが問題となり得る。

これを言い換えれば、入力データとして利用したCC作品について、(1)元作品自体を再頒布する、(2)元作品に依拠した翻案物を作成して公衆へ共有する、(3)出力が元作品の実質的再現となりその出力を公衆へ提供する、といった局面ではBY・SA・NDが問題となり得る。一方、NCは共有行為に限られず、複製・翻案・頒布といったあらゆる利用行為(著作権侵害となりうる行為)が営利目的か非営利目的かによって条件の充足性が左右される点に注意が必要である。

データセット頒布における論点

上記ステップ2に関連して、AI用の大規模データセットを構築・頒布する場面にも留意すべき論点がある。CCライセンス作品を多数含むデータセットをオープンデータとして頒布する場合、そのデータセット中の各作品の取り扱いもCCライセンスに従わなければならない。特にCC BYやCC BY-SAの作品を含むデータセットを公開する場合は、各作品のクレジット情報を適切に付与する必要がある。例えば画像を含むデータセットであれば、付属のメタデータやドキュメントに各画像の作者名・ライセンス・出典URL等を一覧表記することが求められ得る。これはデータセット提供者が著作物の共有(再頒布)を行う以上、元の表示義務等のCC条件を遵守する必要があるためである。

一方で、データセットという形で複数の作品を集約している場合でも、それ自体は各作品の単なる集合体であって翻案ではない点にも注意が必要である。CCライセンスでは「作品をコレクションに含めること自体は翻案に当たらない」旨が明示されており、そのためたとえCC BY-SAのような継承条件付きの作品をデータセットに収録したとしても、データセット全体が自動的にCC BY-SAライセンスが適用になるわけではない。ただし、頒布に際してトリミング、色補正、ノイズ除去、キャプション付与や翻訳等の前処理を施す場合、その前処理が個々の作品の改変(翻案)に当たり得るため、NDやSAの適用関係が別途問題となり得る点に留意が必要である。継承(SA)条件が問題となるのは、あくまで元作品を翻案(改変)して共有した場合であって、単に元作品を無改変でまとめただけのデータセット(集合著作物)には直ちに適用されるわけではない。ただし、データセット内の個々の作品には引き続き元のCCライセンス(および著作権)が及んでいるため、利用者に対してその点を明示すること、例えば「本データセットにはCC BY 4.0ライセンスのコンテンツをX点含む」等のような表記をすることが望ましい。

「入力(データ)→ モデル経由 → 出力」の経路でCC条件が及ぶか? (BY/NC/SA/ND)

CCライセンスが付与された文章や画像などのデータをAIモデルの学習データやプロンプト入力として利用した場合に、モデルから生成される出力に対してCCの各条件が及ぶかを検討する。これはAI開発者や利用者にとって直接影響が及ぶ重要な論点であると考えられるが、CC条件ごとに考えられるシナリオを整理する。

  • 表示(BY):CC BY系ライセンスのデータをAI学習に利用した場合、モデルの出力にその元データの表現が現れるかがポイントとなる。例えば、生成時にRAG(検索拡張生成)等で特定のCCライセンスの文章を参照し、それに由来する回答を出力するようなケースでは、可能な限りその出典へのリンクやクレジットを付与することが望ましい。また、AIモデル若しくはAIシステムが学習元データを(技術的とは限らず)記憶していて、出力に元データと実質的に同一または極めて類似した文言や画像が表れてしまった場合、それは元データである作品の共有とみなされる可能性が生じる。そのため、保守的には、そうした出力を第三者に提供・公開する際には元のCC作品のタイトル・作者名・ライセンス・URI等を表示し、CCライセンスの表示条件を満たすようにすべきである。これは法的にも、該当出力の共有が元著作物の共有行為となり得る以上、必要となり得る。もっとも、多くのモデル出力は学習元とは非類似の新規表現であり、その場合には元データのBY条件が直ちに問題化しないことは前提としておく。
  • 非営利(NC):前提として、ここでいう「非営利」は、利用主体が企業か否かで機械的に決まるものではなく、「主として商業上の利益又は金銭的対価を目的とするか」という観点で評価される点に注意が必要である。それを踏まえ、CC BY-NC系ライセンスのデータを学習に利用すること自体が「複製」行為を含むと考えられ、本来的には営利目的では許されない可能性がある。それを裏付けるようにCCのガイダンスにおいては、NC制限付き作品を用いる場合、学習用データのコピーから学習済みモデルの提供に至るまであらゆる段階を非商用目的に限る必要があるとされている。例えば、NC作品を学習させたモデル出力を有料提供するといった商用のサービスで利用することは、学習時の複製利用やモデルの利用行為が営利目的と判断されればNC条件違反となり得る。
    ただし、前述の通り、学習時の複製そのものがフェアユースや権利制限等で許容されるケースも大いにあり得るため、法的判断は一様とはならないし、法域によっても差異が生じると考えられる。しかし、保守的に見るのであれば、NC作品は商用プロジェクトのAI学習には使用しないか、使用する場合でも学習・生成含めて一切収益化しない方針が安全策となる。
  • 継承(SA):CC BY-SA系ライセンスのデータを学習に用いた場合、モデルや出力が元作品の翻案物(Adaptation)に当たるかが論点となる。法的には、モデルの重みや生成物が「元作品に基づく二次的著作物」と評価されるケースはかなり限定的であると考えられる。一方、CCのガイダンスにおいては、保守的対応として「学習データにSA条件の作品を含むなら、モデルや出力を公開する際には元と同じCCライセンスで提供すべき」と示されている。つまり、たとえモデル出力が直接には元作品を再利用していない場合であっても、元データがSA条件付きで提供されていた以上、生成AIの開発者もその精神に則って生成物やモデル自体をオープンなライセンスで共有することが望ましい、という立場である。ここでは、「法的に必須か否か」と「善意としての遵守」を区別して整理する必要がある。
  • 改変禁止(ND):CCにおけるND条件は、原則として「改変(翻案)したものを公衆へ共有すること」を許諾しない条件である。したがって、NDが直ちに問題となるのは、元作品に基づく翻案物が生じ、それを外部に共有する局面である。一方で、AI学習や特徴抽出の過程が著作権法上の「翻案」に当たるか、また学習済みモデルや一般的な生成出力がND作品の翻案物に当たるかは、法域や事実関係に依存し一律には定まらない。もっとも、CC側は保守的運用として、NDが付されたコンテンツを学習データに用いることは避けるべきである旨を示している。実務的には、ND素材が混入した学習データや合成データを外部提供しない運用(内部限定)を基本とし、外部提供を前提とする場合はND素材をデータパイプラインから除外する設計が安全である。

「入力(データ)→ モデル」の経路でモデルそのものにCC条件が及ぶか?

次に、CCライセンスのデータを学習した結果得られたAIモデルそのもの(学習済みモデル)に対して元データのCC条件が及ぶかどうかを検討する。モデルは大量の演算結果としてのパラメータから構成されるデータであり、一見すると学習元の作品とは直接の類似性を持たないように見える。しかし、モデル内部に学習データ由来の表現が何らかの形式で記憶されている場合には、モデルを頒布・公開する行為それ自体が元作品の複製物の共有と評価される可能性も理論上は否定できない。この点についてもCC各条件ごとに整理する。

  • 表示(BY):AI学習の元データがCC BYライセンス等で提供されていた場合、学習済みモデルを公開・提供する段階で何らかの表示義務が生じるかが論点となる。例えば画像生成モデルが特定のCC作品をそのままバイナリ内部に格納しているなど、モデルが元作品をそのまま含んでいると評価可能なケースでは、モデルの提供は元作品の共有となるためクレジット表示が必要となり得る。しかし、通常の機械学習モデルは元データを統計的特徴として内包するのみであって直接的な表現は持たないため、モデル自体を提供する際に法的にBY条件が要求される場面は多くないと考えられる。とはいえ、CCコミュニティとして推奨する保守的運用としては、たとえば「本モデルの学習にはLAIONデータセット等のCCライセンス素材が使用されています」といった形でデータセット名や出典へのリンクを明示することが望ましいとされている。モデルカードやドキュメントに学習データの由来を示すことは、利用者への情報提供という観点からも有益である。
  • 非営利(NC):学習元にNC条件付きデータを含む場合、学習済みモデルの頒布や提供先での利用についても非営利に限定すべきか検討が必要である。CCのガイダンスにおいては、「データの複製からモデルの共有に至る全段階で非営利であること」をNC順守の要件として求められる可能性があることを示している。したがって、モデル提供そのものから対価を得ないことはもちろんのこと、モデルを使用したサービスの提供も広義には「モデル(著作物)の利用」に該当するため、営利目的で公開モデルを用いることはNC条件に抵触し得ることになる。仮にモデルを商用利用したい場合には、初めからNC素材を使わないか、別途権利者から商用利用許諾を得ることが望ましい。
  • 継承(SA):学習元データにSA(継承)条件の作品を含む場合、学習済みモデル自体が当該作品の翻案と評価され得るかがポイントとなる。法的には、モデルのパラメータそのものが著作物性を持つか、また元データとの依拠関係がどこまで認められるかといった難しい問題が横たわる。明確な司法判断の蓄積が十分でない現状では断定し難いが、CCの見解では「モデルがShareAlikeコンテンツに基づくものであり公衆へ共有されるのであれば、保守的対応として元と同じCCライセンスでモデルを公開すべき」とされている。例えば、CC BY-SA 4.0のコーパスでモデルを学習した場合、モデル(およびその出力)を頒布・公開する際にはCC BY-SA 4.0ライセンスで提供し、同条件を継承させることが推奨されることになる。ただし、これはあくまで「ライセンスを遵守したい開発者向けのガイダンス」であり、法的にモデルが翻案物かどうか確定していなくとも善意で従うことによってリスクを抑えるという趣旨である点に留意すべきである。
  • 改変禁止(ND):学習元データにND条件付き作品が含まれる場合、モデルが元作品の翻案物に当たるかという論点が生じ得る。ただし、NDが直ちに問題となるのは、元作品に基づく翻案物が生じ、それを公衆へ共有する局面である。AI学習の結果得られるモデルや一般的な生成出力がND作品の翻案物に当たるかは、法域と事実関係に依存し一律には定まらない。もっとも、CC側は保守的運用としてND素材の学習利用を避けるべきである旨を示している。実務的にもND作品は学習データセットから除外されることが多い。どうしてもND素材を使う必要がある場合には、モデルも出力も含め社外非公開で内部利用のみに留めるなど、権利者との摩擦を避ける慎重な運用が求められる。

CCモデル → 出力の経路でCC条件が及ぶか?

最後に、AIモデル自体にCCライセンスが付与されている場合に、そのモデルから生成される出力へCC条件が及ぶかどうかを考える。近年、オープンソースのAIモデルがCC BYやCC BY-NCなどで公開される例も存在し、モデル利用者の側でもそのライセンス条件を正しく理解する必要があるだろう。

まず前提として、CCライセンスはあくまで著作物(この場合はモデルそのもの)に対する許諾条件であり、モデルが生成するアウトプットに対して自動的に適用されるものではない。また、モデルの出力が完全に新規の創作物と評価可能であり、著作物として保護される第三者の表現を含まない場合、その出力に対して元のモデルにおけるBY表示やSA継承などのCC条件が当然に適用されることはない。例えば、CC BY-SAライセンスで提供されている画像生成モデルから出力された画像は、元モデルのコードや重み(著作物)を直接含んでいない限り、自動的にCC BY-SAになるわけではない。つまり、モデルが生成物にモデル作者のクレジットを表示する義務等が生じるものでもない。これは出力がモデルという著作物のコピーでも翻案物でもないためである。

しかしながら、モデルのライセンス条件が出力に全く無関係かと言えばそうではない。出力がモデルの学習データ由来の表現を含んでいる場合には、元データのCC条件が問題となるからである。CCのガイドラインでも述べられる通り、CCライセンスの条件は著作物本体またはその二次的著作物を公に共有する場面で効力を持つ。モデルの利用自体は単なる道具の使用に過ぎず、その段階ではモデルに付与されたCC条件(例えばBY表示義務)はエンドユーザには直接要求されない。だが、モデル出力が結果的に特定のCC作品の内容を再現している場合には、その出力物の共有行為が元作品の共有とみなされ、CC条件が適用されることになる。要するに、モデルのライセンスだけを見て出力物の取り扱いを判断するのは不十分であり、出力された生成物が第三者の著作物にどこまで依拠しているかを踏まえて対処する必要がある。

また、モデルそのもののCCライセンスにも留意が必要である。モデルにCC BYライセンスが付与されている場合、ウェイト等のモデルそのものを頒布・公開する場合にBYによる帰属条件が問題化するわけであり、サービスへの組み込みを含めてモデルを提供する際には当然ながらモデル作者のクレジット等が必要となる。もっともAPI経由を含めてモデルの出力を頒布するだけならモデルそのものの共有とは言い難いため、通常は表示等の義務は直ちには生じない。

ただし、モデルがCC BY-NC(非営利)の場合、著作物であるモデルを営利目的で利用・複製することは許可されないため、たとえばそのモデルを用いて商用のAPIサービスを提供すればNC条件違反となる可能性が高い。モデルがCC BY-ND(改変禁止)の場合、モデルがCC BY-ND(改変禁止)で提供され、かつ当該モデルに著作物性が認められる限り、モデルの改変版(微調整やマージ等により別の重みを生成したものを含む)を公衆へ共有する行為は、ND条件との関係で許諾されない整理となり得る。他方、モデルを改変せずに利用して出力を得る行為や、API経由で出力のみを提供する行為が直ちにND違反となるわけではないため、提供形態が実質的に「改変版モデルの共有」に当たらないかを含めて評価すべきである。CCのガイダンスでも強調される通り、CC条件は著作権が関与する利用についての許諾条件であり、各国法の例外・制限等によりそもそも許諾が不要な利用まで制限する趣旨ではない。したがって、モデルを改変せずに利用して出力を得る行為が直ちにND条件で禁止されると理解すべきではないが、NDモデルを改変して精度を向上させたり別用途に転用したりした上で、その改変版モデルを公衆へ共有することはライセンス違反となり得るため注意が必要である。

まとめると、モデルのCCライセンスはモデルそのものの利用や改変・再頒布に関する条件であり、出力された生成物へのライセンス適用は原則として出力が含む内容次第ということになる。「CC条件は著作権が関与する場面でのみ意味を持つ」という大原則を念頭に、モデル提供者および利用者はそれぞれの段階で元作品そのものを含むのか、あるいは新規の創作物か何かが共有されているのか、を判断しなくてはならない。モデルカードに記載されたライセンス表示だけでなく、出力が既存コンテンツに依拠していないかにも目を配ることが実務上重要となっていると言える。

まとめ

AIモデルにおける学習や出力という過程において学習データセットやモデルに適用されるCCライセンスの影響がどのように影響を及ぼすのかという疑問を検討してきたが、著作権が認められるかという前提においても各国の著作権法によって微妙な法域による差が生じること、利用目的を制限するという性質によってNC(非営利)条件の発動するタイミングが他のCC条件とは異なること、後は最大の注意点としてはわずかな可能性や倫理・慣習的な観点を含めて保守的にみた場合と法的に必要とみた場合の差が大きいことには注意が必要である。CCライセンスは、表示(BY)・継承(SA)・非営利(NC)といった機械学習領域で一般的に利用されるオープンソースを含むライセンスにおいて特徴的な条件を多く含んでおり、それらのCCライセンス以外のライセンスの学習データやモデルを利用する際における示唆になるのではないかと思う。

参考

Using CC-Licensed Works for AI Training:https://creativecommons.org/using-cc-licensed-works-for-ai-training-2/
Using CC-licensed Works for AI Training:https://creativecommons.org/wp-content/uploads/2025/05/Using-CC-licensed-Works-for-AI-Training.pdf
文化庁, AIと著作権に関する考え方について(令和6年3月15日):https://www.bunka.go.jp/seisaku/bunkashingikai/chosakuken/pdf/94037901_01.pdf
欧州議会・理事会, Directive (EU) 2019/790 on copyright and related rights in the Digital Single Market:http://data.europa.eu/eli/dir/2019/790/oj
17 U.S.C. § 107:https://uscode.house.gov/view.xhtml?req=granuleid:USC-prelim-title17-section107&num=0&edition=prelim
US Copyright Office, Copyright and Artificial Intelligence, Part 3: Generative AI Training:https://www.copyright.gov/ai/Copyright-and-Artificial-Intelligence-Part-3-Generative-AI-Training-Report-Pre-Publication-Version.pdf