GPLコードを学習したAIモデルにGPLが伝播するという理論の現在地

2021年にGitHub Copilotが登場した当時、そのモデルの学習データにGitHub上のあらゆる公開されたオープンソースのソースコードが含まれていることが大きな注目を集め、ライセンスに関する議論が活発にされた。ほとんどのライセンスで規定される帰属表示などの条件の問題もあるが、特にGNU GPL(GNU General Public License)のようなコピーレフトライセンスの条件がモデルにも伝播し、モデル全体を同じライセンスで公開する必要があるという言説が多く飛び交った。GPLの伝播性自体は現代の多くのソフトウェアエンジニアが自然に受け入れているものであり、エンジニアの素朴な感覚としては何らかの形でGPLコードが含まれるのであれば当然コピーレフトが適用され、ライセンスが伝播すると考えるのはごく自然な成り行きである。

しかし、この2025年現在において、オープンソースのコードを学習したAIモデルにコードのライセンスが伝播するという言説は当時ほど多く見られない。一部の熱心な自由の信奉者がそのような理論を唱えることはあるが、プログラミングの現場へ圧倒的に普及したAIコーディングのメリットに押し流されているようにも見える。そのような風潮の中で、私自身もそのような理論は最初からなかったようにも錯覚することがある。

では、このようなAIモデルへ学習コードのライセンスが伝播する理論は完全に否定されたのだろうか?

実はそうではない。この問題は今もなお訴訟が継続し、また主要な各国政府の判断も明確にはなっていない未確定の問題なのである。本稿では、この「GPLコードを学習したAIモデルにGPLが伝播する」というライセンス伝播性理論の現在の状況を解説し、そこからモデルの法的位置付けや我々が追求するAI領域での自由とは何か、といった論点にまで繋げたい。

  1. 二つの訴訟における現在地
    1. Doe v. GitHub(Copilot集団訴訟):残り続けるオープンソースライセンス違反クレーム
    2. GEMA v. OpenAI:モデルへの「記憶」を法的複製とみなす理論
    3. 二つの訴訟の現在地から導かれる可能性
    4. 日本法での扱い
  2. ライセンスのモデルへの伝播理論への否定材料
    1. 著作権法レイヤーでの否定材料
    2. GPL条文レイヤーでの否定材料
    3. 技術レイヤーでの否定材料
    4. 実務的・政策的な否定材料
  3. OSIとFSFのスタンス
  4. まとめ
  5. 参考

English translation: https://shujisado.org/2025/11/27/gpl-propagates-to-ai-models-trained-on-gpl-code/


二つの訴訟における現在地

まず、「AIモデルへのGPL伝播理論」とは何か?を整理しておく。これは、AIモデルがGPLコードを学習データとして取り込んだ場合に、そのモデル自体がGPLコードの二次的著作物(派生物)に当たるため、モデルを頒布する際にはGPLにおけるソースコード公開義務等のコピーレフトの条件が適用される、とする考え方である。すなわち、モデルの出力がGPLコードと類似しているか否かという問題ではなく、「モデルそのものがGPLコードを含む派生物であるからモデルにもGPLが及ぶ」という理論である。2021年前後にはこの理論を支持する声が多く聞かれたが、前述の通り現在では議論の主流ではなくなっている。しかし、この理論が完全に否定されたとは言い切れない根拠として、現在進行中の二つの主要な訴訟が挙げられる。それが、米国で提起されたDoe v. GitHub(Copilot集団訴訟, Doe 1 et al v. GitHub, Inc.)とドイツで提起されたGEMA v. OpenAIである。以下、それぞれの訴訟の経緯と現状を説明する。

Doe v. GitHub(Copilot集団訴訟):残り続けるオープンソースライセンス違反クレーム

GitHub Copilotに関連して2022年末に提起されたCopilot集団訴訟では、匿名の開発者らが原告となり、GitHubやMicrosoftおよびOpenAIが公開リポジトリ上のソースコードを無断で学習させ、Copilotを通じて大規模なライセンス違反を招いていると主張した。具体的には、Copilotが学習元となったコードの一部を出力として再現する際に、MITやApache-2.0等で要求される著作者表示やコピーライト表示を一切行っていない点、さらにはGPLのようにコピーレフト的条件を課すライセンスのコードも無差別に学習および出力しており、ライセンス条項を踏みにじっている点を問題視している。原告側はこれをオープンソースライセンスの契約上の違反であると主張し、また著作権法上もDigital Millennium Copyright Act(DMCA)への違反にも該当するとして損害賠償や差止めを求めたのである。

本件はカリフォルニア北部地区連邦地裁にて既に幾つかの判断が下され、原告側の多くの請求が却下されている。却下されたのは主としてDMCA条項違反やプライバシーポリシー違反、不当利得、不法行為など周辺的な請求であるが、一部のDMCA違反と「オープンソースライセンスの違反」(契約不履行)の主張は今も生き残っている。特に後者であるが、原告のコードがGPLやMIT等のライセンスで公開されていたにも関わらず、被告が著作者表示や派生物の同ライセンスでの公開義務を遵守しなかったことが契約上の違反に当たるという主張であり、裁判所は原告が具体的な損害額を示せていないことから金銭賠償請求は認めなかったものの、ライセンス違反行為の差止め請求自体は十分に理由があると判断しているのである。その結果、原告らはCopilotが適切なライセンス表示なく他人のコードを再現する行為の禁止命令を求めて引き続き訴訟を進めることが許容されている。

以上の経緯から明らかなように、Copilot訴訟では「学習データのオープンソースライセンス違反」が依然として法廷で争われており、これこそがモデルへのライセンス伝播理論が完全には否定されていない一因である。この訴訟における原告の主張はモデルそのものをGPLでの公開を直接求めるものではないが、学習および出力の過程でライセンス条件を無視した点を法的に追及するものであり、結果として「学習データのライセンスに従った扱いをしなければモデル提供行為は違法になり得る」ことを示唆している。そして、裁判所は現時点でこの論法を明確に排斥せず、オープンソースのコードの利用にはライセンス上の義務が伴い、それを無視したツールの提供には差止め得る不法行為が成立し得るとの判断も示している。

もっとも、Copilot訴訟の主張は法的には契約(ライセンス)違反やDMCA違反という枠組みであり、「モデルがGPLコードの二次的著作物である」という直接的な著作権論ではない点に注意が必要である。モデル全体をGPLライセンスで開示させる義務まで踏み込んだ判断が示されたわけでもない。実際の判断は「金銭的損害は示されていないが、将来的な差止め請求の余地はある」という保守的なものであり、モデルそのものの公開義務までは言及していない。つまり、現時点では「モデルへのGPL伝播理論」に直接言及した判例はなく、学習元コードのライセンス違反という問題提起が司法の場で生き残っている状況である。

GEMA v. OpenAI:モデルへの「記憶」を法的複製とみなす理論

もう一つの重要な訴訟が、ドイツの音楽著作権管理団体GEMAがOpenAIを訴えたケースである。こちらはAIコード生成ではなくAIモデルによる歌詞の無断学習および出力に関する著作権訴訟であり、直接GPLとは関係ないものの「モデルへのライセンス伝播」に関連する理論的含意が大きい。

2025年11月、ミュンヘン第一地裁はこの訴訟について判決を下し、ChatGPTのモデルが著名なドイツ語歌詞9曲分を記憶および再現していた件につき、モデル内部への「記憶」行為自体が著作権法上の複製行為に該当するとの判断を示した。判決によれば、ChatGPTのGPT-4および4oのモデルには原告管理下の歌詞が「固定」されており、ユーザが簡単なプロンプトを与えるだけでその歌詞がほぼ原文どおり出力される状態であった。それをもって裁判所は、モデルが「著作物を記憶したパラメータ」を内部に含んでおり、適切なプロンプトによって人間にとって原作品と実質的に同一の表現を再現可能な場合には、その記憶自体がドイツ著作権法16条の「複製」に該当すると判断したのである。さらに、実際にプロンプトに応じて歌詞を出力する行為も別個の複製行為であり、ユーザに歌詞を提供することは公衆への提供(公衆送信)行為にも当たると判断した。また、これらはいずれも権利者の許諾なく行われているため、EU DSM著作権指令におけるTDM(テキスト・データマイニング)例外規定によって正当化される範囲を逸脱しているとも判示している。

この判決の重要なポイントは、「モデル内部に著作物が再現可能な形で記録されているならば、その状態自体が著作権侵害となり得る」と明確に認めた点である。裁判所は「複製とはあらゆる形式若しくは態様でのコピーを含み、直接人間に知覚できる形でなくともよい」とのEU情報社会指令の文言を引き、その精神からすればモデルのパラメータ内に歌詞が符号化されているだけでも複製物の作成に当たるとした。「確率的なウェイトという形でのエンコードであることはコピーとみなすことを妨げない」とまで言及しており、技術形式の違いによって著作権上の複製性を回避することはできないとの強い認識を示している。また、モデルが歌詞を出力できたのは偶然ではなく高度に一致していることから、統計的学習の結果ではなく「学習データの本質的部分のそのままの取り込み」が生じていると事実認定された。この結果、ミュンヘン地裁はOpenAIに対し当該歌詞の出力行為の差止めと損害賠償責任を認め、さらに将来のために学習データや出力内容に関する情報提供を命じた。もっとも、本判決は第一審であり、OpenAI側は不服の意向を示しているため今後も継続する係争となる見込みである。

このGEMA判決が示す特筆すべき理論は、著作権法上の複製概念をモデル内部にまで拡張することである。つまり、学習データとして使用した著作物がモデル内に残存し、それを簡単な操作で再現できるのであれば、モデルは既にその著作物の複製物を含んでいるということになる。この理論は、「モデルが学習元著作物を含有している」とみなす点で画期的であり、実際Osborne Clarkeによる解説でも「英高等法院のGetty v. Stability AI事件の判断とは対照的に、ミュンヘン地裁はAIモデルが学習素材のコピーを含んでいる可能性を明示的に認めた」と評価されている。この見解に立てば、モデルは単なる分析の結果ではなく、場合によっては学習データそのものの集合体とも評価し得ることになる。

もっとも、この判決は歌詞という短いテキストで完全一致の出力が得られたという極端な事例に基づいている点には留意が必要である。裁判所自身、「通常は学習用の一時複製は分析目的に留まり権利者の市場を侵害しないが、本件ではモデルが作品を復元可能な形で保持しており分析の範囲を超えている」と述べており、「モデルが完全な再現を行う場合」に限定した判断であることを強調している。また英国の事例が示すように、司法の判断も国によって分かれており、この問題に対する法的コンセンサスは未だ形成されていない。

それでもなお、モデル内部への著作物の記録が複製であると明言した今回の判決は、ライセンス伝播理論を支える大きな論拠となり得る。なぜなら、GPL伝播を論じる前提としてまず「モデルがGPLコードの複製または派生物と言えるか」が問題となるところ、ミュンヘン地裁の論理はまさに「モデルは学習データの複製物となり得る」ことを法的に認定したからである。

二つの訴訟の現在地から導かれる可能性

以上の二つの訴訟から、AIモデルへのライセンス伝播理論が将来的に認められる道筋を考えることができる。

仮にAI事業者から見ての最悪のシナリオとして、これらの訴訟が原告側勝訴で確定した場合を想定しよう。Copilot訴訟においては「モデル提供者は学習元コードのライセンス条件を遵守しなければならない」という判断が確立し、GEMA訴訟においては「モデルが著作物の複製物を内包している」との法理が確立することになる。この二つが交差すると、「GPLコードを含むAIモデルはGPLコードの複製物若しくは派生物である以上、その提供にはGPLの条件が直接適用される」という結論が理論上導かれる。すなわち、モデルへのGPL伝播理論が司法によって事実上追認される可能性が出てくる。

具体的には、モデルが内部にGPLコード片を記憶し含有しているならば、そのモデルを第三者に頒布若しくは提供する行為はGPLコードの複製物の頒布と看做される可能性があり、その場合GPLではない条件での頒布行為はGPLライセンス違反と評価される。GPL違反が成立すれば、通常のソフトウェアの場合と同様に差止請求や損害賠償請求のほか、同一ライセンスでモデル全体を公開という強制的なGPL遵守による救済が主張される余地も出てくるだろう。実際、GEMAがOpenAIに求めた救済には学習データや出力内容に関する開示が含まれており、音楽著作物の文脈ではあるもののこれは「モデルが何を学習し含んでいるか」を透明化させる一種の開示請求と言える。GPL違反の場合も、ライセンス遵守を図る上で「モデルの内部に含まれるGPLコード部分の開示」や「モデルを再構築可能な形でのソース開示」といった要求が出てくる可能性は否定できない。

ここまで過激な結論ではなくとも、中間的なシナリオとしてはモデル提供者に一定の制約が課される展開が考えられる。例えば、Copilot訴訟が和解あるいは判決により「生成コード中に一定長以上の既存コードが含まれる場合は出力時にライセンスと著作者表示を付与する」といった措置を取ることで決着したり、あるいはモデルからGPLコード片が抽出若しくは再現されないよう技術的フィルタを実装することを義務付けられる可能性である。実際、Copilot開発元であるGitHubは、既に「候補コードが大規模リポジトリ上の既存コードと一致する場合は提案から除外する」というオプション機能を導入しており、訴訟リスクを低減する試みを行っている。また、OpenAIについても、GEMA判決を受けてChatGPTが著作権付き歌詞をそのまま出力しないようフィルタを強化したという報道もある。

これらは法的にはライセンス伝播そのものではないが、実務上は「モデルがライセンス条件を潜在的に侵害しないようにする」方向へ業界が舵を切っていることを示している。将来的には、モデルの学習段階でGPLといった特定ライセンス条項を持つデータを除外するガイドラインや、学習後に出力検査を行ってライセンス侵害出力がないことを保証する仕組みや制度などが整備される可能性もある。

いずれにせよ、これら二つの訴訟が完全に決着し、その後の立法的対応が定まるまでは、「モデルへのGPL伝播理論」は完全には消えていない。今後の判決次第では一挙に現実味を帯びるシナリオであり、また仮に訴訟で原告が敗れたとしてもオープンソースコミュニティ内でこの理論への支持が再燃する可能性もある。現時点では「かつてほど声高に叫ばれてはいない未確定理論」だが、それは法的に完全に否定され解決されたという意味ではない点に注意が必要である。我々のコミュニティとしては、こうした動向を注視しつつ、本稿後半で述べる各国法制度や反対論も踏まえて冷静に対応策を検討する必要がある。

日本法での扱い

前述の海外の訴訟の動向を踏まえ、日本法におけるAIモデルと著作物とライセンスの関係も整理しておく。日本においては、2018年の著作権法改正で導入された著作権法第30条の4が、機械学習に伴う複製行為を包括的に適法化する規定として存在し、さらに2024年3月には文化庁の文化審議会著作権分科会が「AIと著作権に関する考え方について」(以下、考え方)というガイドライン的資料を公表し、生成AIの開発・学習段階と生成・利用段階に分けて法的整理を提示している。

「考え方」によれば、基本的にAIの学習目的で行われる複製は第30条の4が定める「著作物に表現された思想又は感情の享受を目的としない情報解析」を満たす限り適法である。したがって、研究開発目的でインターネット上から広範なデータを収集および複製して学習用データセットを作成する行為は、原則として権利者の許諾なく行うことができる。ただし、重要なのはその学習行為に「享受目的」が混入していないかという点である。「考え方」では、もし「学習データ中の特定の著作物の創作的表現の全部または一部を生成AIの出力として意図的に再現させること」を目的とした学習が行われた場合、それは単なる情報解析ではなく著作物の享受目的が併存していると評価され、第30条の4の適用を欠くと述べている。この典型例として「過学習」が挙げられており、追加学習によって特定の作品群をモデルに覚え込ませ、その作品と類似した出力をさせるような行為は享受目的があると判断される。

さらに、「考え方」は学習済みモデルの法的扱いについても言及し、「AI学習により作成された学習済みモデルは、学習に用いた著作物の複製物とはいえない場合が多い」とまず述べられている。これは、モデルが汎用的に様々な入力に対してオリジナルとは無関係の出力を生成し得る以上、モデル自体は特定の著作物のコピーそのものではないという考え方である。

しかし、同時に「考え方」は、例外的に「学習済みモデルが学習データである著作物と類似性のある生成物を高頻度で生成する状態にある」ような場合には、モデルに元の著作物の創作的表現が残存しているとして複製物と評価される可能性を認めている。そのような場合には、モデルが著作権侵害の機械として位置付けられ、差止請求が認められ得るとも指摘している。要するに、通常はモデルは単なる統計データであって著作物それ自体ではないが、特定の著作物をほぼそのまま吐き出すための装置と化している場合には、侵害物として扱われ得るということであり、この考え方はGEMA判決の内容とも通じる部分がある。

以上の整理はあくまで著作権法上の権利制限規定(例外規定)の適用範囲の話であり、契約やライセンス条項の効力については触れられていない点に注意が必要である。文化庁文書は「著作権侵害か否か」の観点から論じており、たとえ学習行為が適法でも、それとは別に利用規約やオープンソースライセンスに違反すれば契約上の責任が生じ得ることまでは否定していない。またGPLなどコピーレフト条項の伝播についても踏み込んだ見解は示されていない。日本の著作権法には、30条の4のような権利制限規定が契約条件に優先するというオーバーライドの規定はなく、経済産業省の「AI・データの利用に関する契約ガイドライン」では、当事者間でデータ利用を禁止する契約がある場合にその契約が優先される可能性も示唆されている。

したがって、ライセンスを有効な契約とみなすならば、たとえ著作権法30条の4で「学習は適法」とされても、契約法上は「ライセンス条件違反」となるリスクが残存し、少なくともモデルへのGPL伝播理論が整理された公式見解は存在しないと言えるだろう。つまり、現状では、著作権法上はモデル学習行為の適法性がかなり広く認められているものの、ライセンス違反については民事上の一般論に委ねられており、例えば「GPLコードを学習させたモデルを公開頒布する行為がGPLライセンス違反となるか」について明確な指針はない。総じて、日本における法的整理は「著作権レイヤーでは原則セーフだが、契約レイヤーは白紙」という状況にある。ゆえに、モデルへのGPL伝播理論を巡る日本での議論は今後の司法判断や立法動向に委ねられており、現時点では文化庁の整理に従って慎重に運用指針を考えるほかないだろう。


ライセンスのモデルへの伝播理論への否定材料

前節までに見たように、モデルへのGPL伝播理論は法的にもゼロではない。しかし、多くの法律家や技術者は、この理論には重大な弊害があると指摘する。ここでは、著作権法、GPL条文、技術、実務政策の各レイヤーから、モデルへのライセンス伝播理論を否定する代表的な材料を示す。

著作権法レイヤーでの否定材料

まず、著作権法上ではAIモデルを「学習元著作物の二次的著作物」や「複製物」と見なすことには無理がある。多くの場合、モデルの内部には特定の著作物の表現が人間に認識可能な形では格納されていない。モデルはテキストやコードを重みパラメータに変換した統計的な抽象を保持しているに過ぎず、それ自体は人間にとって何ら創作的表現ではない。著作権法上の「二次的著作物」とは、原著作物の表現上の本質的特徴を直接感得できる形で取り入れた創作物を指すが、モデルの重みからは元コードの創作性を直接感得することはできない。言い換えれば、モデルは元コードを内包していると評価できるほどには直接的に作品としての性質を示さないのである。例えば、英国高等法院はGetty v. Stability AI事件の判断で「Stable Diffusionのモデルそのものは学習画像の侵害的複製物ではない」と述べており、モデルを著作物の複製と見なすことに否定的な見解を示した。このように、モデル自体を著作物の集積ないし編集著作物とみなすことには国際的にも慎重な立場が多い。

また、モデルが生成する出力には確率的及び統計的な変換が加わっており、多くの場合は学習元と似ても似つかないものが出力される。仮に偶然に一致や類似が生じても、それが依拠性のある複製なのか偶発的類似なのかの立証は困難である。著作権侵害を論じる上で必要な依拠性および類似性の認定を、モデル全体について行うのは現実的ではない。結局のところ、著作権法の枠組みでは「モデルが特定の著作物に依拠しているか」を作品毎に判断するほかなく、モデルそのものに一律の著作物性や侵害性を認めるのは飛躍が大きい。日本法の整理でもモデルは大半のケースで複製物ではないとされている通り、著作権法上はモデル=著作物という図式には無理があると考えられる。

GPL条文レイヤーでの否定材料

次にGPLそのもののライセンス条文や趣旨から見ていくと、やはりAIモデルにGPLが伝播するという解釈には疑問が呈される。例えばGPLv2の条文では、コピーレフトの対象はGPLで提供された元のコードの「二次的著作物」および「プログラムを含むもの」に限定されている。典型的には、GPLコードを改変若しくは組み込みしてできたソフトウェアやGPLコードと結合(リンク)したソフトウェアがこれに当たると解釈されてきた。AIモデルの場合、モデルが元のGPLコードのどの部分を「含んでいる」のか極めて不明確である。仮に学習に使ったGPLコードの断片をモデルが記憶し得るとしても、それはモデル全体から見ればごく一部であり、多くの部分はGPLコードとは無関係なパラメータで占められている。部分的にGPLコード由来の情報を内包している可能性がある統計モデルが「プログラムを含むもの」と言えるのかについては、GPL起草者による明確な想定も示されていない。

さらにGPLv3では、ソフトウェアのソースコードに対して「改変に適した形式」での提供を要求する。もしAIモデルがGPL派生物だとすると、その改変に適した形式とは何になるのかという問題が生じる。モデルの重みそのものは人間にとって可読性および編集性が低く、それは「改変に適した形式」とは言い難い。では、学習データがソースコードかと言えば、元の学習されたGPLコードそのものはモデルのソースとは言えず、かといって膨大かつ他種多様な全学習データセットを指すのかも不明確である。モデルをGPL準拠で再頒布するために何を公開すればよいのか定義が困難であり、モデルの学習に用いた全てのコードおよびデータを公開せよといった極端な結論にもなりかねない。これは自由信奉者の一部が目指す所ではあるものの現実には非現実的としか言えず、GPLの趣旨であるユーザがソースから改変およびビルドできるようにするという地点からも逸脱している。このように、既存のGPL条文はAIモデルのような産物を直接カバーする設計にはなっておらず、無理に適用しようとすると条文上も運用上も齟齬が生じる。

実際、OSI(Open Source Initiative)が2023年にまとめた「オープンソースAIの定義」では、モデルの「改変に必要な情報」として学習データについて十分詳細な情報を開示すべきとするに留め、学習データそのもの全ての提供までは要求していない。またモデルの重みや学習コードについてはOSI承認ライセンスで公開すべきとしている。

加えて、FSF(Free Software Foundation)自身も現行のGPL解釈だけでAI領域の自由を担保できるとは考えておらず、2024年に「機械学習アプリケーションが自由であるための基準」の策定に着手したと発表している。そこでは「ソフトウェアだけでなく生の学習データやモデルパラメータも含めて四つの自由をユーザに保証すべき」という方向性が示されているが、これは裏を返せば現行ライセンスではそれが保証されていないという認識である。FSFは「モデルパラメータは人間にとって理解可能なソースとは言えないので、直接編集よりも再学習による改変が現実的」とも指摘しており、既存GPLの延長線上でモデルを扱うことに慎重と言える。総じて、GPL条文の文言や想定から外れるAIモデルに対し、一義的にGPL伝播を主張するのはその解釈上から無理がある

技術レイヤーでの否定材料

モデルへのGPL伝播理論には、技術的観点からの反論も強い。AIモデル、とりわけ大規模言語モデルと呼ばれるモデルは、基本的には巨大な統計的傾向を内部に保持しているのであって、元のコードやテキストをそのままの形でデータベースのように格納しているわけではない。特定の入力に対し特定の出力を返すのも、あくまで確率分布に従った生成に過ぎず、常に学習データと同一の出力が得られるとは限らない。モデルがごく一部の例外的なケースを除いて学習データの逐語的再現を行わないのであれば、モデル内に「GPLコードを含む」と評価することは技術的な実態にそぐわないだろう。実際、OpenAI側はGEMA訴訟で「モデルは個別の学習データを記憶せず、あくまで全データセットから学習した知識をパラメータに反映している」と主張していた。この主張はミュンヘン地裁には受け入れられなかったが、それは明確な歌詞の再現例があったからであり、裏を返せば「明確な再現例がない限りモデルは統計知識の塊である」という見方になるだろう。

さらに、モデルが学習データの断片を出力し得ることは確認されているものの、その割合は全体から見れば極めて限定的と考えられる。部分的記憶の存在をもってモデル全体を複製と見做すのは、画像で言えばごく小さなモザイク状の断片を含むだけの全体を写真の複製と主張するようなもので、過剰な一般化と言える。技術的には、モデルの特定パラメータがどこまで元データの影響を保持するか定量的に測ることは難しく、モデルと学習データの対応関係はやはり統計的でしかなく線引きが困難である。よって、「どの程度似ていればGPLが伝播するのか?」といった基準をそもそも定めようがない。侵害か否かの判断は個別の出力単位で行わざるを得ず、これではモデル全体に単一のライセンスを適用するという発想とは整合性が取れないだろう。技術面からはモデルは基本的に統計的変換物であり、大部分はGPLコードと無関係である以上、一括でGPLを適用するのは不合理であると言える。

実務的・政策的な否定材料

最後に、実務上および政策上の観点からもモデルへのライセンス伝播理論には大きなデメリットを指摘できる。もし仮に、このGPL伝播理論が法的に認められるとどのような事態が起こるだろうか?極端な例としては、ある大規模モデルの学習に100万件のコードリポジトリが使われていた場合、それらに含まれる様々なライセンス(GPL、MIT、Apache、プロプライエタリ等)が全てモデルに「伝播」し、そうなるとモデル提供者は100万件分のライセンス条項全てに適合する形でモデルを頒布しなければならなくなる。現実問題として、GPLv2とApache-2.0のように条件が矛盾する組合せもあるだろうし、著作権表示の膨大な集合を一モデルに付与して管理することも非現実的としか言えない。ライセンスが混在する学習データから作られたAIモデルに全ライセンスを適用するのは実務的に破綻としか言えず、結局、それを避けるためにできることは学習データから最初からGPL等のコピーレフト性のあるライセンスのコードを除外することぐらいしかないだろう。

このような事態は、我々のコミュニティにとって本当に望ましいだろうか?GPLの精神はソフトウェアの自由な共有と発展を促すことである。しかし、AIモデルへの過剰な伝播を主張することで企業がGPLコードの利用を忌避し、結果としてGPLソフトウェアが持つ価値がAI時代に生かされなくなるなら本末転倒であろう。ソフトウェア開発の現場では自社製品にGPLコードを混入させない方針を取る企業も多いが、同様に「自社AIの学習データにGPLを含めない」となれば、GPLプロジェクトはデータ提供源として価値を失いかねない。さらに言えば、現在進行中のAIを巡る法廷での争いはどちらかと言えば金銭補償や規制ルール作りに軸足があり、GPLが理想とするようなコードの共有という方向とは別ベクトルに進みつつあるのが現状である。モデルへのGPL伝播理論だけが独り歩きしても、現実には訴訟リスクを避けるためのデータ排除やクローズド化が進むだけで、自由なソフトウェア文化の拡大には繋がらない恐れがあるのである。

政策的にも、各国の政府はAIにおける著作物利用について慎重に検討しているが、現時点で「学習データのライセンス違反はモデルに対する法的責任を生じさせる」という明示的ルールを定めた例はない。EU AI規則でも、学習データの質や透明性に関する規定はあるものの、オープンソースライセンスの遵守までは求めていない。むしろオープンサイエンスやイノベーション促進の観点から、テキスト・データマイニングを権利制限で許容する動きが強い。日本でも前述のとおり、第30条の4で広く情報解析利用を認める方向であり、AIモデルにライセンスを強制適用するという政策は少なくとも現状の国際議論では主流ではない。

以上を踏まえると、実務および政策両面でモデルへのライセンス伝播理論はかえってオープンソースの不利益を生む可能性が高く、現実的な解ではないと言える。重要なのは、オープンソースの理念である「ソフトウェアの自由」をAI時代にどう実現するかであり、それは極端な法解釈よりも、透明性の確保やオープンなモデル開発の推進といった現実的手段によって図られるべきだとの意見が有力であり、私自身も常々主張していることである。


OSIとFSFのスタンス

AIモデルへのGPL伝播理論に関連して、オープンソース(および自由ソフトウェア)界隈の主要団体が現時点でどのようなスタンスを取っているかも整理しておこう。代表的な団体としてOpen Source Initiative(OSI)とFree Software Foundation(FSF)となるが、両者はソフトウェアの自由を掲げている所は共通するものの、AIモデルと学習データに関して必ずしも同一のアプローチではない。

まず、OSIは2024年に「オープンソースAIの定義」(OSAID:Open Source AI Definition)を策定し、AIシステムがオープンソースと呼べるための要件を定めた。この定義では、AIシステムに対してもソフトウェアと同様の4つの自由(利用・研究・改変・再頒布)を保障すべきとしており、その実現のために必要な要素として「改変に必要な形式」に関する要件も定めており、そこで以下の3要素を開示することが求められる。

  • データ情報:学習に使用したデータについて、熟練者が同等のモデルを再構築できるのに十分な詳細情報を提供すること
    • これは学習データそのもの全てを公開することを必須とするものではないが、公開できないデータがある場合でもその出所・範囲・性質・取得方法を開示し、公開可能なデータはリストアップし、第三者から入手できるデータについても情報を提供することを求めている
  • コード:モデルを学習・実行するための完全なソースコード一式をOSI承認ライセンスで公開すること
  • パラメータ:モデルの重み(パラメータ)をOSI承認の条件で公開すること

OSIは「オープンソースAI」を実現するにはモデル重みだけでなく学習に用いたコードと学習データに関する情報が不可欠としつつも、学習データそのものの完全公開までは要求していない点に注目すべきである。これは、例えばプライバシーや機密の関係で生データを公開できない場合でも、そのことを明らかにしてデータの性質を説明することで代替し得るという柔軟な姿勢である。また、モデルパラメータの自由な利用を確保する法的メカニズムは今後明確化していく課題としており、現時点ではパラメータに対する法的権利制御(例えば著作物性の有無など)にも結論を出していない。

これらから読み取れるように、OSIとしてはAIモデルについても原則オープンソースの定義のレベルでのオープン化を推進するが、学習データの扱いについては情報開示レベルでの要件に留めていることになる。これにより、OSIはモデルへのライセンス伝播理論を採用して学習データ公開を求めることを避けていると言え、まず透明性と再現可能性を担保する現実解を模索しているとも言える。原理的には、OSIとしてはGPL伝播理論をOSAIDの定義公開時点で否定したとも言えるだろう。なお、この定義の策定プロセスの最終盤で学習データの必須論を封じたのはおそらく自分であるが、これは正しい判断だったと私は考えている。

一方、FSFおよびFSF Europe(FSFE)はより原理原則に忠実なスタンスを取っている。FSFEは2021年時点で「AIアプリケーションが自由であるためには、その学習用コードも学習データも共に自由ソフトウェアライセンスで公開される必要がある」と明言している。すなわち、モデルを改変若しくは検証するには学習データも含めて手に入らねばならず、ゆえに両方が自由でなければならないという考え方である。また、FSF本体も2024年の声明で、「現在の理解では、MLアプリケーションが自由と呼べるためには全ての学習データとそれを処理するスクリプト類が四つの自由を満たさねばならない」と述べており、自由の要件をデータにまで拡張しようとしている。このようにFSF/FSFEは学習データ非公開のモデルはソフトウェア部分が自由でも全体として不自由であるという立場に立っている。

もっとも、FSFは同時に「不自由機械学習アプリケーションが倫理的に不当かは場合による」という旨も述べており、例えば医療診断AIの学習データ(個人情報)を公開できないことには「正当な道徳的理由」があり得るとも言及している。その場合、そのAIは不自由ではあるが社会的有用性から使用が倫理的に許される場合もある、という含みを持たせている。このあたりにFSFの理想と現実の折衷を模索する姿勢が見えるが、いずれにせよFSFは究極的には学習データまで含めた自由を目指していることは間違いない。

では、FSFがAIモデルへのGPL伝播理論を支持しているのかと言えば、必ずしもそうではない。彼らの主張は法的強制力というより倫理基準若しくは理想像に近く、現行GPLライセンスの解釈としてモデルに適用されると主張しているわけでもない。むしろ前述のように新たな基準や合意を作ろうとしている段階である。FSFが資金提供したCopilot問題に関するホワイトペーパーでも、法的論点としては著作権やライセンス違反が論じられつつも、実質的にはCopilotの出力にGPLコード断片が含まれていた場合に利用者がGPL違反リスクを負う懸念といったの利用者(下流開発者)のGPLコンプライアンス問題として語られている側面が強い。これは、モデルそのものへのGPL適用というよりAIコーディングツールを使う開発者への注意喚起であり、モデル提供者に直接GPL遵守を強制するアプローチとは異なる。

Software Freedom Conservancy(SFC)は当然のようにこの問題に強い関心を寄せているがやはり慎重な所もある。SFCは2022年にGitHubに対する抗議キャンペーン「Give Up GitHub」を開始し、Copilotのやり方はオープンソースの理念に反すると非難しており、Copilot集団訴訟にも関与している。ただし、SFCのブログ記事では、この訴訟について「オープンソースコミュニティの原則から外れた解釈が持ち込まれるリスク」に懸念を示し、原告側にもコミュニティ主導のGPLエンフォースメント原則を遵守するよう呼びかけている。SFCは、Copilotの行為が「前代未聞のライセンス違反」であるとも述べており、GPL伝播理論に対して全面否定ではないものの法廷闘争の結果次第ではコミュニティにとって望ましくない判例ができることを恐れているとも取れるだろう。SFCはGPL伝播を追及する側面と司法に委ねるリスクとの間で慎重にバランスを取っていると言えるかもしれない。

最後に、自由なソフトウェア陣営として懸念されるのは、ライセンスの過剰な伝播はかえって自由を損なう結果を招きかねないという点である。OSIもFSFも究極的にはAIを誰もが活用できる開かれたものにしたいと考えているが、全データの公開要求等において法理の純度を高めることが本当に目的達成につながるかを慎重に見極めている。過剰な伝播解釈によってオープンデータの忌避、あるいは訴訟乱発による委縮効果などのデメリットを考慮すれば、自由の普及という大局を見失わないことが肝要だという点で主要団体の考えは共通項があるように私は感じている。モデルへのGPL適用を煽るよりも、どうすればモデルとデータをオープンにできるか、どの部分は現実に即して緩和すべきか、といった現実解の追求が今後も続くだろう。


まとめ

以上、AIモデルへのGPL伝播理論の現在地を見てきたが、結論として本理論は「かつてほど喧伝されなくなったが、完全に消え去ったわけではない」という中途半端な位置にある。Copilot集団訴訟やGEMA v. OpenAI訴訟といった訴訟の中で、学習データのライセンス違反やモデル内の複製という論点が精査され始めた結果、かえって侵害認定のハードルは下がりつつあるようにも見える。実際、ミュンヘン地裁の判断はモデル記憶を複製とみなし、Copilot訴訟ではオープンソースライセンス違反の主張が生き残っている。

しかし一方で、GPL等のライセンス伝播のハードルは依然として高い。侵害が認められることとそれが直ちにGPL等でモデル全体を公開せよという結論になることの間には大きな隔たりがある。現状の訴訟も求めているのは差止めや損害賠償であってモデルの強制的なGPL化ではない。モデルへのGPL伝播理論そのものを司法が支持した例は皆無であり、法的には未踏の領域である。仮に今後どこかでその主張が試みられても、前述した法的・技術的・実務的な反論に直面することになるだろう。

もっとも、状況はまだ流動的な部分もあり、各国の政策やコミュニティの動向によって線引きが変動する可能性もある。例えば、欧州で権利者団体の圧力が強まれば、ライセンス遵守を含むガイドラインが策定される可能性もある。また、コミュニティ内でAI時代のコピーレフトのあり方について合意が形成されれば、新たなライセンスが登場するかもしれない。そうした変化が起これば、モデルへの伝播理論が再評価される局面も訪れるだろう。

私見を交えれば、現時点で重要なのはソフトウェアの自由とAI領域での自由をいかに両立させるかという視点である。コピーレフトの理念を闇雲にAIに適用しようとするのではなく、AI特有の技術的性質と産業構造を踏まえつつ自由を最大化するには何が最善かを考える必要がある。幸いにもオープンソースコミュニティからは既に大規模なAIモデルのオープンな公開やデータセットのクリーニング手法、ライセンス表記の自動付与化など、実践的な諸問題の解決策も模索されている。そうした自発的な取り組みを促進し、必要に応じて法的整備で後押しすることが、自由と発展のバランスを取る鍵となるのだろう。

モデルへのGPL伝播理論は、追求すべき理想なのか避けるべき悪夢なのか判断が分かれるところではある。しかし、本稿で述べたように2025年現在の情勢を見る限り、直ちにそれが現実となる状況ではないし、コミュニティも慎重な姿勢が大勢だろう。今後も司法・立法・技術の各面で試行錯誤が続くと推測されるが、我々のコミュニティとしては拙速な結論に飛びつくことなく、技術革新とソフトウェアの自由の両立点を模索し続ける必要がある。そのプロセス自体が、自由なソフトウェア精神の延長線上にあるAI時代の新たな挑戦と言えるのだろう。

参考