美国民事诉讼大语言模型著作权进行中
In re OpenAI (多区诉讼)

In re OpenAI (多区诉讼)

极重要
法院:Southern District of New York
判决时间:2025年01月01日
当事方:{"plaintiff":"文学和新闻媒体版权所有者 (包括《纽约时报》、作家协会等)","defendant":"OpenAI"}

2025年,十余起针对OpenAI的案件被集中到纽约南区联邦地区法院进行多区诉讼(MDL)。这些案件由文学和新闻媒体版权所有者提起,指控OpenAI未经授权使用其作品训练大型语言模型。MDL将统一审理审前活动,包括简易判决动议和证据开示争议。

案情概述

2025年,十余起针对OpenAI的案件被集中到纽约南区联邦地区法院进行多区诉讼(MDL)。这些案件由文学和新闻媒体版权所有者提起,指控OpenAI未经授权使用其作品训练大型语言模型。MDL将统一审理审前活动,包括简易判决动议和证据开示争议。

核心争议焦点

  • 1AI模型训练数据版权
  • 2未经授权使用受版权保护的作品训练LLM
  • 3AI生成内容是否构成侵权

法院说理

裁判要点

  • 1十余起案件被集中审理,可能对LLM诉讼产生巨大影响
  • 2审前活动将由同一法官监督
  • 3据报道已进行和解谈判

AI技术详情

技术类型:大语言模型
技术原理示意图 · 训练数据侵权链条
版权内容📚 书籍📰 新闻🎵 歌词🖼️ 图片💻 代码未经授权爬取/下载训练数据集· 数据清洗· 去重处理· 格式化模型训练· 梯度下降· 权重更新· 知识记忆· 能力涌现AI产品⚠️ 版权侵权链条:从未授权获取到商业化AI产品

技术实现说明

大语言模型(LLM)的训练过程涉及对互联网上海量文本数据的采集和处理,其中可能包含大量受版权保护的内容。 本案(In re OpenAI多区诉讼)涉及的核心技术争议: 1. 训练数据来源:OpenAI使用的Common Crawl、Books1、Books2等数据集包含了大量未经授权的版权作品; 2. 记忆效应(Memorization):研究表明,LLM在训练过程中会对频繁出现的文本形成近乎完整的"记忆",能够在特定提示下逐字输出原始训练数据; 3. 输出侵权:当用户要求ChatGPT复述特定书籍内容时,模型能够生成与原著高度相似的文本; 4. 系统性侵权:OpenAI的数据采集行为构成大规模、系统性的版权侵权,而非偶发性侵权。 法律争议焦点:LLM训练过程中对版权作品的"学习"是否构成合理使用;以及模型输出与原著高度相似是否构成实质性相似侵权。

延伸阅读

1篇
Ryan Calo学者精选

University of Washington School of Law

Mass Tort Litigation and AI: Lessons from In re OpenAI

The consolidation of dozens of AI copyright cases into a single MDL proceeding reflects the judiciary's recognition that AI litigation presents systemic, not merely individual, legal questions. The outcome will effectively set the rules for the entire generative AI industry's relationship with copyrighted training data.