AI训练天价赔款启示:15亿美元和解协议解读
2025 年 9 月,美国加州北区法院案号 Bartz v. Anthropic 的集体诉讼进入关键节点。Anthropic 与原告一方达成了总额15亿美元的集体和解协议,成为迄今为止AI行业在版权纠纷中付出的最大一笔和解赔偿金。
这份协议并非普通的商业妥协,而是一次对行业的警示:训练数据的合法来源,决定了整个商业模式的合规基础,如果语料来源本身就是盗版,是无法通过“合理使用”来进行有效抗辩的。
一、和解协议的核心要点
1、巨额赔偿与分期支付
协议设立15 亿美元和解基金,预计按作品计算,每部作品的赔偿额约为 3,000 美元。Anthropic 将在初步批准、最终批准以及此后两年的分期节点完成支付。这一金额相当于给“盗版语料”设定了一个“清库价”。
2、释放范围仅限过去
协议的“Release”条款明确,只对 既往使用盗版图书进行下载、保有和训练的行为给予释放。换言之,这是一场对“历史侵权”的买断。未来是否可以继续使用这些作品进行训练?答案是否定的。
3、输出侵权风险仍然存在
协议并未对模型未来的输出侵权进行豁免。倘若模型在生成文本时出现与原著高度相似的复现,权利人仍然可以另行起诉。
4、数据销毁义务
Anthropic 承诺销毁从 LibGen、PiLiMi 等影子库获取的盗版副本,防止“侵权数据”继续流入模型开发链路。
二、与美国既有判例的呼应与差异
1、Ross 案(Thomson Reuters v. Ross, D. Del. 2024)
法院认定Ross 逐字复制法律摘要训练模型,缺乏转化性,侵权成立。这一判例强调了 “是否照搬”与“市场替代” 的考量。
2、Alsup 法官在 Bartz v. Anthropic 的早期裁定
Alsup 区分了 “合法购买并扫描” 与 “盗版下载” 两类数据来源。前者仍有可能被认定为合理使用,后者则不可能。
本次和解协议虽然不是司法认定,但其逻辑与Alsup 的观点高度一致:数据来源的合法性是合理使用讨论的前提。盗版来源不可能通过“合理使用”抗辩脱责,只能通过赔偿与销毁来终结争议。
不同之处在于,判例是对合理使用四要素的法理分析,而和解协议是商业意义上的“止血”。它解决了 Anthropic 的历史包袱,却未能提供未来训练的通行证。
三、对未来AI 训练的合规启发
1、数据合规成为生死线
和解金的金额本身并不重要,重要的是行业信号:影子库的数据不能碰。任何企业若继续使用盗版来源,后果就是不可控的集体诉讼。
2、“买断”不是许可
支付赔偿金并不意味着获得了未来训练的权利。企业仍需通过正版采购、与出版社签订许可协议,或确保合理使用成立来构建新的训练管道。
3、 输出控制不可或缺
协议保留了权利人针对模型输出提起诉讼的权利。这意味着合规不仅是训练环节的过滤,还包括模型防止“复现受保护内容”的技术机制。
4、文档化与证据链
未来的合规不仅是政策宣示,更需要在企业内部建立数据来源台账、销毁记录、权利证明文件。在潜在的诉讼或调查中,这些将成为决定性证据。
5、 市场秩序的倒逼效应
和解将推动AI 公司与出版业形成新的许可模式。3,000 美元/部的“清库价”并不是市场价格,但它会成为出版社谈判的参考锚点。
四、小结
这份15亿美元的和解协议,注定会被写进AI行业的合规史。它不是合理使用问题的终点,却是一次鲜明的警告:在缺乏合法来源的情况下,合理使用的大旗撑不起来。
未来的AI 训练,必须从一开始就以合法、可追溯的数据为基石,否则即使模型再先进,商业前景也可能毁于一次集体诉讼,尽管集体诉讼在中国不是一个被常态化采用的维权策略,但由此引发的模型信任问题、舆情等成本也仍然难以估量。
