全球AI诉讼风向标

核心开源大语言模型深度分析PDF

第一章：绪论：重新定义大模型“开源”的范式

随着人工智能技术的迅猛发展，“开源”在大语言模型（LLM）领域被赋予了新的、多维度的关联。与传统软件开发中源代码、编译工具和最终产品的高度统一不同，大模型的“开源”呈现出复杂的分层结构，这直接影响了模型的可用性、再开发潜力以及商业应用模式。本报告旨在超越表层的定义，深入剖析最核心的开源模型，深入研究其具体开放的对象、内部的许可协议以及各自商业的与技术策略。

首先，本报告将大模型“开源”划分为几个核心层次：

模型权重（Model Weights）的开放：这是最核心的形式，指的是预训练或指令参数后，包含总计亿甚至数千亿参数的模型文件。模型的性能和知识就存储在这些权重中。开放权重允许用户在本地或外接服务器上进行推理和决策，是实现真正自主控制的基础。

模型代码（模型代码）与架构（架构）的开放：这部分通常包括模型的网络结构定义、加载和运行模型的脚本脚本。它让开发者能够理解模型的内部工作机制，进行二次开发或性能优化。但是，这与传统的开源软件开发依然不同，因为模型代码本身不包含其核心智能，而隐藏于庞大的参数文件中。

训练过程与数据集的开放：这是训练过程中最罕见的开放形式。它包括用于训练过程的原始数据集、训练过程的详细配置、超参数和计算资源消耗。只有极少数项目能够提供完整的数据，大多数公司仅通过技术报告或论文模型形式提供部分摘要信息，以保护其核心知识产权。

平台与生态工具的开放：围绕模型构建的工具、库、API和开发框架。这是一种生态层面的开放，旨在降低开发倾向，吸引更多开发者加入，从而构建一个围绕其核心技术的强大生态系统。

本报告将围绕这四个维度，对Llama、DeepSeek、Grok、Qwen、Baichuan以及飞桨等主题模型进行深入分析，揭示其在技术、法律和商业策略上的精妙布局。

第二章：Llama系列：元的“开放式”市场主导力构建

Meta公司的Llama系列模型从最初的意外泄露，到有意识地重塑其构建AI生态的战略工具，其发展历程正是如此。从Llama 2开始，Meta就明确将“开放权重”作为其核心策略，在此并随后发布的Llama 3、Llama 3.1、Llama 3.2、Llama 3.3，然后是最新的Llama 4系列中持续迭代，不仅在参数规模上不断突破（从8B到405B），更通过多模态能力和超长上下文窗口拓展了其应用边界。

核心开源对象剖析

Llama系列开源的核心对象是模型权重与分词器（Tokenizer） Meta通过其官方网站和Hugging Face等平台提供预训练和指令参数模型的权重文件，允许用户下载用于本地推理或参数。此外，GitHub仓库中还包含了用于加载、运行和量化模型的

参与代码和脚本，例如用于下载模型的Llama CLI工具

llama-stack，以及用于推理的PyTorch运行脚本。这使得开发者能够方便地在自己的硬件上配置模型，进行实验和应用开发。最新发布的Llama 4系列模型对硬件提出了更高的要求，例如Llama 4 Scout需要至少4块GPU才能进行全精度推理。

许可协议（License）的精妙博弈

Llama系列最引人注目的策略体现在其许可协议上，尤其是“Meta Llama 3社区许可协议”该协议的核心条款之一是：

如果公司除关联公司的产品或服务的月活跃用户（MAU）超过7亿，则必须向Meta申请商业许可这种许可并非完全无限制，用户需要先访问Meta官网，阅读并接受许可协议，然后通过电子邮件获得一个有时有效的下载链接。

这种矛盾的“可控开放”模式，实际上是一种致命的高度明确的市场策略。通过对MAU的限制，元成功将谷歌、微软、亚马逊等超大型科技公司排除在外部，防止这些部门直接利用其免费模型来训练自己的闭源商业产品，从而保护了其核心竞争力。同时，该策略又向全球数以万计的开发者、多数公司和中小企业开放。企业敞开了大门，极大地减少了对骆驼模型的利用。这种迅速的做法形成了一个庞大的骆驼生态系统，打造模型成为行业事实上的标准。这一系列表明，元的“开放”并不是很严重的利他主义，而是用社区力量巩固自身市场地位、同时为未来与新政党进行商业谈判筹措的高级商业架构。

另外，随着Llama 3.2-Vision和Llama 4 Scout等新模型的发布，Llama系列已经从最初的纯文本模型转变为支持图像理解和高达1000万令牌超长上下文该技术演进揭示了下一代“开放”模型的核心功能将不再是单一的文本生成，而是其在复杂、多模态、超长语境下的综合推理和应用能力，这是对实际应用场景如代码库分析、长篇文档摘要的深度响应。

第三章：DeepSeek系列：MoE架构与“代码+模型”的开源双模式

DeepSeek系列模型习得独特的混合专家（MoE）架构和创新的“双重许可”模式，在中国事实上全球的开源生态中受到了重要地位。其核心技术优势依托MoE架构，该架构使得模型能够在保持强大性能的同时，显着降低训练和推理成本例如，DeepSeek-V2的总参数量高达236B，但在每次处理时仅激活其中21B参数，其效率远超传统的密集模型。

独树一标志的“双重许可”开源项目

DeepSeek系列采取了独树一标志的开放策略，其开源对象可以分为两个方面：

模型权重： DeepSeek明确发布了其MoE架构的模型权重，包括通用模型（如DeepSeek-V2-Chat）和代码模型（DeepSeek-Coder-V2-Instruct）等，在Huging Face等社区平台下载。

来源修改代码与技术报告：其基础代码库遵循MIT许可证，这是一个高度广泛的开源许可，允许用户自由使用、和分发代码此外，其GitHub仓库中还提供了详细的技术报告，提供了研究学习模型训练细节的宝贵资料。

定制化模型许可：商业友好与使用限制的平衡

尽管底层代码遵循了极为开放的MIT许可证，但DeepSeek的核心资产——模型权重——却受到制作于一件定制化的“DeepSeek模型许可”与Llama根据公司规模设定的限制不同，DeepSeek对所有规模的企业和开发者一视同仁，允许无限制的商业用途，且不要求任何收入外包。

然而，这种商业友好性伴随着一个重要的法律工具：“基于使用的限制”（Use-based Restrictions）该条款明确禁止将模型用于特定非法或致命目的，例如生成潜在信息、进行网络攻击，甚至禁止用于开发“竞品”。

DeepSeek的这种许可模式是其开放策略中的一个关键组成部分。它旨在从法律层面约束模型的补给，在“开放”与“安全”的激烈辩论中找到了一个平衡点。这一策略不仅让模型得以广泛传播，获得社区的反馈和创新，还通过法律手段对潜在的恶意进行干预。这是一种比较简单地关闭模型的行为，旨在增强社会责任感此外，DeepSeek选择开源其高效的MoE架构实现，表明其核心价值不仅在于模型的最终性能，更在于其底层技术的突破。通过开放架构，DeepSeek正在尝试建立一个康复技术为基础的生态系统，鼓励其他阑尾栈和企业在其技术上进行开发，为公司未来可能提供的API商业服务奠定坚实的基础。

第四章：Grok系列：xAI的“开源”宣言与商业化策略

Grok 系列模型是 xAI 公司在人工智能领域的一次大胆尝试，其开放策略充满了品牌宣传和商业博弈的色彩。从 Grok-1 到 Grok-Code-Fast-1 和 Grok-4，不同版本的开放方式存在明显差异。

Grok-1：高举“开放”旗帜的基础模型

Grok-1的开放对象是授权的基础架构模型权重和架构。这是一个拥有3140亿参数的混合专家（MoE）模型，但每次仅激活其中25%的权重。xAI为Grok-1选择的许可协议是

Apache 2.0 ，这是目前主流开放模型中最广泛的许可之一，允许无限制的商业使用和再分发。

Grok-1在Apache 2.0下开放的举动被媒体解读为对OpenAI的“直接恶搞”和在“开放”与“封闭”之争中的“打响的一枪”通过开放一个预设的基础模型，xAI既履行了其“开放”承诺，又避免丢失最宝贵的知识产权——在对话、指令遵循等方面进行干预后的模型能力。这表明，xAI的“开源”更多是一种公共关系和预警工具，进而在高调的社会中塑造其品牌形象，而不是一个旨在实现社区共建的纯粹技术策略。

Grok-Code-Fast-1与Grok-4：商业化的封闭路径

与 Grok-1 的开放形成了对比，Grok-Code-Fast-1 和 Grok-4 则遵循了一条商业化的封闭路径。虽然名称中标有“Grok”，但这些模型并非以可下载的权重开放形式。相反，它们被作为API 服务提供给开发者和企业伙伴，并以按量付费（按令牌数收费）和订阅制（SuperGrok）的方式进行商业化。

普遍的混合模式使得公司能够同时享受开源引入的社区红利，同时通过封闭服务实现商业变现，将技术研究与商业价值紧密捆绑。Grok的案例就是这种策略的典型代表，它将最先进、经过高度优化的模型作为付费服务，并将一个基础模型版本开放，从而在市场竞争中实现利益最大化。

第五章：中国开源模型：Qwen与百川的实践

中国的AI公司在大模型领域践行了强大的开源优势，形成了具有自主特色的开放模式。其中，通义千问（Qwen）和百川智能（Baichuan）是两个最具代表性的案例。

通义千问（Qwen）：阿里系的全面开放生态

Qwen团队的开放范围极为广泛，涵盖了多个领域，包括语言模型（Qwen系列）、多模态模型（Qwen-Image, Qwen-VL）和特定领域模型（Qwen-Coder、Qwen-Audio）他们不仅开放模型权重，还在GitHub上提供了相应的代码库。Qwen系列模型支持和免费开源，其模型和工具链可在阿里云的ModelScope社区获取，这体现了其全面构建开放生态的决心。

百川智能（Baichuan）：Apache 2.0下的快速迭代

百川智能也遵循了开放模型权重的路线。其百川2系列模型（7B、13B）均开源了模型训练检查点（Check Point）另外，他们也开放了技术报告和源代码，其多模态模型Baichuan-Omni-1.5也同样开放了源代码。百川的多个模型（如Baichuan 2、Baichuan-Audio）均采用

Apache 2.0许可证，这与Grok-1的开放性相呼应，为开发者提供了极大的商业自由度。

飞桨（PaddlePaddle）：独特的“平台”开源模式

区别于前面提到的单一模型，开源飞桨（PaddlePaddle）是一种独特的“平台”级开放模式。它是一个完整的开源深度学习框架，其核心理念提供了一个完整的技术栈和解决方案，而不是一个单一的模型。飞桨展开是一个巨大的

模型库（Model Zoo），包含超过80个经过工业验证的官方模型和200多个训练预模型，涵盖视觉、NLP、语音等多个领域。该平台提供从训练、部署到推理的标准化能力，旨在培养用户的技术粘性，在飞桨生态内进行开发，以长期主导中国的AI基础设施市场。

无论是百川还是Qwen，都广泛采用Apache 2.0这种高度自由的开源许可。这与Llama的“社区许可”形成了爆发对比，表明中国公司在开放大模型时，更倾向于通过最大化商业自由来快速抢占市场份额、扩大生态影响力。这种策略旨在鼓励企业和开发者将模型快速应运用实际商业产品中，从而在激烈的市场竞争中获得先发优势。飞桨的案例则揭示了中国AI公司在开源战略上的另一个方向：通过开放一个完整的平台和工具链来吸引开发者，旨在培养用户的技术粘性，是一种反过来战略深度的布局。

第六章：综合对比与深入分析

本报告对最具代表性的开源大模型进行了深入分析，揭示了“开源”背后复杂而多元的商业与技术考量。下文对Llama、DeepSeek、Grok、Qwen和百川的核心开放策略进行了系统性对比。

核心开源大模型关键要素对比表

导出至表格

深度洞察：大模型“开源”的未来走向

基于上述分析，可以得出以下结论：纯粹的“开源”或“封闭”模式在大模型领域都难以持续。未来的趋势是混合商业模式的必然性。公司将通过开源基础模型来建立社区和影响力，而通过提供付费API服务、云端部署或订阅制来实现商业价值。这种策略使得公司能够同时享受开源带来的社区红利，又通过封闭服务实现商业现现，将技术研究与商业价值紧密结合。

另外，真正的竞争正在从“开放权重”向“开放生态”演进。未来的竞争将不仅仅是单个模型的性能，而是其背后所支撑的平台、工具链和社区。飞跃的“平台开源”模式，以及DeepSeek通过高效的MoE架构来吸引开发者的策略，都围绕着这一趋势。未来的“开放”将越来越像一个完整的生态系统，而不仅仅是模型的开放。