一、什么是大模型参数¶
-
参数单位:B,billion(十亿)
-
参数是什么? 大模型参数是通过海量数据训练得到的内部数值,用于存储知识关联并决定模型处理信息的方式。
- 举例1:参数就好比图书馆书架上的书籍,参数数量=书架的容量,参数值=书的内容
- 举例2:参数好比大厨的调料柜,每个调料罐的种类、配比和添加顺序共同决定了最终菜品的风味与口感,调料的数量对应参数规模,搭配规则对应参数间的关联关系。
二、怎么看参数规模¶
主流大模型参数量级:
| 模型名称 | 开发公司 | 参数数量 | 是否推测 | 备注 |
|---|---|---|---|---|
| GPT-4 | OpenAI | 约1万亿(1T) | 是 | 基于GPT-3(1750亿)和行业分析,估计为5-10倍规模,未公开具体数据 |
| Grok-3 | xAI | 5000亿-1万亿(500B-1T) | 是 | 根据2025年发布及与顶级模型竞争定位推测,未公开具体数据 |
| Claude 3.7 Sonnet | Anthropic | 3000亿-5000亿(300B-500B) | 是 | 基于Claude3(2000亿+)及3.7升级推测,未公开具体数据 |
| Gemini 2.0 Pro | Google DeepMind | 4000亿-6000亿(400B-600B) | 是 | 基于Gemini1.5(2000亿-3000亿)及超大上下文窗口推测,未公开具体数据 |
| DeepSeek V3/R1 | DeepSeek AI | 6710亿(671B) | 否 | 官方数据,每令牌激活370亿参数(MoE架构) |
| 豆包(Doubao) | ByteDance | 约3000亿(300B) | 是 | 基于Doubao1.5Pro性能及Qwen系列对比推测,未公开具体数据 |
| Kimi | Moonshot AI | 约5000亿(500B) | 是 | 基于长上下文和推理能力,参考顶级模型规模推测,未公开具体数据 |
| 通义千问(Qwen2.5-Max) | Alibaba | 3250亿-4000亿(325B-400B) | 是 | 基于Qwen 2.5(720亿-3250亿)及MoE架构升级推测,未公开具体数据 |