DeepSeek, China, OpenAI, NVIDIA, xAI, TSMC, Stargate, and AI Megaclusters | Lex Fridman Podcast #459
下面是对谈中围绕提到的 20 多个主要话题的要点总结,按照原问题中的顺序逐一整理。为了方便阅读,每个主题都先给出简要背景,再列出对谈中的核心内容和观点。请注意,这些总结均基于对谈中出现的信息和嘉宾的个人见解,并不代表最终事实定论。
1. DeepSeek-R1 和 DeepSeek-V3
背景:
DeepSeek 是 Highflyer 公司(量化交易背景)旗下的 AI 团队,其在 2023 年末至 2024 年初先后发布了两大模型:DeepSeek V3(包含基础模型和 Instruction/Chat 模型),以及 DeepSeek R1(Reasoning 模型)。两者都在国际 AI 社区引起轰动。
核心内容:
- DeepSeek V3:
- 属于“常规”Transformer 语言模型的后续微调版本,包括基础模型(base)和对话/指令模型(instruct/chat)。
- 面向与 ChatGPT 类似的对话式应用场景,可回答一般性问题,格式化输出等。
- 开源权重(Open Weights),但训练数据和代码并未完全公开。
- 许可证相对自由。
- DeepSeek R1:
- 则是一个“推理(Reasoning)”模型,采用了大规模强化学习(RL)和可验证奖励(例如数学和编程的单元测试)进行训练。
- 输出时会显式地呈现出“Chain of Thought”(模型在回答问题时的分步推理过程),从而让用户完整看到模型思考的过程。
- 在数学推理、代码生成等需要多步逻辑的任务上表现非常突出。
- 同样开源权重,并采用极为宽松的 MIT 近似许可(深度开源),可商业使用,且不含附加限制。
- 因可见的推理链和较低使用成本而在社区引发高度关注。
精彩引用(强调 V3 和 R1 的发布及其影响):
Deep seek V3 is a new mixture of experts Transformer language model from Deep seek who is based in China; they also have this new reasoning model R1, which really accelerated a lot of the discussion.
2. 训练成本低廉(Low cost of training)
背景:
DeepSeek 宣称其训练 DeepSeek V3(或 R1 base)仅花费约 500 万美元,远低于外界对大模型预期的几千万到数亿美元规模。对谈中就此数字背后的技术因素展开了讨论。
核心内容:
- 他们采用了多项技术优化(尤其是 Mixture of Experts + Multi-Head Latent Attention 等),大幅降低了训练时实际需要的 FLOPs 和通信成本。
- 具体包括:
- Mixture of Experts (MoE):稀疏激活,让不同“专家”子网络只在特定 token 上激活,降低计算量。
- 多层级的自定义通信调度:深度优化了 GPU 间的通信(甚至低至自定义 NVIDIA 底层库),减少了等待、提高并行效率。
- MLA(Multi-Head Latent Attention):针对注意力机制做了低秩近似和注意力稀疏化,大幅减小内存占用。