DeepSeek, China, OpenAI, NVIDIA, xAI, TSMC, Stargate, and AI Megaclusters | Lex Fridman Podcast

DeepSeek, China, OpenAI, NVIDIA, xAI, TSMC, Stargate, and AI Megaclusters | Lex Fridman Podcast #459

下面是对谈中围绕提到的 20 多个主要话题的要点总结，按照原问题中的顺序逐一整理。为了方便阅读，每个主题都先给出简要背景，再列出对谈中的核心内容和观点。请注意，这些总结均基于对谈中出现的信息和嘉宾的个人见解，并不代表最终事实定论。

1. DeepSeek-R1 和 DeepSeek-V3

背景：

DeepSeek 是 Highflyer 公司（量化交易背景）旗下的 AI 团队，其在 2023 年末至 2024 年初先后发布了两大模型：DeepSeek V3（包含基础模型和 Instruction/Chat 模型），以及 DeepSeek R1（Reasoning 模型）。两者都在国际 AI 社区引起轰动。

核心内容：

DeepSeek V3：
- 属于“常规”Transformer 语言模型的后续微调版本，包括基础模型（base）和对话/指令模型（instruct/chat）。
- 面向与 ChatGPT 类似的对话式应用场景，可回答一般性问题，格式化输出等。
- 开源权重（Open Weights），但训练数据和代码并未完全公开。
- 许可证相对自由。
DeepSeek R1：
- 则是一个“推理（Reasoning）”模型，采用了大规模强化学习（RL）和可验证奖励（例如数学和编程的单元测试）进行训练。
- 输出时会显式地呈现出“Chain of Thought”（模型在回答问题时的分步推理过程），从而让用户完整看到模型思考的过程。
- 在数学推理、代码生成等需要多步逻辑的任务上表现非常突出。
- 同样开源权重，并采用极为宽松的 MIT 近似许可（深度开源），可商业使用，且不含附加限制。
- 因可见的推理链和较低使用成本而在社区引发高度关注。

精彩引用（强调 V3 和 R1 的发布及其影响）：

Deep seek V3 is a new mixture of experts Transformer language model from Deep seek who is based in China; they also have this new reasoning model R1, which really accelerated a lot of the discussion.

2. 训练成本低廉（Low cost of training）

背景：

DeepSeek 宣称其训练 DeepSeek V3（或 R1 base）仅花费约 500 万美元，远低于外界对大模型预期的几千万到数亿美元规模。对谈中就此数字背后的技术因素展开了讨论。

核心内容：

他们采用了多项技术优化（尤其是 Mixture of Experts + Multi-Head Latent Attention 等），大幅降低了训练时实际需要的 FLOPs 和通信成本。
具体包括：
1. Mixture of Experts (MoE)：稀疏激活，让不同“专家”子网络只在特定 token 上激活，降低计算量。
2. 多层级的自定义通信调度：深度优化了 GPU 间的通信（甚至低至自定义 NVIDIA 底层库），减少了等待、提高并行效率。
3. MLA（Multi-Head Latent Attention）：针对注意力机制做了低秩近似和注意力稀疏化，大幅减小内存占用。