DeepSeek V4发布:国产芯片深度适配,AI算力底座迈向多样化

DeepSeek V4发布:国产芯片深度适配,AI算力底座迈向多样化
Liuwx前言
2026年4月24日,国内AI公司深度求索(DeepSeek)正式发布全新系列模型DeepSeek-V4,并同步开源。该模型首次实现与华为昇腾等国产芯片的深度适配,标志着中国AI产业在"去CUDA化"道路上迈出关键一步。
一、DeepSeek V4 核心亮点
(一)模型规格
| 模型版本 | 参数量 | 激活参数 | 最大上下文 | 定位 |
|---|---|---|---|---|
| V4-Pro | 1.6万亿 | 490亿 | 100万 tokens | 旗舰版 |
| V4-Flash | - | 130亿 | 100万 tokens | 经济版 |
(二)性能突破
- 百万字超长上下文:首创混合注意力架构,将压缩稀疏注意力(CSA)和重压缩注意力(HCA)结合
- 世界知识测试:仅次于谷歌 Gemini-Pro-3.1
- Agent能力:进入开源模型第一梯队,Agentic Coding评测达到开源最佳水平
- 推理效率:V4-Pro只需V3.2的27%推理FLOPs,V4-Flash更是只有10%
二、国产芯片适配:历史性突破
(一)首批适配厂商
DeepSeek V4发布当天,多家国产芯片厂商同步宣布完成适配:
| 芯片厂商 | 适配状态 | 特色技术 |
|---|---|---|
| 华为昇腾 | Day 0适配 | 昇腾950超节点,FP4原生支持 |
| 寒武纪 | Day 0适配 | MLU系列,高性能融合算子库 |
| 摩尔线程 | Day 0适配 | MTT S5000,FP8原生支持 |
| 沐曦 | 适配完成 | FlagOS社区支持 |
| 海光 | 适配完成 | 国产GPU |
| 天数智芯 | 适配完成 | 国产GPU |
(二)华为昇腾性能数据
基于DeepSeek-V4-Pro模型(8K输入场景):
- 昇腾950超节点:TPOT约20ms,单卡Decode吞吐4700TPS
- 昇腾950超节点(V4-Flash):TPOT约10ms,单卡Decode吞吐1600TPS
对比英伟达H20:昇腾950单卡FP4算力达1.56P,是H20的2.87倍
(三)中国信通院官方支持
中国信息通信研究院联合人工智能软硬件协同创新与适配验证中心,宣布启动DeepSeek V4国产化适配测试工作:
面向芯片、服务器、一体机、集群、开发框架及工具链、智算设施及平台等人工智能软硬件产品及系统开展适配验证。
三、价格策略:极致性价比
(一)API定价
| 模型 | 输入(缓存未命中) | 输入(缓存命中) | 输出 |
|---|---|---|---|
| V4-Flash | 1元/百万tokens | 0.02元/百万tokens | 2元/百万tokens |
| V4-Pro | 12元/百万tokens | 0.025元/百万tokens | 24元/百万tokens |
(二)对比国际竞品
以DeepSeek-V4-Pro对比Claude Opus 4.6:
| 定价维度 | Claude Opus 4.6 | DeepSeek V4-Pro | 性价比 |
|---|---|---|---|
| 输入(缓存命中) | $0.5/M | ¥0.025/M | 29% |
| 输入(缓存未命中) | $5/M | ¥12/M | 35% |
| 输出 | $25/M | ¥24/M | 14% |
DeepSeek V4-Pro价格仅为Claude Opus的14%-35%
(三)产能绑定
官方定价备注明确指出:
受限于高端算力,目前Pro版本服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro价格将大幅下调。
这意味着DeepSeek的商业化速度,直接绑定了国产芯片的产能释放。
四、产业意义:从"被迫替代"到"主动拥抱"
(一)技术文档首次并列
DeepSeek V4技术报告第3.1节明确写道:
“我们在英伟达GPU和华为昇腾NPU两个平台上均验证了细粒度EP(专家并行)方案。”
这是DeepSeek第一次在正式技术文档中把华为昇腾和英伟达并列写入硬件验证清单。
(二)架构层面的友好设计
V4的以下技术特性,让它对国产芯片更加友好:
- FP4精度:稀疏结构、压缩推理,V4的MoE专家权重和稀疏注意力索引器都采用FP4精度
- 低精度量化:成本骤降的技术特性,同时让国产芯片更易运行
- MXFP8、MXFP4支持:昇腾950原生支持,降低显存占用50%以上
(三)市场反应
A股市场当日(4月24日)给出强烈回应:
| 股票 | 涨幅 |
|---|---|
| 海光信息 | 盘中涨超10% |
| 华虹公司 | 涨近12% |
| 中芯国际 | 涨超5% |
| 寒武纪 | 涨近4% |
| 芯源微 | 涨17.81% |
| 富创精密 | 涨16.03% |
五、挑战与展望
(一)仍需解决的问题
- 产能瓶颈:昇腾950要下半年才批量上市
- 软件生态:CUDA经过十多年积累,开发者惯性巨大,CANN、NeuWare等国产工具链仍在追赶
- 单卡 vs 集群:千卡万卡训练场景下的互联调度和通信开销仍是挑战
(二)未来展望
- 推理侧:国产算力已经比较成熟,头部云厂商从"试点"转向"大规模商用"
- 训练侧:快速追赶中,下半年昇腾950批量上市将是关键拐点
- 生态:从"做芯片"向"做生态"转身,开发者社区建设至关重要
结语
DeepSeek V4加上昇腾、寒武纪、摩尔线程,构成了中国AI第一次在模型和算力两端同时交卷的完整图景。模型和芯片不再是两条平行线,而是一条互相定义的螺旋。
正如业内专家所言:
“DeepSeek的成功证明了基于国产算力同样能够运行世界级的大模型。”
这不仅是技术的突破,更是中国AI产业自主可控进程中的重要里程碑。
参考资料:科创板日报、证券时报、21世纪经济报道、财联社、华为官方、DeepSeek技术报告


