华为芯片这么好，为什么还用英伟达？

2025-07-30

华为昇腾384超节点

大家好，这里是程序员晚枫，开始今天的文章之前，先说一句题外话：

恭喜中国长安汽车集团有限公司成立，没想到以一个汽车行业从业者的身份，在重庆近距离见证了这次历史事件。👏

2025.7.29成立

言归正传， 本文绝不是黑华为，只是陈述客观事实

这几天上海的WAIC绝对是AI 圈的热点事件，今天我也刷到一个新闻：昇腾384超节点获评WAIC 2025镇馆之宝

华为芯片

但我非常好奇一个问题：对比英伟达在GPU市场上呼风唤雨的号召力，华为的芯片为什么如此低调，甚至鲜有人使用呢？

1、华为的GPU/AI加速芯片是否够用？

首先从纯技术的角度来回答一个问题：华为有没有制作大模型训练卡的能力？

关注GPU的差异，一般重点关注峰值算力这个指标。

华为旗下真正对外批量出货、且能被开发者当成“GPU”使用的芯片全部隶属于昇腾（Ascend）系列。

以下是 华为昇腾910B、英伟达H100、A100 和 H20 四款AI芯片的核心性能对比表（左右滑动查看）：

芯片型号	架构	FP16算力	显存容量	显存类型	显存带宽	制程工艺	功耗	适用场景
昇腾910B	华为达芬奇	256–376 TFLOPS	64 GB	HBM2e	392 GB/s	7nm	400W	训练+推理，国产替代，成本敏感型
英伟达H100	Hopper	1979 TFLOPS	80 GB	HBM3	3.35 TB/s	4nm	700W	大模型训练、超算、AI推理
英伟达A100	Ampere	312 TFLOPS	80 GB	HBM2e	2.0 TB/s	7nm	400W	通用AI训练/推理，成熟生态
英伟达H20	Hopper（精简版）	148 TFLOPS	96 GB	HBM3e	4.0 TB/s	4nm	400W	推理为主，中小模型部署

注：H20 的 FP16 算力约为 H100 的 15%，但凭借高显存和带宽，在推理阶段表现优于 A100。

可以看出来虽然华为的GPU不是行业最顶尖，但是够用了。

能用为什么不用？主要原因有2个：技术生态、出口管制。

任何企业使用GPU，都需要一套完整的工具包，来启动、加速GPU。

英伟达提供的工具包是：CUDA，华为提供的工具包是：CANN。

开源的CUDA

与英伟达 CUDA 相比，华为 CANN 生态目前仍存在以下关键劣势：

维度	CUDA（英伟达）	CANN（华为）	差距要点
生态成熟度	20 年积累，全球 400 万+ 开发者，PyTorch/TF 默认优先适配	仅 6 年，官方统计 60 万开发者，多数项目仍需“政治任务”驱动	社区规模、第三方贡献、算法库丰富度差距明显
工具链完整性	cuDNN、TensorRT、Nsight、cuBLAS、Thrust… 一键安装即用	Ascend C、AOL、GE、HCCL… 需额外学习，调试工具仍简陋	缺“一键 profile→自动调优→上线”闭环
框架原生支持	PyTorch/TF/JAX 默认 CUDA backend，零成本迁移	需 fork 出“MindSpore 版”或打 CANN plugin，70 % API 需验证	主流开源模型往往先 CUDA，后 CANN
编程模型通用性	支持图形、HPC、AI 通用并行计算	专为 AI 神经网络深度定制，图形/科学计算几乎不可用	业务一旦超出 AI 范围就无解
跨平台能力	同一套 CUDA 代码可在 A100、H100、甚至 Jetson 上跑	只能在昇腾 NPU 上跑，硬件锁定	企业担心“二次绑架”
迁移成本	存量 CUDA kernel 直接复用	60 % 以上算子需重写或图优化，性能常不达预期	项目周期平均延长 1–3 个月
产业惯性	招聘市场 90 % 职位写“熟悉 CUDA”	简历中“CANN 经验”仍属稀缺技能	人才获取与培训成本高