👉 项目官网:https://www.python-office.com/ 👈
👉 本开源项目的交流群 👈
大家好,这里是程序员晚枫,开始今天的文章之前,先说一句题外话:
恭喜中国长安汽车集团有限公司成立,没想到以一个汽车行业从业者的身份,在重庆近距离见证了这次历史事件。👏
言归正传, 本文绝不是黑华为,只是陈述客观事实
这几天上海的WAIC绝对是AI 圈的热点事件,今天我也刷到一个新闻:昇腾384超节点获评WAIC 2025镇馆之宝
但我非常好奇一个问题:对比英伟达在GPU市场上呼风唤雨的号召力,华为的芯片为什么如此低调,甚至鲜有人使用呢?
1、华为的GPU/AI加速芯片是否够用?
首先从纯技术的角度来回答一个问题:华为有没有制作大模型训练卡的能力?
关注GPU的差异,一般重点关注峰值算力这个指标。
华为旗下真正对外批量出货、且能被开发者当成“GPU”使用的芯片全部隶属于昇腾(Ascend)系列。
以下是 华为昇腾910B、英伟达H100、A100 和 H20 四款AI芯片的核心性能对比表(左右滑动查看):
芯片型号 | 架构 | FP16算力 | 显存容量 | 显存类型 | 显存带宽 | 制程工艺 | 功耗 | 适用场景 |
---|---|---|---|---|---|---|---|---|
昇腾910B | 华为达芬奇 | 256–376 TFLOPS | 64 GB | HBM2e | 392 GB/s | 7nm | 400W | 训练+推理,国产替代,成本敏感型 |
英伟达H100 | Hopper | 1979 TFLOPS | 80 GB | HBM3 | 3.35 TB/s | 4nm | 700W | 大模型训练、超算、AI推理 |
英伟达A100 | Ampere | 312 TFLOPS | 80 GB | HBM2e | 2.0 TB/s | 7nm | 400W | 通用AI训练/推理,成熟生态 |
英伟达H20 | Hopper(精简版) | 148 TFLOPS | 96 GB | HBM3e | 4.0 TB/s | 4nm | 400W | 推理为主,中小模型部署 |
总结对比:
- 训练能力:H100 > A100 > 910B > H20
- 推理效率:H100 ≈ H20(解码阶段) > A100 > 910B
- 国产可用性:910B 在国内可以自由购买使用,H20 为合规出口版
- 生态成熟度:H100/A100/H20 支持 CUDA,910B 使用 CANN 生态
注:H20 的 FP16 算力约为 H100 的 15%,但凭借高显存和带宽,在推理阶段表现优于 A100。
可以看出来虽然华为的GPU不是行业最顶尖,但是够用了。
2、为什么大家还是“不敢/不愿”用华为?
能用为什么不用?主要原因有2个:技术生态、出口管制。
①CUDA技术生态
任何企业使用GPU,都需要一套完整的工具包,来启动、加速GPU。
英伟达提供的工具包是:CUDA,华为提供的工具包是:CANN。
与英伟达 CUDA 相比,华为 CANN 生态目前仍存在以下关键劣势:
维度 | CUDA(英伟达) | CANN(华为) | 差距要点 |
---|---|---|---|
生态成熟度 | 20 年积累,全球 400 万+ 开发者,PyTorch/TF 默认优先适配 | 仅 6 年,官方统计 60 万开发者,多数项目仍需“政治任务”驱动 | 社区规模、第三方贡献、算法库丰富度差距明显 |
工具链完整性 | cuDNN、TensorRT、Nsight、cuBLAS、Thrust… 一键安装即用 | Ascend C、AOL、GE、HCCL… 需额外学习,调试工具仍简陋 | 缺“一键 profile→自动调优→上线”闭环 |
框架原生支持 | PyTorch/TF/JAX 默认 CUDA backend,零成本迁移 | 需 fork 出“MindSpore 版”或打 CANN plugin,70 % API 需验证 | 主流开源模型往往先 CUDA,后 CANN |
编程模型通用性 | 支持图形、HPC、AI 通用并行计算 | 专为 AI 神经网络深度定制,图形/科学计算几乎不可用 | 业务一旦超出 AI 范围就无解 |
跨平台能力 | 同一套 CUDA 代码可在 A100、H100、甚至 Jetson 上跑 | 只能在昇腾 NPU 上跑,硬件锁定 | 企业担心“二次绑架” |
迁移成本 | 存量 CUDA kernel 直接复用 | 60 % 以上算子需重写或图优化,性能常不达预期 | 项目周期平均延长 1–3 个月 |
产业惯性 | 招聘市场 90 % 职位写“熟悉 CUDA” | 简历中“CANN 经验”仍属稀缺技能 | 人才获取与培训成本高 |
一句话总结:
华为 CANN 在“能用”层面已追上,但在“好用”和“通用”层面仍落后英伟达 CUDA 一个时代,导致企业在非强制场景下天然倾向继续留在 CUDA 阵营。
而且目前AI 训练框架 90% 基于 CUDA 生态重写。
华为昇腾虽有自己的 CANN,但工程师重新调优一次大模型 ≈ 2 个月 + 300 万预算。
中小公司一算账:不如继续买 NVIDIA。
②不可忽视的出口管制
程序员常常因为专注于技术问题,而忽略了现实生活中的其它困难,比如在企业选择是否使用华为GPU的问题上,出口管制就是一个绕不开的难点。
出口管制是美国政府以国家安全为由,对特定技术、产品或企业实施跨国流通限制的法律工具;它通过实体清单、EAR条例等手段,禁止全球任何使用美国技术超过最低比例的商品或服务流向被制裁对象。
华为自2019年起被列入实体清单,导致台积电、三星等晶圆厂停止代工其先进芯片,EDA巨头吊销设计工具许可证,美元结算、保险、物流乃至云算力均被切断。
面对这一“金融核按钮”,整车厂和服务器厂商普遍担忧:一旦在产品中嵌入华为昇腾芯片,就可能被美方认定为“协助扩散”,随即触发全球供应链熔断和融资渠道冻结。
因此,性能差距可以后期追赶,供应链猝死却永无复活。
现在有实力做AI训练的企业,都想试水海外市场,但海外市场就不得不面对使用华为芯片后美国的出口管制。
这也是企业宁可继续绑定CUDA,也不敢把华为芯片装进自家产品的重要原因。
3、全球化怎么变味了?
写到这里,我突然有点失落。
因为技术生态问题,有死磕精神花点时间和钱就可以解决。
但是出口管制问题,只能寄希望于各国更加温和的全球化政策了。
也让我深刻明白了一句话:在众多困难面前,人为制造的困难,才是难以逾越的。
我作为一个90后,小时候被教育要拥抱全球化,也深信国外的月亮也和国内的一样圆。
但这几年兴起的逆全球化风潮,让我们在做技术选型、产品打造时,不得不考虑是否满足国产化要求、出口管制这些技术以外的问题。
每个人都被卷入这场看似水火不容的斗争中,更多的失落我也不说了,咽到肚子里去了。
做自媒体这6年,除了写文章、做视频,我学会最熟练的一个新技能就是:学会了判断说什么会被封号。
愿世界和平!