全球首个“纯 AMD”训练 MoE 大模型 ZAYA1 发布发财课-专注分享网络创业项目落地实操课程

amd联合ibm及ai新锐zyphra推出zaya1——全球首款完全基于amd硬件训练的moe基础模型，完成14t tokens预训练，整体表现媲美qwen3系列，数学与stem推理能力在未进行指令微调的情况下已接近qwen3专业版本。

训练配置

集群架构：IBM Cloud平台部署128节点，每节点搭载8块AMD Instinct MI300X，总计1024张加速卡；采用InfinityFabric互联技术与ROCm软件栈，实现峰值算力750PFLOPs
训练数据：涵盖14万亿tokens，采用课程学习策略，逐步聚焦于数学、代码与复杂推理任务；后续将发布进一步优化的后训练版本

架构亮点

CCA注意力机制：融合卷积操作与压缩嵌入注意力头设计，显存消耗降低32%，长序列处理吞吐提升18%
线性路由MoE结构：细化专家粒度并引入负载均衡正则化，Top-2路由准确率提高2.3个百分点，在70%稀疏度下仍维持高效资源利用

性能表现

笔灵AI答辩PPT

答辩PPT、千字自述稿一键生成，预测导师提问，答辩一次过！

下载

ZAYA1-Base（非指令调优版）在MMLU-Redux、GSM-8K、MATH、ScienceQA等多项评测中与Qwen3-Base相当；在CMATH与OCW-Math任务上表现更优，凸显其在科学与数学领域的强大潜力。Zyphra透露，指令微调及RLHF增强版本计划于2026年第一季度上线，并将开放API接口与模型权重下载。

AMD指出，本次合作成功验证了MI300X搭配ROCm在超大规模MoE模型训练中的稳定性与竞争力，未来将携手更多云服务商推广“全AMD”训练集群方案，目标在2026年实现训练超百亿参数MoE模型时，总体拥有成本（TCO）与NVIDIA方案持平。

源码地址：点击下载

------本页内容已结束，喜欢请分享------

感谢您的来访，获取更多精彩文章请收藏本站。

1、本内容转载于网络，版权归原作者所有！ 2、本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。 3、本内容若侵犯到你的版权利益，请联系我们，会尽快给予删除处理！ 4、本站全资源仅供测试和学习，请勿用于非法操作，一切后果与本站无关。 5、如遇到充值付费环节课程或软件请马上删除退出涉及自身权益/利益需要投资的一律不要相信，访客发现请向客服举报。 6、本教程仅供揭秘请勿用于非法违规操作否则和作者官网无关

THE END