DeepSeek发布DeepGEMM:高效FP8 GEMM库,优化V3/R1训练与推理

PANews 2月26日消息,DeepSeek在其开源周(OpenSourceWeek)第三天推出 DeepGEMM,一个支持 FP8 GEMM 的CUDA库,可用于稠密矩阵计算和

2025-02-26 09:50:44   作者:  wanglaowu

PANews 2月26日消息,DeepSeek在其开源周(OpenSourceWeek)第三天推出 DeepGEMM,一个支持 FP8 GEMM 的CUDA库,可用于稠密矩阵计算和混合专家(MoE)架构,优化V3/R1模型的训练和推理。DeepGEMM 关键特性:• 超高性能:在Hopper GPU上实现 1350+ FP8 TFLOPS• 极简依赖:无繁重依赖,代码简洁如教程• JIT即时编译:无需预编译,运行时自动优化• 核心代码仅约300行,但在大多数矩阵尺寸下性能超越专家级优化内核• 支持稠密布局和两种MoE布局
登录或注册发表您的评论

可能感兴趣的贴文

区块链如何运作?
区块链由三个重要概念组成:区块、节点和矿工。区块每条区块链链由多个区块组成,而区块是由三个基本元素组成:块中的数据。一个 32 位整数,称为nonce……
区块链如何运作?
区块链由三个重要概念组成:区块、节点和矿工。区块每条区块链链由多个区块组成,而区块是由三个基本元素组成:块中的数据。一个 32 位整数,称为nonce……
区块链如何运作?
区块链由三个重要概念组成:区块、节点和矿工。区块每条区块链链由多个区块组成,而区块是由三个基本元素组成:块中的数据。一个 32 位整数,称为nonce……
区块链如何运作?
区块链由三个重要概念组成:区块、节点和矿工。区块每条区块链链由多个区块组成,而区块是由三个基本元素组成:块中的数据。一个 32 位整数,称为nonce……

其他加密货币(Cryptocurrency)社区

对于其他加密货币的统称,包含稳定币,竞争币……如USDT,USDC,BNB(币安币)ETC(以太坊经典)……


社区规则

禁止人身攻击、暴力威胁、八卦、任何形式的诽谤、发布人们的私人信息。

禁止误导性标题宣传

禁止产品和项目促销

仅限中文,对于非中文的文章请提供来源链接以及准确的翻译