Google DeepMind发布实验性开源模型DiffusionGemma,采用扩散解码器并行生成256个token,速度提升四倍,面向研究速度关键型工作流。
谷歌DeepMind于周二发布DiffusionGemma,这是一款实验性开源语言模型,放弃了传统AI系统逐token生成的方式,转而同时生成整段文本。公司称,在专用GPU上推理速度提升高达四倍。

与标准自回归模型顺序生成文本不同,DiffusionGemma采用基于扩散的解码器,每次前向传播并行生成256个token,将推理瓶颈从内存带宽转移至计算能力。该模型采用260亿参数的混合专家(MoE)架构,推理时仅激活38亿参数,能装入高端消费级GPU的18GB显存中。
谷歌报告称,在单块Nvidia H100加速器上吞吐量超过每秒1000个token,在Nvidia GeForce RTX 5090上超过每秒700个token。公司表示,这些数字大约是同等规模自回归Gemma模型在单用户模式下输出速度的四倍。
谷歌表示,它与Nvidia直接合作,在芯片制造商的全线硬件上优化DiffusionGemma,从消费级GeForce RTX 4090和5090 GPU到企业级Hopper和Blackwell系统,包括用于本地部署的DGX Spark和DGX Station。对Nvidia NVFP4四比特浮点格式的原生支持加速了计算,谷歌称其实现了“近乎无损的精度”。
模型权重以Apache 2.0许可在Hugging Face上提供,开发者也可以通过Nvidia NIM访问DiffusionGemma。服务支持通过vLLM、MLX和Hugging Face推理端点实现。
谷歌明确表示,DiffusionGemma在整体输出质量上落后于标准的Gemma 4模型,此次发布定位为实验性,面向研究速度关键型工作流的开发者,如内联编辑、代码填充和生成非线性文本结构。并行解码的优势在高并发云服务中也会减弱,因为自回归模型通过请求批处理已经可以饱和硬件。
此次发布建立在谷歌更广泛的文本扩散研究之上,该研究始于2025年5月的Gemini Diffusion演示,并扩展了本月早些时候发布的Gemma 4开源模型家族。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断