洞察
服务
关于

AI 资讯
洞察
资源中心
- 深度研究
- 行业报告
- 精选案例
  - 金融行业
  - 医疗行业
  - 教育行业
  - 零售行业
  - 制造行业
服务
关于

谷歌发布并行文本生成模型DiffusionGemma

产品2026年6月11日· 2 分钟阅读0 阅读

Google DeepMind发布实验性开源模型DiffusionGemma，采用扩散解码器并行生成256个token，速度提升四倍，面向研究速度关键型工作流。

谷歌DeepMind于周二发布DiffusionGemma，这是一款实验性开源语言模型，放弃了传统AI系统逐token生成的方式，转而同时生成整段文本。公司称，在专用GPU上推理速度提升高达四倍。

Image 8: 谷歌推出DiffusionGemma以实现更快的文本生成

全新架构带来速度提升

与标准自回归模型顺序生成文本不同，DiffusionGemma采用基于扩散的解码器，每次前向传播并行生成256个token，将推理瓶颈从内存带宽转移至计算能力。该模型采用260亿参数的混合专家（MoE）架构，推理时仅激活38亿参数，能装入高端消费级GPU的18GB显存中。

谷歌报告称，在单块Nvidia H100加速器上吞吐量超过每秒1000个token，在Nvidia GeForce RTX 5090上超过每秒700个token。公司表示，这些数字大约是同等规模自回归Gemma模型在单用户模式下输出速度的四倍。

Nvidia优化与可用性

谷歌表示，它与Nvidia直接合作，在芯片制造商的全线硬件上优化DiffusionGemma，从消费级GeForce RTX 4090和5090 GPU到企业级Hopper和Blackwell系统，包括用于本地部署的DGX Spark和DGX Station。对Nvidia NVFP4四比特浮点格式的原生支持加速了计算，谷歌称其实现了“近乎无损的精度”。

模型权重以Apache 2.0许可在Hugging Face上提供，开发者也可以通过Nvidia NIM访问DiffusionGemma。服务支持通过vLLM、MLX和Hugging Face推理端点实现。

权衡与目标用例

谷歌明确表示，DiffusionGemma在整体输出质量上落后于标准的Gemma 4模型，此次发布定位为实验性，面向研究速度关键型工作流的开发者，如内联编辑、代码填充和生成非线性文本结构。并行解码的优势在高并发云服务中也会减弱，因为自回归模型通过请求批处理已经可以饱和硬件。

此次发布建立在谷歌更广泛的文本扩散研究之上，该研究始于2025年5月的Gemini Diffusion演示，并扩展了本月早些时候发布的Gemma 4开源模型家族。

标签：Google DiffusionGemma Gemma 并行生成

想了解 AI 如何助力您的企业？

免费获取企业 AI 成熟度诊断报告，发现转型机会

//

24小时热榜

Google称YouTube条款允许用上传音乐训练AI

Google称YouTube条款允许用上传音乐训练AI

五月成全球第二热月份，欧洲热浪成新常态

五月成全球第二热月份，欧洲热浪成新常态

Anthropic呼吁国会先立法再禁各州AI规则

Anthropic呼吁国会先立法再禁各州AI规则

天体物理学家用Codex模拟黑洞等离子体

天体物理学家用Codex模拟黑洞等离子体

线粒体为细胞核提供专属能量专线

线粒体为细胞核提供专属能量专线

新研究确认宇宙膨胀仍在加速

新研究确认宇宙膨胀仍在加速

研究发现人类走路偏向逆时针

研究发现人类走路偏向逆时针

Anthropic 投 2 亿美元研究 AI 失业

Anthropic 投 2 亿美元研究 AI 失业

热门标签

大模型 Agent RAG 微调私有化部署 Prompt Engineering ChatGPT Claude DeepSeek 智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育 AI 战略数字化转型 ROI 分析 OpenAI Anthropic Google

关注公众号

前途科技微信公众号

扫码关注，获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断，获取专属转型建议

已有 200+ 企业完成诊断

服务关于快讯技术商业报告

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询（北京）有限公司，版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款