谷歌发布实时语音翻译，覆盖70多种语言

谷歌在周二发布了Gemini 3.5 Live Translate，一款AI驱动的音频模型，可在近实时状态下翻译超过70种语言的语音。这标志着谷歌在设备端翻译技术领域最雄心勃勃的部署之一。同一天，谷歌DeepMind推出了DiffusionGemma，一款实验性开源模型，通过将扩散技术应用于Gemma 4架构，文本生成速度比标准自回归模型快四倍。

谷歌翻译推出实时Gemini音频翻译

打破语言障碍

Gemini 3.5 Live Translate不同于传统的逐轮翻译系统——后者需要等待说话者说完才输出结果。该模型持续处理和翻译语音，仅落后说话者几秒，同时保留语调、节奏和情感色彩。

该模型将在三个渠道逐步推出：全球范围谷歌翻译Android和iOS应用、通过Gemini Live API和Google AI Studio向开发者提供的公开预览版，以及本月起面向部分Google Workspace企业用户在Google Meet上提供的私人预览版。Meet集成将语音翻译从之前支持的5种语言扩展到70多种，单次会议可实现超过2000种语言组合。

新的“聆听模式”支持Android用户通过手机听筒收听翻译，无需耳机——只需像普通通话一样将手机贴在耳边即可。所有生成的音频都添加了SynthID水印，以帮助识别AI生成内容。

DiffusionGemma：通过扩散实现文本生成

另一方面，谷歌DeepMind发布了DiffusionGemma，这是一个260亿参数的混合专家模型，其文本生成方式类似于图像扩散模型——从噪声开始，并行精炼整个多达256个token的块，而非逐词预测。

该模型基于Gemma 4架构，推理时仅激活38亿参数，在单块Nvidia H100 GPU上实现每秒超过1000个token，在消费者级GeForce RTX 5090上达到约每秒700个token。模型权重已通过Apache 2.0开源许可在Hugging Face上提供。

谷歌CEO Sundar Pichai在社交媒体上强调DiffusionGemma，称其为“实现最高4倍推理速度的赛马”，将公司的文本扩散研究引入Gemma 4系列。

速度与质量的权衡

谷歌警告称DiffusionGemma是实验性模型，在输出质量基准上落后于标准Gemma 4，主要推荐用于对速度要求较高的本地工作流，例如内联编辑、快速迭代和智能体循环，而非需要最高质量的生产部署。Nvidia已针对其硬件系列优化了该模型，从消费级GPU到DGX Spark系统，并在vLLM、Hugging Face Transformers等框架中提供首日支持。

打破语言障碍

DiffusionGemma：通过扩散实现文本生成

谷歌CEO Sundar Pichai在社交媒体上强调DiffusionGemma，称其为“实现最高4倍推理速度的赛马”，将公司的文本扩散研究引入Gemma 4系列。

速度与质量的权衡