谷歌推出Gemini 3.5 Live Translate实时语音翻译模型,支持70多种语言,可在设备端连续翻译并保留语调。同时发布DiffusionGemma实验模型,通过扩散技术实现4倍推理速度,适合本地快速迭代。
谷歌在周二发布了Gemini 3.5 Live Translate,一款AI驱动的音频模型,可在近实时状态下翻译超过70种语言的语音。这标志着谷歌在设备端翻译技术领域最雄心勃勃的部署之一。同一天,谷歌DeepMind推出了DiffusionGemma,一款实验性开源模型,通过将扩散技术应用于Gemma 4架构,文本生成速度比标准自回归模型快四倍。

Gemini 3.5 Live Translate不同于传统的逐轮翻译系统——后者需要等待说话者说完才输出结果。该模型持续处理和翻译语音,仅落后说话者几秒,同时保留语调、节奏和情感色彩。
该模型将在三个渠道逐步推出:全球范围谷歌翻译Android和iOS应用、通过Gemini Live API和Google AI Studio向开发者提供的公开预览版,以及本月起面向部分Google Workspace企业用户在Google Meet上提供的私人预览版。Meet集成将语音翻译从之前支持的5种语言扩展到70多种,单次会议可实现超过2000种语言组合。
新的“聆听模式”支持Android用户通过手机听筒收听翻译,无需耳机——只需像普通通话一样将手机贴在耳边即可。所有生成的音频都添加了SynthID水印,以帮助识别AI生成内容。
另一方面,谷歌DeepMind发布了DiffusionGemma,这是一个260亿参数的混合专家模型,其文本生成方式类似于图像扩散模型——从噪声开始,并行精炼整个多达256个token的块,而非逐词预测。
该模型基于Gemma 4架构,推理时仅激活38亿参数,在单块Nvidia H100 GPU上实现每秒超过1000个token,在消费者级GeForce RTX 5090上达到约每秒700个token。模型权重已通过Apache 2.0开源许可在Hugging Face上提供。
谷歌CEO Sundar Pichai在社交媒体上强调DiffusionGemma,称其为“实现最高4倍推理速度的赛马”,将公司的文本扩散研究引入Gemma 4系列。
谷歌警告称DiffusionGemma是实验性模型,在输出质量基准上落后于标准Gemma 4,主要推荐用于对速度要求较高的本地工作流,例如内联编辑、快速迭代和智能体循环,而非需要最高质量的生产部署。Nvidia已针对其硬件系列优化了该模型,从消费级GPU到DGX Spark系统,并在vLLM、Hugging Face Transformers等框架中提供首日支持。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断