谷歌DeepMind发布Gemma 4 12B,一款专为笔记本电脑设计的统一无编码器多模态模型。它采用创新架构,无需额外编码器即可直接处理视觉和音频输入,性能接近更大尺寸的26B模型,内存占用却不到一半,可在16GB RAM的消费级笔记本上本地运行,为AI智能体和多模态推理带来全新可能。
谷歌DeepMind今天推出Gemma 4 12B,这是其最新的大语言模型,旨在将智能体多模态能力直接带到笔记本电脑上。它填补了边缘友好的E4B与更先进的26B专家混合模型之间的空白,在缩小内存占用的同时封装了强大功能。这也是谷歌首款原生支持音频输入的中等规模模型。
得益于开发者社区的支持,Gemma 4系列模型下载量已突破1.5亿次。开发者用它们构建了从可穿戴机械臂到企业级AI安全系统的各种应用。
以下是Gemma 4 12B的核心特性:
这些特性共同将先进的多模态能力带到日常硬件上,而不牺牲速度或推理能力。
Gemma 4 12B在标准基准测试上性能接近更大的26B MoE模型,但总内存占用不到一半。它足够小,可在配备16GB RAM的消费级笔记本上本地运行,让你的机器解锁强大的多模态和智能体体验。
Gemma 4 12B的独特之处在于其处理视觉和音频输入的流线型方法。传统多模态模型通常依赖独立编码器来转换图像和音频,然后将这些表示传递给语言模型。由于这种分离式编码器会增加延迟和内存使用,谷歌训练Gemma 4 12B时采用了无编码器架构,直接将音频和视觉输入整合进来。
Gemma 4 12B原生处理多模态输入的方式如下:
开发者可参阅配套的Gemma 4 12B开发者指南了解详细分解。

原文链接:Google DeepMind
本文由前途科技编辑整理
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断