谷歌发布Gemma 4 12B：统一无编码器多模态模型

谷歌DeepMind今天推出Gemma 4 12B，这是其最新的大语言模型，旨在将智能体多模态能力直接带到笔记本电脑上。它填补了边缘友好的E4B与更先进的26B专家混合模型之间的空白，在缩小内存占用的同时封装了强大功能。这也是谷歌首款原生支持音频输入的中等规模模型。

得益于开发者社区的支持，Gemma 4系列模型下载量已突破1.5亿次。开发者用它们构建了从可穿戴机械臂到企业级AI安全系统的各种应用。

以下是Gemma 4 12B的核心特性：

新型统一架构：无需多模态编码器，视觉和音频输入直接流入大语言模型主干。
高级推理能力：基准测试性能接近26B模型，解锁强大的多步推理和智能体工作流。
笔记本就绪：体积足够小，只需16GB显存或统一内存即可本地运行。
开放可及：采用Apache 2.0许可，支持整个开发者生态系统。
草稿器就绪：配备多令牌预测草稿器，可降低延迟。

这些特性共同将先进的多模态能力带到日常硬件上，而不牺牲速度或推理能力。

在本地运行顶级智能体

Gemma 4 12B在标准基准测试上性能接近更大的26B MoE模型，但总内存占用不到一半。它足够小，可在配备16GB RAM的消费级笔记本上本地运行，让你的机器解锁强大的多模态和智能体体验。

体验独特的统一高效架构

Gemma 4 12B的独特之处在于其处理视觉和音频输入的流线型方法。传统多模态模型通常依赖独立编码器来转换图像和音频，然后将这些表示传递给语言模型。由于这种分离式编码器会增加延迟和内存使用，谷歌训练Gemma 4 12B时采用了无编码器架构，直接将音频和视觉输入整合进来。

Gemma 4 12B原生处理多模态输入的方式如下：

视觉：用轻量级嵌入模块取代Gemma 4的视觉编码器，该模块仅包含单个矩阵乘法、位置嵌入和归一化。这使得大语言模型主干能够接管视觉处理。
音频：进一步简化音频处理。完全移除音频编码器，将原始音频信号投射到与文本令牌相同的维度空间。

开发者可参阅配套的Gemma 4 12B开发者指南了解详细分解。

Gemma 4 12B统一Transformer架构

立即上手

自行尝试：点击几下即可在LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquent应用和LiteRT-LM CLI中体验。
下载权重：直接从Hugging Face和Kaggle下载预训练和指令微调检查点。
集成与学习：查阅开发者文档和快速入门笔记本。
使用你喜欢的开发工具：通过Hugging Face Transformers、llama.cpp、MLX、SGLang和vLLM实现本地推理管道，或使用Unsloth高效微调。
使用Gemma Skills解锁智能体开发：为支持开发者利用最新Gemma进展构建智能体，谷歌发布了官方Skills代码库。这是一个专门设计的技能库，旨在让智能体能够使用Gemma模型进行构建。
按需部署：使用Google Cloud在生产环境中启动端点。可通过Gemini Enterprise Agent Platform Model Garden、Cloud Run和GKE按需部署。

原文链接：Google DeepMind
本文由前途科技编辑整理

得益于开发者社区的支持，Gemma 4系列模型下载量已突破1.5亿次。开发者用它们构建了从可穿戴机械臂到企业级AI安全系统的各种应用。

以下是Gemma 4 12B的核心特性：

新型统一架构：无需多模态编码器，视觉和音频输入直接流入大语言模型主干。
高级推理能力：基准测试性能接近26B模型，解锁强大的多步推理和智能体工作流。
笔记本就绪：体积足够小，只需16GB显存或统一内存即可本地运行。
开放可及：采用Apache 2.0许可，支持整个开发者生态系统。
草稿器就绪：配备多令牌预测草稿器，可降低延迟。

这些特性共同将先进的多模态能力带到日常硬件上，而不牺牲速度或推理能力。

在本地运行顶级智能体

体验独特的统一高效架构

Gemma 4 12B原生处理多模态输入的方式如下：

视觉：用轻量级嵌入模块取代Gemma 4的视觉编码器，该模块仅包含单个矩阵乘法、位置嵌入和归一化。这使得大语言模型主干能够接管视觉处理。
音频：进一步简化音频处理。完全移除音频编码器，将原始音频信号投射到与文本令牌相同的维度空间。

开发者可参阅配套的Gemma 4 12B开发者指南了解详细分解。

Gemma 4 12B统一Transformer架构

立即上手

自行尝试：点击几下即可在LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquent应用和LiteRT-LM CLI中体验。
下载权重：直接从Hugging Face和Kaggle下载预训练和指令微调检查点。
集成与学习：查阅开发者文档和快速入门笔记本。
使用你喜欢的开发工具：通过Hugging Face Transformers、llama.cpp、MLX、SGLang和vLLM实现本地推理管道，或使用Unsloth高效微调。
使用Gemma Skills解锁智能体开发：为支持开发者利用最新Gemma进展构建智能体，谷歌发布了官方Skills代码库。这是一个专门设计的技能库，旨在让智能体能够使用Gemma模型进行构建。
按需部署：使用Google Cloud在生产环境中启动端点。可通过Gemini Enterprise Agent Platform Model Garden、Cloud Run和GKE按需部署。

原文链接：Google DeepMind
本文由前途科技编辑整理

谷歌发布Gemma 4 12B：统一无编码器多模态模型

在本地运行顶级智能体

体验独特的统一高效架构

立即上手

想了解 AI 如何助力您的企业？

24小时热榜

Claude Tag 发布：团队协作新方式

官方确认Anthropic AI发现美国机密系统漏洞

Anthropic推出Claude Tag：Slack里的AI队友

字节跳动发布豆包2.1 Pro 称性能超越Claude Opus

英伟达被禁AI芯片黑市价格翻倍

Legion LegalTech 起诉美政府封禁 Anthropic 模型

Meta 推出自有品牌 AI 智能眼镜，售价 299 美元起

Agility Robotics借SPAC上市估值25亿美元

免费获取 AI 落地指南

谷歌发布Gemma 4 12B：统一无编码器多模态模型

在本地运行顶级智能体

体验独特的统一高效架构

立即上手

想了解 AI 如何助力您的企业？

24小时热榜

Claude Tag 发布：团队协作新方式

官方确认Anthropic AI发现美国机密系统漏洞

Anthropic推出Claude Tag：Slack里的AI队友

字节跳动发布豆包2.1 Pro 称性能超越Claude Opus

英伟达被禁AI芯片黑市价格翻倍

Legion LegalTech 起诉美政府封禁 Anthropic 模型

Meta 推出自有品牌 AI 智能眼镜，售价 299 美元起

Agility Robotics借SPAC上市估值25亿美元

免费获取 AI 落地指南