2026年03月27日

Gemini 3.1 Flash Live:让音频 AI 更自然、更可靠

Gemini 3.1 Flash Live:让音频 AI 更自然、更可靠 | Gemini 3.1 Flash Live:让音频 AI 更自然、更可靠 | Search Live 正在全球范围内扩展

01 Gemini 3.1 Flash Live:让音频 AI 更自然、更可靠

  1. Google推出Gemini 3.1 Flash Live,是其迄今为止最高质量的音频与语音模型,专注于提升实时对话的自然度和可靠性。该模型具备更强的推理与任务执行能力,在ComplexFuncBench Audio基准测试中以90.8%的准确率领先,优于前代模型。在Scale AI的Audio MultiChallenge测试中,开启“思考”模式后得分达36.1%,表现突出,尤其在复杂指令理解和长程推理方面。模型还增强了语调理解能力,能更准确识别音高、语速等声学细节,并动态响应用户情绪如困惑或沮丧。该模型已集成至Google多款产品中,包括通过Gemini Live API向开发者提供预览版,在Gemini Enterprise for Customer Experience中服务企业客户,并通过Search Live和Gemini Live向大众开放。
音频AI自然度显著提升 复杂任务处理能力强 支持多场景实时对话 已在Google多平台部署
来源
  1. Gemini 3.1 Flash Live面向开发者、企业及普通用户提供不同接入方式:开发者可通过Google AI Studio中的Gemini Live API进行预览;企业客户可通过Gemini Enterprise for Customer Experience使用;普通用户则可通过Search Live和Gemini Live体验。该模型特别优化了嘈杂环境下的语音交互能力,支持构建能处理复杂任务的语音优先代理。演示案例显示,用户可通过语音进行代码编写与快速迭代,提升开发效率。此外,模型在真实音频场景中表现更稳定,能有效应对中断与犹豫等现实交互问题。
多用户群体覆盖全面 嘈杂环境语音识别优化 支持语音驱动开发流程 实时交互稳定性增强
来源
  1. Gemini 3.1 Flash Live在语调理解方面较2.5 Flash Native Audio有明显改进,能更精准捕捉用户语音中的情感与意图变化。该模型在客户服务场景中表现尤为突出,可动态调整回应策略以适应用户情绪状态。企业客户如Verizon和LiveKit已开始采用该技术,用于提升语音交互系统的用户体验。尽管具体应用案例细节有限,但表明该模型正被实际部署于商业环境。其多模态推理能力与低延迟响应为下一代语音AI应用奠定了基础。
情感识别能力增强 企业客户已实际应用 动态响应用户情绪 推动语音AI商业化落地
来源

查看原文 →

02 Gemini 3.1 Flash Live:让音频 AI 更自然、更可靠

  1. Google 推出 Gemini 3.1 Flash Live,作为其迄今为止最高质量的音频与语音模型,旨在提升实时对话能力。该模型具备更快的响应速度和更自然的对话节奏,适用于以语音为核心的下一代 AI 应用。目前已在 Google AI Studio 中向开发者提供预览版,通过 Gemini Live API 接入;企业用户可通过 Gemini Enterprise for Customer Experience 使用;普通用户则可通过 Search Live 和 Gemini Live 体验。

该模型在复杂任务处理方面表现突出,在 ComplexFuncBench Audio 基准测试中得分 90.8%,优于前代模型,支持多步骤函数调用与约束条件下的推理。在 Scale AI 的 Audio MultiChallenge 测试中,开启“思考”模式后得分 36.1%,在真实音频环境下的长程推理与指令遵循方面领先。此外,模型增强了对语调、语速等声学细节的理解,能更准确识别用户情绪(如困惑或沮丧),并动态调整回应方式,提升交互自然度。

音频AI响应更自然可靠 支持复杂任务与多步推理 已在多平台向不同用户开放
来源
  1. Gemini 3.1 Flash Live 面向开发者提供强大推理与任务执行能力,支持构建可在嘈杂环境中运行的语音优先智能体。该模型通过 Gemini Live API 在 Google AI Studio 中提供预览,使开发者能够快速迭代语音驱动的应用,例如“语音编程”等场景。其性能在多个音频基准测试中领先,尤其在处理中断、犹豫等真实对话特征时表现优异。

企业客户可通过 Gemini Enterprise for Customer Experience 部署该模型,提升客服系统的交互质量。模型对语调、节奏等声学特征的识别能力优于 2.5 Flash Native Audio,能更敏锐捕捉用户情绪变化并作出适应性回应。目前已有 Verizon、LiveKit 等企业开始采用,但具体应用案例与效果数据尚未披露。

支持嘈杂环境下的语音交互 企业客服系统交互质量提升 开发者可快速构建语音应用
来源

查看原文 →

03 Search Live 正在全球范围内扩展

  1. 谷歌宣布Search Live功能在全球范围内扩展,覆盖AI Mode可用的所有语言与地区,目前支持超过200个国家和地区用户使用语音和摄像头与搜索进行实时互动对话。此次扩展依托新一代音频语音模型Gemini 3.1 Flash Live,该模型具备更强的自然对话能力,并原生支持多语言交互,用户可使用本地语言与Search交流。用户可通过Android或iOS版Google应用中的Live图标启动功能,进行语音提问并获取音频回复,也可结合摄像头提供视觉上下文以获取更精准帮助。
Search Live全球扩展至200余国 支持语音与摄像头实时交互 基于Gemini 3.1 Flash Live模型 原生多语言支持提升可用性
来源
  1. Search Live旨在满足用户需要即时帮助的场景,例如安装家具或解决突发问题,传统文字搜索难以应对。用户启动功能后,可通过语音提问获得音频回应,并继续追问以深入交流。若涉及实物操作,可启用摄像头让系统识别场景并提供建议及网页链接。此外,在使用Google Lens时也可切换至Live模式,实现与现实环境的实时对话。谷歌表示将持续优化搜索体验,期待用户利用该功能提升学习、探索与任务执行效率。
适用于实时求助场景 支持语音追问与视觉辅助 与Google Lens无缝衔接 提升任务执行效率
来源

查看原文 →