AI 新闻与更新 – 6月20日:语音、代理、视频及企业工具
AI 协助撰写

AI 新闻与更新 – 6月20日

最新的 AI 语音、代理、视频和企业工具

欢迎来到本周的 AI 深度探讨——为您快速分析 AI 领域最具影响力的更新。从情感丰富的 AI 语音和真正的自动化代理到 AI 生成视频和企业级集成的突破,这里是重要的内容及其原因。


🔊 11 Labs V3:听起来像人类的 AI 语音

新的 11 Labs V3 模型正在公测中,重新定义了 AI 生成的语音。

  • 现在支持 70+ 种语言,覆盖全球90%的人口。
  • 允许用户在文本中直接 嵌入情感标签(如兴奋、低语)。
  • 从头构建,专注于专业市场:电影、有声书、游戏。
  • 新的 多说话者 API 允许更自然的对话和交流。
  • V3 还不是实时的,但建议暂时使用旧的 V2.5 Turbo 模型。
  • 目前通过 2025 年 6 月提供 80% 的自助计划折扣

🤖 AI 代理:H 公司的 Runner H

Runner H 正在掀起波澜,它的 AI 代理实际上在网页上执行任务。

  • Hollow1 提供支持,一个 3B 参数的视觉语言模型。
  • 理解网页的布局——点击按钮、填写表单、预订旅行
  • WebVoyager 基准测试中表现优于竞争对手,成功率达 67%。
  • 跨平台工作:Gmail、Notion、Slack、Zapier 等。
  • 处于 公测阶段,现在可以免费试用。

🎬 AI 视频正在爆发

三种不同的 AI 视频方法正在获得关注:

1. Google DeepMind V3

  • 从文本或图像生成高质量短视频。
  • 包括 集成音频、角色一致性和摄像机控制。
  • 现已在 Leonardo.aiGemini 应用中提供,覆盖 73 个国家

2. Mirage Studio (Captions AI)

  • 从文本提示或参考图像创建 超现实的 AI 演员
  • 专注于 营销内容——承诺将制作时间减少 90%。

3. HeyGen AI Studio

  • 为 AI 头像和视频编辑提供 精细控制
  • 具有 语音镜像手势映射自然语言表演指导
  • 推出了他们迄今为止最逼真的头像。

🧠 AI 平台深入发展

Google Gemini 2.5 Pro

  • 现在在 WebDev Arena 排行榜中领先,通过提示构建应用程序。
  • 新的 **“思考预算”**允许开发人员控制计算使用和成本。
  • 可通过 Google AI StudioVertex AI 获取。

OpenAI 的企业推进

  • 推出 ChatGPT 连接器以访问来自 Google Drive、SharePoint、Dropbox 和 Box 等工具的 私人公司数据
  • 严格的权限控制确保数据安全。
  • 将 ChatGPT 推广为企业的 中央知识中心
  • 还预告了 深度研究连接器,用于更自主的用例。

🔍 大局观

所有这些更新的共同点?
AI 正在从令人印象深刻的演示转向 集成、可用的日常工具——覆盖语音、自动化、视频和知识。

问题不在于 AI 是否会影响我们的工作和创造方式,而在于它将多快改变一切。


💡 观望要点:

  • 谁将在专业市场中主导 AI 语音领域?
  • Runner H 会触发一波基于代理的初创公司吗?
  • AI 视频准备好替代演员还是仅仅增强工作流程?
  • OpenAI 和 Google 能否成为公司的中枢神经系统?

请继续关注每周更新,因为 AI 竞赛正在加速。

订阅获取战略洞察

除了商业,我还是一个自豪的父亲、生活和工作的伙伴、一个富有创意的思考者,并且坚信成长来自全情投入 ——

不想订阅?欢迎在LinkedIn上关注我,获取相同的见解并建立联系