AI 新闻与更新 – 6月20日：语音、代理、视频与企业工具

由 Alen 撰写

AI 新闻与更新 – 6月20日

最新的 AI 语音、代理、视频和企业工具

欢迎来到本周的 AI 深度解析——为您快速分解 AI 领域最具影响力的更新。从情感细腻的 AI 语音和真实的自动化代理到 AI 生成视频和企业级集成的突破，这里是重要内容及其原因。

🔊 11 Labs V3：听起来像人类的 AI 语音

全新的 11 Labs V3 模型在公共 Alpha 版中上线，重新定义了 AI 生成的语音。

现在支持 70 多种语言，覆盖全球 90% 的人口。
允许用户在文本中直接 嵌入情感标签（如兴奋、低语）。
从头构建，专注于专业市场：电影、有声读物、游戏。
新的 多说话者 API 允许更自然的对话和交流。
V3 尚未实现实时，但建议使用旧的 V2.5 Turbo 模型。
目前提供 自助服务计划 8 折优惠，截至 2025 年 6 月。

🤖 AI 代理：H 公司推出的 Runner H

Runner H 正在引发轰动，其 AI 代理能够实际在网上执行任务。

由 Hollow1 提供支持，一个 30 亿参数的视觉语言模型。
理解网页布局——点击按钮、填写表单、预订旅行。
在 WebVoyager 基准测试中表现优于竞争对手，成功率为 67%。
跨平台工作：Gmail、Notion、Slack、Zapier 等。
处于 公开测试版，现在可以免费试用。

🎬 AI 视频正在爆发

三种不同的方法用于 AI 视频正在获得关注：

1. Google DeepMind V3

从文本或图像生成高质量的短视频。
包括 集成音频、角色一致性和摄像机控制。
现已在 Leonardo.ai 和 Gemini 应用中上线，覆盖 73 个国家。

2. Mirage Studio（Captions AI）

从文本提示或参考图像构建 超现实的 AI 演员。
专注于 营销内容——承诺将制作时间缩短 90%。

3. HeyGen AI Studio

专为 细粒度控制 AI 化身和视频编辑而打造。
具有 语音镜像、手势映射和 自然语言表现指导。
推出了他们最逼真的化身。

🧠 AI 平台更深入

Google Gemini 2.5 Pro

现在在 WebDev Arena 排行榜上领先，用于从提示构建应用程序。
新的 “思维预算” 允许开发人员控制计算使用和成本。
可通过 Google AI Studio 和 Vertex AI 获得。

OpenAI 的企业推动

推出 ChatGPT 连接器以访问来自 Google Drive、SharePoint、Dropbox 和 Box 等工具的 私人公司数据。
严格的权限控制确保数据安全。
推动 ChatGPT 成为企业的 中央知识中心。
还预告了用于更自主用例的 深度研究连接器。

🔍 大局观

贯穿所有这些更新的线索？
AI 正在从令人印象深刻的演示转变为 集成的、可用的、日常工具——覆盖语音、自动化、视频和知识。

问题不在于 AI 是否会影响我们的工作和创造方式——而在于它会多快改变一切。

💡 关注点：

谁将在专业市场中主导 AI 语音领域？
Runner H 会否引发一波基于代理的创业潮？
AI 视频准备好替代演员还是仅仅增强工作流程？
OpenAI 和 Google 能否成为企业的中枢神经系统？

敬请关注更多每周更新，因为 AI 竞赛正在加速。

订阅每周洞察

每周获取有关 AI、SEO 和增长营销的洞察，直接发送到你的收件箱。无垃圾邮件，只有优质内容

不想订阅？欢迎在LinkedIn上关注我，获取相同的见解并建立联系