
由 Alen 撰写
AI 新闻与更新 – 6月20日
最新的 AI 语音、代理、视频和企业工具
欢迎来到本周的 AI 深度解析——为您快速分解 AI 领域最具影响力的更新。从情感细腻的 AI 语音和真实的自动化代理到 AI 生成视频和企业级集成的突破,这里是重要内容及其原因。
🔊 11 Labs V3:听起来像人类的 AI 语音
全新的 11 Labs V3 模型在公共 Alpha 版中上线,重新定义了 AI 生成的语音。
- 现在支持 70 多种语言,覆盖全球 90% 的人口。
- 允许用户在文本中直接 嵌入情感标签(如兴奋、低语)。
- 从头构建,专注于专业市场:电影、有声读物、游戏。
- 新的 多说话者 API 允许更自然的对话和交流。
- V3 尚未实现实时,但建议使用旧的 V2.5 Turbo 模型。
- 目前提供 自助服务计划 8 折优惠,截至 2025 年 6 月。
🤖 AI 代理:H 公司推出的 Runner H
Runner H 正在引发轰动,其 AI 代理能够实际在网上执行任务。
- 由 Hollow1 提供支持,一个 30 亿参数的视觉语言模型。
- 理解网页布局——点击按钮、填写表单、预订旅行。
- 在 WebVoyager 基准测试中表现优于竞争对手,成功率为 67%。
- 跨平台工作:Gmail、Notion、Slack、Zapier 等。
- 处于 公开测试版,现在可以免费试用。
🎬 AI 视频正在爆发
三种不同的方法用于 AI 视频正在获得关注:
1. Google DeepMind V3
- 从文本或图像生成高质量的短视频。
- 包括 集成音频、角色一致性和摄像机控制。
- 现已在 Leonardo.ai 和 Gemini 应用中上线,覆盖 73 个国家。
2. Mirage Studio(Captions AI)
- 从文本提示或参考图像构建 超现实的 AI 演员。
- 专注于 营销内容——承诺将制作时间缩短 90%。
3. HeyGen AI Studio
- 专为 细粒度控制 AI 化身和视频编辑而打造。
- 具有 语音镜像、手势映射和 自然语言表现指导。
- 推出了他们最逼真的化身。
🧠 AI 平台更深入
Google Gemini 2.5 Pro
- 现在在 WebDev Arena 排行榜上领先,用于从提示构建应用程序。
- 新的 “思维预算” 允许开发人员控制计算使用和成本。
- 可通过 Google AI Studio 和 Vertex AI 获得。
OpenAI 的企业推动
- 推出 ChatGPT 连接器以访问来自 Google Drive、SharePoint、Dropbox 和 Box 等工具的 私人公司数据。
- 严格的权限控制确保数据安全。
- 推动 ChatGPT 成为企业的 中央知识中心。
- 还预告了用于更自主用例的 深度研究连接器。
🔍 大局观
贯穿所有这些更新的线索?
AI 正在从令人印象深刻的演示转变为 集成的、可用的、日常工具——覆盖语音、自动化、视频和知识。
问题不在于 AI 是否会影响我们的工作和创造方式——而在于它会多快改变一切。
💡 关注点:
- 谁将在专业市场中主导 AI 语音领域?
- Runner H 会否引发一波基于代理的创业潮?
- AI 视频准备好替代演员还是仅仅增强工作流程?
- OpenAI 和 Google 能否成为企业的中枢神经系统?
敬请关注更多每周更新,因为 AI 竞赛正在加速。