
AI 协助撰写
AI 新闻与更新 – 6月20日
最新的 AI 语音、代理、视频和企业工具
欢迎来到本周的 AI 深度探讨——为您快速分析 AI 领域最具影响力的更新。从情感丰富的 AI 语音和真正的自动化代理到 AI 生成视频和企业级集成的突破,这里是重要的内容及其原因。
🔊 11 Labs V3:听起来像人类的 AI 语音
新的 11 Labs V3 模型正在公测中,重新定义了 AI 生成的语音。
- 现在支持 70+ 种语言,覆盖全球90%的人口。
- 允许用户在文本中直接 嵌入情感标签(如兴奋、低语)。
- 从头构建,专注于专业市场:电影、有声书、游戏。
- 新的 多说话者 API 允许更自然的对话和交流。
- V3 还不是实时的,但建议暂时使用旧的 V2.5 Turbo 模型。
- 目前通过 2025 年 6 月提供 80% 的自助计划折扣。
🤖 AI 代理:H 公司的 Runner H
Runner H 正在掀起波澜,它的 AI 代理实际上在网页上执行任务。
- 由 Hollow1 提供支持,一个 3B 参数的视觉语言模型。
- 理解网页的布局——点击按钮、填写表单、预订旅行。
- 在 WebVoyager 基准测试中表现优于竞争对手,成功率达 67%。
- 跨平台工作:Gmail、Notion、Slack、Zapier 等。
- 处于 公测阶段,现在可以免费试用。
🎬 AI 视频正在爆发
三种不同的 AI 视频方法正在获得关注:
1. Google DeepMind V3
- 从文本或图像生成高质量短视频。
- 包括 集成音频、角色一致性和摄像机控制。
- 现已在 Leonardo.ai 和 Gemini 应用中提供,覆盖 73 个国家。
2. Mirage Studio (Captions AI)
- 从文本提示或参考图像创建 超现实的 AI 演员。
- 专注于 营销内容——承诺将制作时间减少 90%。
3. HeyGen AI Studio
- 为 AI 头像和视频编辑提供 精细控制。
- 具有 语音镜像、手势映射和 自然语言表演指导。
- 推出了他们迄今为止最逼真的头像。
🧠 AI 平台深入发展
Google Gemini 2.5 Pro
- 现在在 WebDev Arena 排行榜中领先,通过提示构建应用程序。
- 新的 **“思考预算”**允许开发人员控制计算使用和成本。
- 可通过 Google AI Studio 和 Vertex AI 获取。
OpenAI 的企业推进
- 推出 ChatGPT 连接器以访问来自 Google Drive、SharePoint、Dropbox 和 Box 等工具的 私人公司数据。
- 严格的权限控制确保数据安全。
- 将 ChatGPT 推广为企业的 中央知识中心。
- 还预告了 深度研究连接器,用于更自主的用例。
🔍 大局观
所有这些更新的共同点?
AI 正在从令人印象深刻的演示转向 集成、可用的日常工具——覆盖语音、自动化、视频和知识。
问题不在于 AI 是否会影响我们的工作和创造方式,而在于它将多快改变一切。
💡 观望要点:
- 谁将在专业市场中主导 AI 语音领域?
- Runner H 会触发一波基于代理的初创公司吗?
- AI 视频准备好替代演员还是仅仅增强工作流程?
- OpenAI 和 Google 能否成为公司的中枢神经系统?
请继续关注每周更新,因为 AI 竞赛正在加速。