ORIGIN

微软与OpenAI同日开火语音之战通用大模型AI霸权决战打响

2025-09-01

hory-ai.comhorysk.com量子幻海熵弦星核meta hory-ai.com horysk.com 量子幻海熵弦星核 meta

导读】微软紧跟OpenAI的节奏，在同一天也亲自下场发布了微软自研的两个大模型：语音模型MAI-Voice-1和通用模型MAI-1-preview。对于这位老大哥，亲自下场做的第一个AI大模型，效果究竟怎么样？
就在OpenAI发布最新的语音大模型之际，微软掏出了自研语音大模型！
微软AI掌门人、DeepMind联合创始人Mustafa Suleyman正式宣布：
微软AI正式推出MAI-Voice-1以及MAI-1-预览版！而且还有更多内容即将推出。

MAI-Voice-1语音模型效率极高：单GPU秒出1分钟音频！使用Copilot即可体验。
在Mustafa Suleyman看来，这是他用过表现力最丰富、最自然的语音生成模型。

而MAI-1预览版模型是微软AI首个端到端内部训练的自研基础模型。
这标志着在多年依赖OpenAI模型之后，微软AI部门正式与OpenAI及整个行业正面竞争，也意味着微软在AI竞赛中，开始掌握更多主动权。

在接受采访时，Suleyman 表示：「微软是世界上最大的公司之一。我们必须具备内部能力，来打造世界最强的模型。」

MAI-Voice-1，究竟能力如何
在微软官方给出的指标中，最能引起我们注意的，是「单卡<1秒，生成1分钟音频」。
这使其成为当前少见的极致低时延TTS/对话式语音生成系统之一。
除此之外，语音的自然和富有表现力也是重点，这覆盖到了单人叙述与多说话人对话两种常见内容形态。
新闻播报、播客对谈、故事讲述、冥想/引导等，你能想到的，统统没问题。
你可以选择9种不同的语音：

也可以选择多达31种不同的情绪和播报场景：

你还可以让模型扮演一个激情四射的体育解说员，点燃你的情绪：

具体到落地上，我们可以通过Copilot Labs，在Copilot Daily中以AI主播播报要闻、在Copilot Podcasts生成播客式讨论，Copilot Labs 提供可玩Demo（可以自定义内容、叙述风格等）。
下面是两段该模型生成的语音Demo，你可以听听看，满分5分想给几分？是否还有AI味呢？欢迎在评论区留下您的测评意见。
A-story-about-my-4-year-old-asking-to-join-a-pirates-crew-to-have-adventures,

Author: Horysk | Hory-AI

Link: http://nx.horysk.com/2025/09/01/meta/2025-09-01/%E5%BE%AE%E8%BD%AF%E4%B8%8EOpenAI%E5%90%8C%E6%97%A5%E5%BC%80%E7%81%AB%E8%AF%AD%E9%9F%B3%E4%B9%8B%E6%88%98%E9%80%9A%E7%94%A8%E5%A4%A7%E6%A8%A1%E5%9E%8BAI%E9%9C%B8%E6%9D%83%E5%86%B3%E6%88%98%E6%89%93%E5%93%8D/

License: All articles in this blog are licensed under 量子幻海 | 熵弦星核 unless stating additionally.

TOP

COMMENT

ABOUT
|
DONATE

Horysk | Hory-AI

The Jigsaw puzzle is incomplete with even one missing piece. And I want to be the last piece to make the puzzle complete.

Like my post?