ORIGIN

微软与OpenAI同日开火语音之战通用大模型AI霸权决战打响

hory-ai.comhorysk.com量子幻海熵弦星核meta

导读】微软紧跟OpenAI的节奏,在同一天也亲自下场发布了微软自研的两个大模型:语音模型MAI-Voice-1和通用模型MAI-1-preview。对于这位老大哥,亲自下场做的第一个AI大模型,效果究竟怎么样?
就在OpenAI发布最新的语音大模型之际,微软掏出了自研语音大模型!
微软AI掌门人、DeepMind联合创始人Mustafa Suleyman正式宣布:
微软AI正式推出MAI-Voice-1以及MAI-1-预览版!而且还有更多内容即将推出。

MAI-Voice-1语音模型效率极高:单GPU秒出1分钟音频!使用Copilot即可体验。
在Mustafa Suleyman看来,这是他用过表现力最丰富、最自然的语音生成模型。

而MAI-1预览版模型是微软AI首个端到端内部训练的自研基础模型。
这标志着在多年依赖OpenAI模型之后,微软AI部门正式与OpenAI及整个行业正面竞争,也意味着微软在AI竞赛中,开始掌握更多主动权。

在接受采访时,Suleyman 表示:「微软是世界上最大的公司之一。我们必须具备内部能力,来打造世界最强的模型。」

MAI-Voice-1,究竟能力如何
在微软官方给出的指标中,最能引起我们注意的,是「单卡<1秒,生成1分钟音频」。
这使其成为当前少见的极致低时延TTS/对话式语音生成系统之一。
除此之外,语音的自然和富有表现力也是重点,这覆盖到了单人叙述与多说话人对话两种常见内容形态。
新闻播报、播客对谈、故事讲述、冥想/引导等,你能想到的,统统没问题。
你可以选择9种不同的语音:

也可以选择多达31种不同的情绪和播报场景:

你还可以让模型扮演一个激情四射的体育解说员,点燃你的情绪:

具体到落地上,我们可以通过Copilot Labs,在Copilot Daily中以AI主播播报要闻、在Copilot Podcasts生成播客式讨论,Copilot Labs 提供可玩Demo(可以自定义内容、叙述风格等)。
下面是两段该模型生成的语音Demo,你可以听听看,满分5分想给几分?是否还有AI味呢?欢迎在评论区留下您的测评意见。
A-story-about-my-4-year-old-asking-to-join-a-pirates-crew-to-have-adventures,

TOP
COMMENT
  • ABOUT
  • |
Horysk | Hory-AI
  The Jigsaw puzzle is incomplete with even one missing piece. And I want to be the last piece to make the puzzle complete.
Like my post?
Default QR Code
made with ❤️ by Hory-ai
©Horysk | Hory-AI 2019-2025

|