微软AI语音技术再升级,DragonV2.1让语言沟通更接近真实对话
2025年7月31日,科技媒体NeoWin今日发布文章称,微软近日推出了DragonV2.1Neural零次学习模型,该模型仅需少量数据即可生成更加自然且富有表现力的声音,并支持超过100种语言。
据相关博文介绍,这是一种基于零次学习的文本到语音(TTS)模型,旨在提供更加自然且富有情感的声音,同时提升了发音的准确性,并增强了对生成语音的控制能力。
新模型仅需几秒钟的语音片段,就能生成超过100种语言的语音。与之前的DragonV1模型相比,后者在处理专有名词时存在发音不准的问题。DragonV2.1模型能够适配多种应用场景,例如定制聊天机器人的声音,以及为视频内容进行多语言配音。
微软表示,DragonV2.1在发音准确性方面有所提升,相较于DragonV1,该模型的单词错误率(WER)平均下降了12.8%。
该模型在声音自然度方面有了显著提升,用户在使用时可以通过SSML音素标签和自定义词典对发音和口音进行更精细的控制。为了帮助用户更好地上手,微软推出了Andrew、Ava和Brian等多个声音档案,方便用户进行测试与体验。 我认为,这种对语音合成细节的重视,体现了技术在人性化表达上的不断进步。通过提供多样化的声音选项和灵活的控制方式,用户能够更贴近真实语言的表达效果,这对于需要高质量语音输出的应用场景具有重要意义。同时,微软提供的多个声音档案也为开发者和研究者提供了良好的实验基础,有助于推动相关技术的进一步发展。
免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com
页面执行时间0.008019秒