突破发声界限：OpenAI新一代语音模型重塑机器人口才-科技快讯中文网

2025

03-21

突破发声界限：OpenAI新一代语音模型重塑机器人口才

科技资讯

jinting

围观1299次

0条评论

发布日期：2025年03月21日 11:14:28

突破发声界限：OpenAI新一代语音模型重塑机器人口才

语音革命来袭：OpenAI全新模型让机器人的每句话都震撼人心

　　 3月21日消息，OpenAI于昨日（3月20日）在官方博客中宣布，推出全新的语音转文本（speech-to-text）以及文本转语音（text-to-speech）模型，以增强其语音处理功能。这些新模型将助力开发者打造更加精确且可定制化的语音交互系统，加速人工智能语音技术的商业化进程。

　　近日，OpenAI推出了两款专注于语音转文本的新模型——gpt-4o-transcribe和gpt-4o-mini-transcribe。据官方介绍，这两个模型在单词错误率（WER）、语言识别能力以及整体准确性方面表现优异，甚至超过了现有的Whisper系列模型。这一进步无疑为语音处理领域带来了新的突破，尤其是在多语言支持和复杂场景下的语音识别能力上，展现出了显著的优势。我个人认为，这项技术的发展不仅能够提升工作效率，还可能对新闻行业产生深远影响。例如，在采访或会议记录中，这些模型可以快速准确地生成文字稿，大大节省人力成本。同时，对于需要实时翻译或跨语言交流的场合，其强大的语言识别功能也显得尤为重要。不过，尽管技术已经取得了长足的进步，但如何进一步优化用户体验，特别是在面对口音较重或语速较快的音频时的表现，依然是未来值得探索的方向。总体而言，这一创新无疑是科技服务于人类社会的一次重要尝试，期待它在未来能带来更多惊喜。

　　这两个模型支持超 100 种语言，主要通过强化学习和多样化高质量音频数据集训练，能捕捉细微语音特征，减少误识别，尤其在嘈杂环境、口音及不同语速下表现更稳定。

　　近日，OpenAI发布了全新的gpt-4o-mini-tts模型，这一技术突破让开发者能够通过简单的指令，如“模拟耐心客服”或“生动故事叙述”，来调整语音输出的风格。这种灵活性不仅为客服行业提供了新的可能性，比如创造出更富同理心的声音体验以提升用户满意度，同时也为有声书制作和游戏开发带来了更多创意空间，使角色配音更加个性化和生动。在我看来，这项技术的进步标志着人工智能在人机交互领域的又一次飞跃。它不仅仅提升了效率，还赋予了机器更多的人性化特质。对于服务业而言，这意味着服务方式可能从冷冰冰的自动化流程向更加温暖、贴近人心的方向转变。同时，在文化创意产业中，这也意味着创作者有了更多的工具去实现他们的想象力，为观众带来更加丰富和多元化的视听享受。未来，随着这类技术的进一步发展，我们或许能看到更多打破传统界限的应用场景出现。

　　援引博文介绍，附上三款模型费用如下：

　　 gpt-4o-transcribe的收费标准为：音频输入每100万tokens收费6美元，文本输入每100万tokens收费2.5美元，输出每100万tokens收费10美元，而每分钟的成本为0.6美分。

　　 gpt-4o-mini-transcribe：音频输入每100万 tokens 的费用为 3 美元，文本输入每 100万 tokens 的费用为 1.25 美元，输出每 100万 tokens 的费用为 5 美元，每分钟的成本为 0.3 美分。

　　 GPT-4O-Mini-TTS的服务定价策略显示，每处理100万tokens的输入成本为0.60美元，而输出成本则高达12美元，同时每分钟的运行成本仅为1.5美分。这一价格体系反映了其在技术实现上的高门槛与复杂性。从行业角度来看，这样的定价模式一方面体现了高端AI服务的市场定位，另一方面也暗示了相关技术研发和运营的成本压力。在我看来，这种定价方式虽然对普通用户来说可能显得有些高昂，但从长远来看，它有助于推动整个AI行业的健康发展。高昂的成本意味着企业需要通过规模化应用来摊薄单次使用的费用，这也促使开发者更加注重产品的实用性和效率。此外，对于那些真正有需求的企业或机构而言，这并不是一个无法接受的价格区间，反而可以视为一种高质量服务的象征。总之，我认为这种定价策略既是对技术创新价值的认可，也是对未来市场需求的一种试探。随着技术的进步和市场的成熟，相信这类服务的价格会逐渐趋于合理化，让更多人能够享受到科技进步带来的便利。

首页 > 科技资讯

2025

03-21