AI推理模型席卷,基准测试成本飙升,科技巨头竞相研发应对方案
近日,随着人工智能技术的不断进步,“推理”型AI模型逐渐成为学术界关注的焦点。这类模型在处理复杂问题时展现出接近人类的逐步推理能力,尤其在物理学等领域,其表现被认为优于传统的非推理模型。然而,这一技术突破的背后也隐藏着不容忽视的问题——高昂的测试与验证成本。这不仅限制了对其性能的全面评估,也让其他研究人员难以进行独立验证,从而影响了该领域的进一步发展。 在我看来,虽然“推理”型AI模型展示了令人兴奋的可能性,但如何平衡技术创新与实际应用的成本问题显得尤为重要。一方面,我们需要鼓励科研人员继续探索更高效、更具实用性的算法;另一方面,也需要寻找方法降低测试门槛,让更多团队有机会参与到这项前沿技术的研究中来。只有这样,才能真正推动人工智能技术向更加普惠的方向迈进。
根据第三方AI评测机构“人工智能分析”提供的数据显示,在对OpenAI的o1推理模型进行七个流行AI基准测试(涵盖MMLU-Pro、GPQADiamond、Humanity'sLastExam、LiveCodeBench、SciCode、AIME2024和MATH-500)时,所需的费用总计为2767.05美元(按当前汇率约合20191元人民币)。而测试Anthropic的Claude3.7Sonnet这款“混合”推理模型的成本为1485.35美元(当前汇率约合10839元人民币),相比之下,评估OpenAI的o3-mini-high仅需344.59美元(当前汇率约合2514元人民币)。虽然部分推理模型的测试成本相对较低,例如OpenAI的o1-mini评估费用仅为141.22美元(当前汇率约合1030元人民币),但总体而言,推理模型的测试成本依旧较高。截至目前,“人工智能分析”已投入约5200美元(当前汇率约合37945元人民币)用于评估十余种推理模型,这一数字几乎达到了该公司分析超过80种非推理模型所耗资的2400美元的两倍。
OpenAI于2024年5月推出的非推理版GPT-4o模型,其评估成本为108.85美元,相比之下,Claude3.6Sonnet(Claude3.7Sonnet的非推理版本)的评估成本则为81.41美元。“人工智能分析”联合创始人乔治・卡梅伦(George Cameron)对TechCrunch透露,随着更多AI实验室推出推理模型,该机构打算扩大其测试预算。“在‘人工智能分析’,我们每个月都会进行数百次评估,因此在这方面投入了大量预算,”卡梅伦指出,“我们预计随着新模型的不断发布,这项开支将进一步增加。”
“人工智能分析”并非唯一面临 AI 测试成本上升的机构。AI 初创公司“通用推理”(General Reasoning)的首席执行官罗斯・泰勒(Ross Taylor)表示,他最近花费了 580 美元用大约 3700 个独特的提示词评估了 Claude 3.7 Sonnet。泰勒估计,仅对 MMLU Pro(一套旨在评估模型语言理解能力的问题集)进行一次完整的测试,成本就会超过 1800 美元。“我们正在迈向一个世界,在这个世界里,一个实验室在一项基准测试中报告 x% 的结果,而他们在其中花费了 y 数量的计算资源,但学者们的资源远远小于 y,”泰勒在 X 上最近的一篇帖子中写道,“没有人能够复制这些结果。”
那么,近年来,随着大型语言模型的快速发展,其在生成高质量文本方面的能力令人瞩目。然而,这也带来了不容忽视的成本问题。尤其是在测试阶段,这些模型往往会产生海量的token。以一个行业基准测试为例,OpenAI的某款模型生成了超过4400万个token,这几乎是另一款顶级模型生成量的八倍。而token作为文本的基本单位,其数量的激增无疑会显著增加计算资源的消耗。由于多数AI服务提供商都采用按token计费的方式,这种高成本自然不可避免地向用户传导。 从实际应用的角度来看,虽然这些模型在性能上表现出色,但高昂的运行成本可能会限制其普及程度。尤其是一些需要频繁调用模型的服务场景,比如在线客服或内容创作工具,可能不得不重新评估投入与产出之间的平衡。此外,这也促使开发者思考如何优化算法设计,减少不必要的计算开销,从而降低整体使用门槛。 总体而言,尽管当前技术已经取得了长足进步,但在追求卓越性能的同时,也需要兼顾经济性和可持续性发展。未来或许可以通过技术创新或者商业模式革新来缓解这一难题,让先进的人工智能技术更好地服务于社会大众。
此外,现代基准测试倾向于从模型中提取大量的token,这主要是因为这些测试的设计变得更加复杂。即便整体问题数量有所减少,但它们往往旨在评估模型处理现实场景任务的能力,比如编写和运行代码、网络搜索以及模拟复杂的计算机操作。EpochAI的高级研究员让-斯坦尼斯拉斯・德内恩提到,这种趋势反映了当下对模型综合能力要求的提升。 值得注意的是,随着模型性能的增强,其使用成本也在不断攀升。例如,在2024年5月,Anthropic发布的Claude3Opus曾是市场上最昂贵的模型之一,每百万输出token的成本约为75美元。然而,仅一年之后,OpenAI推出的GPT-4.5和o1-pro系列进一步拉高了这一门槛,分别达到了150美元和600美元每百万输出token。这样的变化不仅表明了技术进步带来的挑战,也提醒我们未来在开发和部署大规模AI系统时需要更加谨慎地权衡性价比与实际需求之间的关系。 我个人认为,虽然高昂的成本确实给企业和研究机构带来了压力,但从长远来看,这也推动了行业向着更高效、更具可持续性的方向发展。同时,如何平衡技术创新与经济可行性将成为未来一段时间内亟待解决的重要课题。
“虽然随着技术的进步,训练模型达到某一性能标准所需的成本确实在逐步降低,但如果你希望在某个特定时刻获取最强大、最优的模型,仍然需要付出更高的费用。”德内恩指出。不少人工智能实验室,如OpenAI,会为基准评测机构提供免费或优惠的模型使用权限。然而,有部分专家认为,这种做法可能对评测结果的公平性产生影响——即便不存在人为操控的迹象,仅是实验室的参与行为也可能削弱评估分数的客观性。
免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com
页面执行时间0.007744秒