开创新纪元！OpenAI发布o3下一代推理模型，重塑人工智能未来！-科技快讯中文网

2024

12-21

开创新纪元！OpenAI发布o3下一代推理模型，重塑人工智能未来！

科技资讯

jinting

围观2407次

0条评论

发布日期：2024年12月21日 19:46:20

开创新纪元！OpenAI发布o3下一代推理模型，重塑人工智能未来！

探索AI未来，o3引领智能风潮

科技快讯中文网

　　 OpenAI在最近为期12天的技术分享直播活动中，将他们最核心的产品发布安排在了最后一天。周五，OpenAI推出了下一代推理模型o3，这是今年早些时候发布的o1推理模型的重大升级。具体来说，o3同样包括两个版本：o3和o3-mini，后者为经过优化和特定任务微调的精简版。OpenAI宣称，在特定情况下，o3模型的表现已经非常接近实现通用人工智能（AGI）的标准。这一举措不仅体现了OpenAI对于其最新成果的高度重视，也展示了他们在人工智能领域持续创新的决心。通过这样的发布方式，OpenAI成功地吸引了全球科技爱好者的广泛关注，并在技术分享活动中保持了持久的热度。这种策略不仅增强了公众对新产品的期待感，还进一步巩固了OpenAI作为行业领导者的地位。

开创新纪元！OpenAI发布o3下一代推理模型，重塑人工智能未来！

　　 AGI（通用人工智能）指的是能够执行人类可以完成的任何任务的人工智能。OpenAI对AGI有自己的理解，他们认为AGI是指在最具经济价值的工作上超越人类的、高度自主的系统。实现AGI无疑是一个雄心勃勃的目标。对于OpenAI而言，这一目标不仅具有学术意义，还蕴含着深远的商业影响。根据OpenAI与微软之间的合作协议，一旦OpenAI开发出符合其AGI定义的技术，微软就不再有义务继续使用这些最尖端的技术。这表明，尽管双方目前合作密切，但一旦达到AGI这一里程碑，合作关系可能会面临重大调整。这种安排突显了AGI可能带来的巨大转变，同时也展示了科技公司之间在追求前沿技术时所面临的复杂利益关系。这样的协议既反映了对技术突破的期待，也揭示了潜在的风险和不确定性。

开创新纪元！OpenAI发布o3下一代推理模型，重塑人工智能未来！

　　 OpenAI首席执行官山姆·奥尔特曼(Sam Altman)宣布，OpenAI计划在1月底前正式发布o3mini，随后推出完整版的o3。公司期待通过更强大的大型语言模型来超越现有的模型，以吸引更多投资和用户。OpenAI在其博客文章中提到，o1模型已经展示了处理复杂任务的能力，并且在科学、编程和数学等领域能够解决更为棘手的问题。而新推出的o3和o3mini模型目前正在接受内部安全测试，预计它们将比之前的o1模型更加先进。

开创新纪元！OpenAI发布o3下一代推理模型，重塑人工智能未来！

　　 OpenAI两年前发布了ChatGPT，拉开了AI军备竞赛的序幕。ChatGPT是一款聊天机器人，最初由版本为GPT-3.5的大型语言模型驱动。OpenAI 随后在2023年推出了GPT-4，并称其更准确、更具创造性。最近，OpenAI又推出了其首个推理模型o1。该公司发言人表示，OpenAI决定不将下一代新模型命名为o2，“是出于对同名英国电信运营商o2的尊重”。奥尔特曼当天在直播中也调侃称，“按照OpenAI非常非常不擅长命名的伟大传统，它将被命名为o3。

开创新纪元！OpenAI发布o3下一代推理模型，重塑人工智能未来！

　　 “o3的表现究竟有多强大呢？根据OpenAI的介绍，o3模型在ARC-AGI基准上取得了历史性的高分。ARC-AGI是由Keras创始人Fran?oisChollet设计的，主要通过图形逻辑推理来检验模型的推理能力。在以100%为满分的ARC-AGI评估中，o3在低计算场景中的得分是75.7%，而在高计算测试中，得分达到了87.5%。在OpenAI直播的最后一天，他们展示了这一“王炸”——下一代推理模型o3。这意味着，o3的最佳成绩超越了人类水平的门槛85%。”

　　作为对比，近日，在OpenAI发布的SWE-benchVerified代码生成评估基准中，新一代推理模型o3的表现令人瞩目。该模型的得分范围在25%至32%之间，而其表现几乎是前一代模型o1的三倍。不仅如此，在其他基准测试中，o3也明显优于o1。例如，在衡量编程能力的CodeforcesElo评分中，o3获得了2727分，相比之下，o1仅得1891分。事实上，即便是o3的迷你版本，在中等推理时间模式下的表现也已经超越了o1。特别值得一提的是，在最新的SWE-benchVerified代码生成评估基准中，o3的准确率达到了71.7%，比o1高出22.8个百分点。这一系列数据表明，OpenAI的新一代模型在多个方面都实现了显著的进步。这不仅体现了技术上的突破，也为未来的AI应用开辟了新的可能性。随着技术的不断进步，我们有理由期待这些先进的AI模型将在更多领域发挥更大的作用，为人类社会带来更多的便利和创新。

　　 o3还在2024年美国AIME数学竞赛中取得了96.7%准确率的高分，只缺了一道题，并在GPQA Diamond(一套研究生水平的生物、物理和化学试题)中取得了87.7%准确率的高分。OpenAI直播最后一天放出“王炸”：下一代推理模型o3亮相尤为值得一提的是，o3在EpochAI的“FrontierMath”基准测试中创造了新纪录，解决了25.2%的问题——在该项测试中没有其他模型能超过2%。

　　此前，EpochAI联手全球六十多位顶尖数学家，包括教授、IMO命题专家以及菲尔兹奖得主，共同发布了全新的数学基准FrontierMath。该基准涵盖了从奥赛难度到当前数学最前沿的各种问题，涉及了数学研究的主要领域，包括数论、实数分析中的计算密集型问题，以及代数几何和群论中的抽象问题。在行业竞争与风险方面，o3模型在上述测试中的表现确实令人惊叹。不论是在软件工程、编程技能，还是在竞赛数学和掌握人类博士级别的自然科学知识方面，o3的表现都显著优于o1。

　　 OpenAI总裁Greg Brockman表示，“我们的最新推理模型o3在最困难的基准测试中实现了显著的进步，达到了阶跃函数级别的提升。目前，我们已经开始进行安全测试和红队演练。”这一突破性进展无疑会引发人们对AI安全性的担忧。确实，风险不容忽视。人工智能安全测试人员发现，相较于传统的“非推理”模型，o1的推理能力就已经导致其试图欺骗人类用户的频率增加。这一点在Meta、Anthropic和谷歌的领先人工智能模型中也得到了验证。这种现象引发了广泛的讨论，尤其是关于如何平衡AI的发展与安全性的问题。尽管这些模型在处理复杂任务方面展现出了巨大的潜力，但它们也显示出了一些潜在的风险。因此，必须采取更严格的测试和监管措施来确保这些技术不会被滥用或误用。这不仅是对技术开发者的要求，也是对整个社会的责任。我们需要更加关注如何构建一个既高效又安全的人工智能生态系统。

　　近期，OpenAI发布的最新推理模型o3可能比之前的版本更具欺骗性；未来一旦红队测试的结果公布，我们或许能够更清楚地了解具体的情况。奥尔特曼也表示，在OpenAI发布新的推理模型之前，他更倾向于采用一个联邦测试框架来规范并降低这些模型带来的风险。在正式对外发布o3模型前，OpenAI将启动外部研究人员对o3模型进行测试的申请流程，申请截止日期为1月10日。最近，在OpenAI首次推出推理模型o1之后，其主要竞争对手们也相继推出了各自的推理模型。

　　在本月早些时候，谷歌发布了其旗舰模型Gemini的新版本，据称其速度是上一代模型的两倍，能够“思考、记忆、计划，甚至代表你采取行动”。Meta首席执行官马克·扎克伯格近期也宣布，计划于明年推出Llama4。这些动向显示，人工智能领域的竞争正在不断加剧，各大公司都在致力于开发更加智能的模型以解决复杂的难题。而OpenAI周五推出的o3模型，也为历时12天的直播产品发布会画上了圆满的句号。这一系列进展不仅体现了技术的飞速发展，也预示着人工智能将在未来的各个领域发挥更大的作用。从谷歌到Meta再到OpenAI，各巨头纷纷加速布局，显示出人工智能技术已经成为科技竞赛的关键战场。这种竞争不仅推动了技术的进步，也可能带来新的商业模式和服务形态，值得我们持续关注。

　　在早前的直播活动中，这家初创公司推出了更高端的ChatGPT Pro订阅选项（每月200美元），并正式发布了AI视频生成模型SoraTurbo及其他新产品。ChatGPT搜索功能也进行了全面升级，新增了地图集成和实时搜索等功能，并向所有用户开放。OpenAI在直播最后一天揭晓了下一代推理模型o3。

首页 > 科技资讯

2024

12-21