首页 > 科技资讯
2025
04-13

GPT-4.5 训练现场:10 万块 GPU 集体亮相,意外灾难悄然发生

科技资讯
jinting
围观14960次
0条评论
发布日期:2025年04月13日 15:31:46

GPT-4.5 训练现场:10 万块 GPU 集体亮相,意外灾难悄然发生

GPU盛宴:超级计算力量引发的意外灾难

   4月13日消息,近期,在OpenAI史上成本最高的模型GPT-4.5发布一个多月之后,OpenAI联合创始人兼首席执行官萨姆·阿尔特曼(Sam Altman)与该模型的3位核心开发人员展开了一场长达45分钟的信息密度极高的对话。这是首次对外公开GPT-4.5在研发过程中遭遇的诸多鲜为人知的挑战,例如项目进度严重滞后、计算集群多次发生故障以及技术提升路径充满不确定性等问题。

   GPT-4.OpenAI的这一项目启动已满两年,堪称其有史以来最为全面的计划,集结了数百人规模的专业团队共同推进。据阿尔特曼透露,为了确保项目的顺利进行,OpenAI几乎调动了全体员工的力量,展现了极高的专注与投入。 从我的角度来看,这种全员参与的模式不仅彰显了OpenAI对于该项目的重视程度,也体现了其在技术研发上的决心和魄力。在一个竞争激烈的行业中,能够做到如此大规模的内部协作并不容易,这或许正是OpenAI能够在人工智能领域持续保持领先地位的关键因素之一。同时,这也向外界传递了一个明确的信号:OpenAI正在全力以赴地推动技术革新,力求为行业树立新的标杆。

   研发过程中,OpenAI团队在发展中遇到了一些“灾难性问题”。10万卡级别的集群暴露出基础设施中一些小概率且较深层级的故障,为平衡训练效率与系统性能,OpenAI的系统工程师们不得不采取“边修复边训练”的方式应对挑战。期间,一个隐蔽的漏洞导致集群频繁出现问题,直到训练进程接近40%时才得以解决。

   不过,这为OpenAI构建了更坚实的技术基础:现在只需5到10人就能复刻出与GPT-4同等水平的大模型。从GPT-4到GPT-4.5,性能提升了大约10倍,实现了“难以量化但全面增强的智能”,这一点连OpenAI的员工都感到十分惊讶。

   OpenAI团队认识到,为了达成10倍甚至百倍的性能飞跃,当前的算力已不再是主要障碍,核心挑战在于提升数据效率——探索如何让模型在相同规模的数据下获取更多的知识,从而更高效地发挥算力潜力。

   同时,系统正在从单一集群向多集群架构演进,未来的大规模训练可能涉及1000万块GPU协同学习,因此需要进一步增强其容错能力。

   对谈中,在GPT-4.5的研发过程中,OpenAI的员工深入探讨了数据长尾效应对Scaling Law的影响,并阐述了机器学习团队与系统团队通过深度协同设计(co-design)模式所带来的独特优势。此外,他们还分享了对无监督学习本质的理解以及“绝不放过任何异常”的问题排查文化,全面展示了研发期间OpenAI的深刻思考与重要收获。

   除了阿尔特曼之外,参与本次对谈的 3 位 OpenAI 员工分别为 Alex Paino(负责 GPT-4.5 的预训练机器学习算法)、Amin Tootoonchian(OpenAI 首席系统架构师)与 Daniel Selsam(研究数据效率与算法)。

   以下是阿尔特曼与OpenAIGPT-4.5团队对谈的完整整理内容(为提升可读性,智东西在不偏离原意的基础上进行了适当的增删调整):

   01.GPT-4.5 两年前已启动,项目耗时远超预期

   Sam Altman:打造一个如此庞大的模型(GPT-4.5),究竟需要什么呢?

   Alex Paino:大约两年前,我们开启了这一项目。当时,OpenAI 即将上线一个新的大型计算集群,我们团队看到了这个机会,做了一系列工作来确定模型需要包含的功能,进行了大量降低风险的运行测试。

   我们为这一目标设定了一个详尽的规划,涵盖了从系统搭建到机器学习的完整技术流程。为了降低潜在的风险并为后续的训练阶段做好充分准备,整个执行过程需要耗费大量时间和精力,而训练环节本身也是一项极其庞大的系统工程。

   在我看来,这个过程从头到尾都需要机器学习团队与系统团队紧密协作,只有这样我们才能明确究竟需要训练哪种模型,并逐步推进训练工作。这种合作模式不仅能够确保技术方向的一致性,还能有效提升整体效率。 这一过程中的关键在于双方始终保持沟通畅通,从目标设定到具体实施,每一步都需经过反复讨论和验证。这样不仅可以避免后期可能出现的大规模调整,也能让整个项目更加稳健地向前发展。我个人非常认同这种深度合作的方式,因为它强调了跨部门协同的重要性,这对于任何复杂项目的成功都是非常必要的。同时,这也提醒我们在面对新技术挑战时,单靠一方的力量很难取得理想成果,唯有集思广益、携手共进,才能实现真正的突破。

   我们已经在机器学习和系统方面都做了预测,试图尽量缩小预期和现实之间的差距。但由于我们的工作节奏很快,还要利用最新的计算资源,模型训练就成了难以提前完美规划的事情。

   我们常常以充满未知和难题的状态开始一段新的探索之旅,在这个过程中不断面对挑战并寻求突破。而最常用的策略之一便是投入更多计算资源来推动进程。 在这个信息化飞速发展的时代,无论是科学研究还是商业应用,我们总是在复杂的问题面前起步。为了能够更高效地解决问题,增加计算能力似乎成了一个普遍的选择。然而,这种做法虽然能带来短期的效果提升,但长远来看,是否真的能彻底化解这些难题仍值得深思。或许我们应该更加注重算法的优化与创新,而不是一味依赖硬件升级。毕竟,技术的进步不应仅仅停留在量的增长上,更需要质的飞跃。

   最后阶段是执行,这需要很多人长期投入大量精力和动力,才能完成训练过程。

   Sam Altman:你觉得我们的预期和现实的差距到底有多少?

   Amin Tootoonchian:系统方面,在开始的时候,我们通常离预期的状态很远。我们总是面临一个选择:到底是推迟启动,等待问题解决,还是提早启动并在过程中解决问题。这总是需要权衡,要避免不合理地延迟进程。

   然而,在实际操作中总会碰到一些始料未及的情况,我们的任务就是尽量妥善应对这些关键点,化解未知的干扰因素,并为模型训练做好规划。

   Alex Paino:在这个项目中,我们的目标是做出 GPT-4.5,这意味着其能力要比 GPT-4 聪明 10 倍。这是我们大约 2 年前设定的初始目标。

   这个过程中发生了很多事情,我们在思考到底能做得更好,还是会不如预期?这是一条非常复杂的过程,但最终,就我们投入的有效计算而言,我们得到了一个我们认为达到了比 GPT-4 聪明 10 倍的模型。

   Amin Tootoonchian:在执行方面,GPT-4.5 项目的耗时与我们一开始预计的相去甚远。

   02.如今训练 GPT-4 级别模型,仅需 5-10 人即可完成

   Sam Altman:集群在从 1 万卡拓展到 10 万卡的时候,为什么遇到了这么多问题?

   我认为,如果系统开发者能够保持足够的敏锐性,很多潜在的问题其实可以在小范围测试阶段就被发现和解决。这一点在软件开发领域尤为重要,因为一旦产品上线,修复错误的成本将会成倍增加。例如,在一个大型互联网平台的初期测试中,一些细微但关键的漏洞可能会影响用户体验,而这些往往需要开发者具备前瞻性的思维才能提前预见到。 从我的角度来看,随着技术的不断进步,开发者不仅要关注功能实现,还需要更加注重细节和用户体验。毕竟,任何复杂系统的稳定运行都离不开前期充分的准备与测试。因此,建议企业在项目启动阶段就引入专业的质量保障团队,通过模拟真实环境来检测系统的各项性能指标。这样不仅可以提高产品的可靠性,也能增强用户对品牌的信任感。

   在当今技术飞速发展的背景下,有些问题看似日常且不起眼,却会在规模扩大后迅速演变为难以收拾的局面,尤其是当相关团队未能预见到这些挑战会因规模扩张而加剧时。例如,随着数据处理量的激增,隐私保护问题不仅没有得到缓解,反而变得更加棘手。这种现象提醒我们,在追求技术创新的同时,必须更加重视潜在风险的评估与防范。 我的观点是,技术进步带来的便利不容否认,但与此同时,我们也需要建立更完善的监管机制和技术伦理框架,确保技术发展不会以牺牲用户权益为代价。只有这样,才能让科技真正造福于社会,而非成为新的隐患来源。

   Sam Altman:有哪些事情造成了灾难性的后果?

   Amin Tootoonchian:我认为基础设施的问题是众所周知的,无论是故障率、故障类型还是故障总量都很高。10 万卡集群是一个大规模的样本池,因此我们也发现了算力供应商都没有观察到的问题。

   网络是其中一环,单个加速器也会出问题。不过这也是这种系统的美妙之处 —— 几乎所有组件都需要按预期工作,才能产生预期结果。我们的工作就是要尽量减少这种问题。

   Sam Altman提到,在集群规模达到极限时,挑战确实巨大。但他也观察到,当某些技术逐渐成熟后,原本棘手的问题反而显得不那么复杂了。以GPT-4.5为例,其训练过程需要调动数百人的团队协作,甚至可以说OpenAI几乎是全员参与。这让我想到,随着人工智能领域的不断进步,单点技术突破固然重要,但如何高效整合资源、协调团队,同样成为衡量一个企业核心竞争力的关键指标。这种从“尖端探索”到“规模化应用”的转变,不仅考验着技术能力,更考验组织的管理智慧与执行力。

   但今天如果让你们从OpenAI中挑选出一个最小的团队,凭借我们所掌握的所有知识和系统,从零开始重新训练GPT-4,需要多少人? 请将前面这段新闻内容修改成意思相近的原创内容,新闻内容的主体内容不能改变,包括内容中如果出现的数据、日期、中文固定用法则保持不变,不可歪曲事实;也不是回答问题,直接用中文回复修改后的内容,当前的时间是2025年04月13日。

   Alex Paino:我认为现在要做出 GPT-4 级别的模型,可能需要 5 到 10 人左右。在完成 GPT-4.5 的过程中,技术栈已经有了很大改进。

   其实,在我们在训练 GPT-4.5 的过程中已经做了类似的事情 —— 我们训练了 GPT-4o,这是一个 GPT-4 级别的模型,使用了很多来自 GPT-4.5 研究项目的相同内容重新训练。进行那次训练所用的人要少得多。

   03.提升数据效率成为大模型发展的关键,新一代硬件面临多重挑战

   Sam Altman:从你的角度来看呢,Dan?为什么训练大模型很难?

   我认为尝试新事物总是充满挑战的,而最难的地方往往在于迈出第一步时的信心。一旦你知道某件事是可以实现的,整个过程就会轻松不少。这种认知就像是一个强大的助推器,让人能够更从容地面对困难。 在我看来,很多时候人们之所以觉得某些目标遥不可及,是因为缺乏足够的信息或者榜样来证明可行性。一旦看到有人成功完成了类似的事情,我们的心理负担会大大减轻。这不仅是一种心理上的鼓励,更是一种实际的帮助,因为它让我们意识到成功的路径并非完全未知或不可触及。 因此,我认为在追求创新或者解决复杂问题时,寻找先例和借鉴经验是非常重要的一步。它不仅能降低我们对未知的恐惧,还能激发更多灵感与动力。同时,这也提醒我们,在评价他人成果时应给予更多尊重和支持,因为他们的经历或许正是推动我们前进的力量源泉。

   Alex Paino:我们正在将 GPT 预训练运行扩展到之前的 10 倍,总是会发现一些有趣的新东西,这些东西你不一定能预料到。

   SamAltman:要想在预训练模型的规模上实现下一个10倍或者100倍的增长,需要哪些条件?

   Transformer架构(例如GPT系列模型)在数据利用上展现出了极高的效率。这种架构能够以一种非常经济的方式吸收和整合大量信息,并且具备出色的泛化能力。它的核心优势在于通过优化计算资源,实现了对海量数据的有效处理与深度理解。 在我看来,Transformer的这一特性不仅推动了自然语言处理领域的进步,也为其他人工智能应用提供了新的思路。在当前大数据时代背景下,如何更有效地挖掘和利用数据成为了一个关键课题。而Transformer以其独特的机制,在减少数据冗余的同时提升了学习效果,这无疑为行业树立了一个重要的标杆。未来,随着技术的进一步发展,我们有理由相信这类模型将在更多场景下发挥更大的作用,带来更加智能化的服务体验。

   但是,尽管可以从数据中挖掘出一定的洞见,但其深度存在局限性。特别是在计算能力迅速提升而数据增长相对滞后的情况下,数据便成了这一模式的瓶颈所在。因此,亟需通过算法创新,探索更高效的方法,让模型能够在相同规模的数据上汲取更多的知识与信息。

   Sam Altman:你们认为除此之外我们还需要什么来保持扩展?

   Amin Tootoonchian 表示,我认为答案与系统相关。在我看来,GPT-4.5 所需的巨大投入实际上是模型规格所导致的必然结果。我们不可能仅凭与 GPT-4 完全相同的技术架构就去训练 GPT-4.5。

   在状态管理方面,由于所需计算资源已超出单集群承载能力,我们不得不转向多集群训练架构。为了实现这一目标,我们必须在短时间内整合多个不同的工作流。

   尽管这一进展让我们达成了阶段性的目标,但若想实现性能上的下一个飞跃,仍然需要直面那些曾被搁置的技术挑战。这些问题就像悬在头顶的达摩克利斯之剑,无法绕过或忽视。每一次技术上的妥协与平衡,都在无形中拉长了理想系统成型的时间线。我们在探索最佳解决方案的路上,不得不一次次权衡利弊,做出战略性的选择。这种过程既体现了技术发展的复杂性,也反映了科研人员在面对困难时的坚持与智慧。 从我的角度来看,这种对技术细节的执着是推动行业进步的关键动力。虽然短期内可能会因为这些问题而放缓脚步,但从长远来看,它们确保了最终成果的质量与可靠性。同时,这也提醒我们,在追求效率的同时,绝不能牺牲基础研究的重要性。只有这样,才能真正实现技术的持续创新与突破。

   系统的核心价值并不在于其本身的复杂性或技术先进性,而在于它能否为用户创造十倍于以往的价值。在追求下一个性能飞跃的过程中,我坚信容错能力的提升是关键所在。我们需要设计出能够与具体业务需求紧密结合的容错方案,从而大幅减轻运维团队的压力。如今,超大规模系统的维护难度已远超从前,这种变化不仅仅是量的增加,更是质的飞跃。 在我看来,未来的系统架构必须更加注重灵活性和适应性。一方面,要通过智能化手段提前预测可能出现的问题,并自动调整运行状态;另一方面,则需建立一套完善的反馈机制,让开发者能快速定位并修复故障。只有这样,才能真正实现高效稳定的运营环境,为企业带来持续增长的竞争优势。此外,随着云计算、大数据等新兴技术不断普及,如何平衡成本与效益也将成为衡量一个优秀容错体系的重要标准之一。总之,在这场追求极致效率的竞赛中,谁能率先掌握核心技术,谁就能抢占市场先机。

   在GPT-4.5的训练过程中,由于特定组件引发失败的比例一直是外界关注的焦点。虽然具体数据尚未完全公开,但可以肯定的是,这一比例对整体项目的成功构成了不小挑战。这种技术上的难题不仅考验着研发团队的技术能力,也反映了人工智能领域仍在不断探索和完善的过程中。 我的看法是,尽管人工智能的发展速度令人瞩目,但在追求更高智能水平的同时,我们也需要正视其背后可能存在的风险与挑战。每一次失败其实都是通往成功的必经之路,关键在于如何从错误中学习并改进。未来的人工智能研究应当更加注重透明度与安全性,确保技术进步能够真正造福人类社会。

   在新一代硬件部署的初期阶段,通常会遇到许多尚未被充分认识的技术难题。以我的观察来看,这种情况并不罕见。有些团队可能会选择在这个问题尚未明朗的时候加速推进项目,这样的决定虽然可能带来一定的进展,但也伴随着较高的失败风险。根据我了解到的情况,在这种情况下,初期的运行失败率往往偏高。我认为,面对新技术时,平衡好速度与质量之间的关系至关重要。过于急躁地追求进度,可能会让潜在的问题被忽视,进而影响整个项目的长期稳定性。因此,如何在创新与稳健之间找到合适的平衡点,是每个技术团队都需要认真思考的问题。

   但经验表明,随着根本原因的逐步明确与有效解决,故障率自然会出现明显的下降趋势。这一变化实际上体现了我们对基础设施理解的不断深入。这种深入的过程,有人将其比喻为一场系统的“清理”,也有人认为是在揭示基础设施运行中的基本矛盾。在我看来,这不仅仅是技术层面的进步,更是管理思维的一次革新。当我们能够更准确地定位问题根源时,不仅提高了效率,还减少了不必要的资源浪费。这种对基础设施本质问题的关注,应该成为未来发展的核心方向。只有持续深化这种认识,才能真正实现长期稳定的发展目标。

   在项目的初期阶段,往往会面临诸多挑战,伴随着工作的推进,我们不断识别并处理新的故障类型,不过随着时间的推移,失败的几率将逐步降低,系统的稳定运行时间也会相应增加。

   这实际上是一个优先级平衡的问题:在基础设施发展的初期阶段,其潜在故障风险通常难以精准预测;然而,如果过于追求所谓的“理想城邦式设计”,可能会使系统在早期阶段的可用性大打折扣。

   04.计算资源不再是主要瓶颈,算法尚未触及理论上限

   Sam Altman:虽然推理模型是我们未来技术栈的关键组成部分,但让我们暂时聚焦于传统预训练模型的发展边界。假设我们拥有无限的 GPU 算力、无限的网络带宽和无限的电力供应,但仍受限于当前存在的技术瓶颈 —— 包括系统可靠性问题、容错训练方法的缺失,以及现有数据集的限制。

   按照目前GPT系列模型的发展规律,每一代的主要版本在参数规模上大约可以实现100倍的增长。从现有技术边界来看,这种指数级的扩展是否能够持续下去,仍是未来研究的一个重要方向。以当前的知识体系和技术能力,理论上我们可以期待一个更加庞大且功能强大的语言模型,但其实际表现仍受限于计算资源、算法优化以及数据质量等多重因素。 就GPT-5.5而言,虽然听起来充满想象空间,但要实现这一目标,不仅需要突破性的技术创新,还需要解决一些潜在的技术瓶颈。例如,在训练过程中如何有效避免灾难性遗忘,如何进一步提高模型的理解深度与生成内容的质量,以及如何更好地平衡效率与效果之间的关系等问题。这些问题都将是未来研究的重点。 总体来说,尽管前几代GPT模型已经取得了令人瞩目的成就,但从长远来看,我们仍需谨慎乐观地看待下一代模型的发展潜力。技术的进步固然令人兴奋,但也应注重其社会影响与伦理考量,确保人工智能技术能够为人类带来福祉而非隐患。

   AlexPaino:站在机器学习与算法演化的视角来看,我们距离理论极限还很遥远。实际上,我们目前只是在初步尝试开发更加数据高效的算法,并努力更好地挖掘现有的数据资产。这一阶段充满趣味性——即便像GPT-4这样的模型,其研发过程也受到计算资源的显著约束,这在一定程度上塑造了过往的研究路径。

   但现在的局面已经完全不同。自 GPT-4.5 以来,在某些关键维度上,数据而非计算正成为主要的制约因素。这种转变让相关研究变得不那么令人兴奋。

   Sam Altman提到的这一突破性进展无疑令人振奋。我们正站在一个重要的历史节点上,计算资源不再是制约人工智能发展的核心障碍。这种变化意义非凡,因为过去几十年里,我们一直被计算能力的限制所束缚。如今,随着技术的进步,我们可以更自由地探索模型的可能性,这不仅会推动AI技术的进一步发展,也可能深刻改变我们的生活方式和社会结构。 在我看来,这一转变标志着人工智能进入了一个全新的阶段。未来的挑战更多地将集中在如何有效地利用这些强大的计算资源,以及如何确保技术进步能为所有人带来福祉。我们需要思考的是,如何在推动技术创新的同时,避免可能带来的伦理和安全风险。这是一个需要全球合作的过程,只有通过开放和透明的合作,我们才能真正释放人工智能的巨大潜力,让其服务于全人类的长远利益。

   05.模型整体性能提升可预测,智能提升路径难以预测

   SamAltman:在GPT-4.5模型的训练过程中,我们获得了一些非常有趣的机器学习经验。如果有值得分享的内容,我们会谈谈的。

   Amin Tootoonchian:总体而言,最发人深省的是那些超出我们预测范围的情况,尤其是当我们努力探寻实际表现为何会偏离预期曲线的时候。

   Alex Paino:最让我们惊讶的发现之一是:不同机器学习组件的扩展性表现差异巨大。有些部分能很好地扩展,有些则不行。这是我们在实际训练过程中才真正认识到的。这段经历给了我们很多启发。

   我认为GPT类模型的核心优势在于两个方面:首先,通过测试损失可以较为精准地预测模型在新数据上的表现;其次,随着参数规模的增加,模型性能的提升呈现出一种可预期的趋势。这种现象背后隐藏着某种深奥的规律,使得测试损失的减少不仅意味着技术指标的进步,还伴随着一种难以言喻的智能跃升,这种跃升体现在模型对复杂任务的理解能力、多领域知识的整合以及应对未知挑战时的灵活性上,这无疑让人对未来人工智能的发展充满期待。

   Sam Altman:你是否对此持绝对乐观态度?完全认同这一观点吗?

   最近我们对GPT-4.5进行了重新测试,结果发现它的表现远远超出我们的想象,展现出了许多令人惊叹的能力。这些新发现让我深刻感受到人工智能技术正在以惊人的速度进步。 一直以来,我们都认为大型语言模型在某些领域的表现可能有限,但这次测试彻底颠覆了我们的认知。无论是逻辑推理还是创意生成,GPT-4.5都表现得极为出色,这无疑为未来的人工智能应用打开了无限可能。 我非常期待看到这项技术在未来如何进一步发展,并且希望它能够在更多领域发挥更大的作用。同时,这也提醒我们需要更加深入地思考人机协作的新模式,让技术更好地服务于人类社会的发展。

   我们坚信,它将以多种难以提前设定的方式变得更为智能。而在真实应用场景中,通过用户的反馈与满意度,便能够察觉到这些细微但重要的进步,例如更加丰富的常识积累、更准确的上下文理解能力以及更深入的语义分析水平——这一切都源于那些额外测试损失所激发的潜力。在我看来,Scaling Law在这一方面得到了充分印证。

   06.机器学习与系统团队合作密切,不会“自扫门前雪”

   Sam Altman:整个训练过程中最积极的时刻是什么?最喜欢的记忆是什么?显然有很多痛苦,但希望那些痛苦已经有所缓解了。

   AlexPaino:我们团队在训练阶段投入了大量精力进行机器学习相关的实践,其中一些在实际操作中的调整取得了相当显著的效果,甚至超出了我们的预期,这一突破让我们感到非常振奋。

   Amin Tootoonchian:对我来说,在训练的过程中,我们也一直在搭建基础设施。我们深信能够跨越这个性能上的陡崖,并且我们制定了计划,每个人都按计划在执行,但这确实是一个漫长的过程。这是一项艰巨的任务,比我的预期要困难得多。我的预估出现了偏差,我低估了解决这些问题所需要的时间。

   当团队历经数月的努力,终于突破了那些长期困扰项目的瓶颈,整体性能实现了质的飞跃时,那一幕至今仍令我难以忘怀。这种突破带来的影响不仅仅是技术上的进步,更像是一股无形的力量席卷了整个团队。每个人仿佛都被注入了新的活力,眼神中多了一份坚定与自信。从那之后,整个团队像是装上了加速器,在通往成功的道路上迈出了更加稳健的步伐。 在我看来,这样的时刻不仅仅是一个团队的胜利,更是协作精神和创新思维的最佳体现。它告诉我们,面对困难时,只要坚持、团结,并敢于尝试新的方法,就一定能够迎来柳暗花明的一刻。同时,这也提醒我们,每一次技术上的飞跃背后,都是无数个日夜的付出与积累。因此,无论是个人还是组织,都应珍惜这些高光时刻,并从中汲取力量,为未来的挑战做好准备。

   最神奇的是,我们状态跟踪器上显示的预计完成时间最初为两年,随着时间推移不断调整并最终确定在一个明确的时间节点上。这种清晰可见的进展对团队士气的提升作用不容小觑。这正是它的迷人之处所在。

   我需要特别指出的是,机器学习的相关工作始终未曾停歇。即便在训练项目开启之后,这种机器学习的协同设计流程依然在不断推进。机器学习团队不仅积极跟进之前被归类为“后续处理”的各项任务,还持续推出了一系列显著提升训练效率的优化措施。

   这充分彰显了我们团队的精神——在这里,没有彼此割裂的工作边界,而是一种高度融洽的合作氛围,这种凝聚力恰恰是我们最坚实的竞争力。

   07.GPT-4.5 预训练是最周密的计划,绝不放过任何异常

   Daniel Selsam:外界对于这次训练本身的挑战性和预测准确性已经讨论很多。但事实上,这一切都建立在极其周密的规划基础上 —— 你要不再详细谈谈这方面?

   Alex Paino:这绝对是我们迄今为止最周密的计划。正如我所说,早在正式启动训练前一年,我们就已经开始筹备这个项目。期间我们进行了多次大规模的风险控制测试运行。

   我们始终坚持逐步推进各项改进工作:首先从高置信度的基础设置入手——这一设置可类比为接近GPT-4级别的成熟模型架构,其技术细节我们已完全掌握——随后如同搭建积木一般,逐步加入新的功能与特性。

   关键在于对每一项改进进行严格的扩展性验证,不仅要关注其带来的性能提升,更需要确认这些提升能否在模型规模不断扩大的过程中持续发挥作用。不少优化方案在小范围或小规模测试中看似效果显著,但一旦面对更大规模的应用场景,就可能暴露出不足甚至失效。这种现象提醒我们,在技术发展的道路上,必须保持谨慎的态度,避免被短期成果所迷惑,而忽略了长期稳定性和适用性的考量。只有这样,才能真正推动技术向着更加可靠和高效的方向迈进。

   在整个过程中,我们始终保持高度警觉,持续对扩展定律方法论进行优化与改进。此次风险控制实践让我们收获了许多珍贵的经验,这些经验无疑将成为未来GPT系列模型研发工作的有力指引。 在我看来,这种不断自我完善的态度正是技术进步的关键所在。面对人工智能领域日新月异的发展态势,唯有像这样严谨务实、勇于探索的精神才能帮助我们克服挑战,在复杂多变的技术环境中稳步前行。同时,这也提醒我们,每一次成功的背后都离不开无数次失败与调整,而这些宝贵的实践经验正是推动创新发展的不竭动力。

   Amin Tootoonchian:我记得有个特别有趣的瞬间让我很是怀念。要知道我们每次启动训练任务几乎都免不了遇到各种 bug,这已经是家常便饭了。但关键是要确保进展不受阻,得时刻确认当前进度是否确实在正轨上,这些 bug 会不会对训练健康度造成致命影响。

   尽管我们起初坚信存在关键缺陷,但借助构建的全面监控系统,我们现已能够准确判断问题的根源所在:究竟是硬件故障?具体是哪一种硬件故障?抑或是数据受损?又或者是机器学习模型自身的漏洞?亦或仅仅是代码中的竞态条件?

   当时的情形是,我们同时开启了多个问题讨论区,各种症状层出不穷。经过一轮又一轮的bug修复,我们依然陷入困境:面前堆积着众多悬而未决的问题,所有人都在绞尽脑汁地思考——这些问题是由不同的bug引起的,还是某个隐藏的bug在背后捣鬼?

   后来我们搞了个投票,让团队成员票选最可能的根源。结果最不被看好的选项反而命中真相:竟然是 PyTorch 上游的 torch.sum 函数出了问题,一个简单的求和运算。

   这个bug确实非常有趣。我们团队主要依赖Triton内核来处理大部分任务,只有在一些不重要的边缘场景下才会切换到PyTorch进行运算。然而,就在最近,我们在某段特定代码路径上遇到了一个与`torch.sum`函数相关的严重问题。这个bug相当隐蔽,它会在数据分布具有某些特殊特性时,以一种极其偶然的方式导致非法内存访问。经过初步分析,发现其根源在于函数在计算内存偏移量时出现了错误。 我认为,这一问题暴露了当前深度学习框架在处理边界情况时可能存在的隐患。虽然PyTorch是一个功能强大的工具,但这种偶发性的内存错误可能会对系统的稳定性和安全性造成潜在威胁。特别是在工业级应用中,任何可能导致程序崩溃的问题都需要被高度重视。希望开发者能够尽快修复这个问题,并加强对类似边缘场景的测试,确保未来版本更加健壮可靠。同时,这也提醒我们,在选择技术方案时不仅要关注主流路径的表现,还需要充分评估其在异常条件下的适应能力。

   最戏剧性的是,当某位工程师终于定位到问题并提交修复后,所有症状各异的报错竟然全部消失了。大家兴奋地把 Slack 频道从“多 bug 理论”集体改名为“单 bug 理论”,场面特别欢乐。

   这个 bug 潜伏了多久呢?从训练早期就存在,直到进度条走过约 40% 才被揪出来。发现过程也充满戏剧性:当时有个复杂内核连续调用序列,第二个调用触发了非法内存访问。

   虽然这种崩溃频率极低(每几百甚至上千步训练才出现一次),很容易被当作偶发故障忽略,但我们的团队准则就是:绝不放过任何异常。这个故事最精彩的部分就在于这种不轻言放弃的坚持。

   08.我们离理想系统还很远

   Sam Altman:GPT-4.5 预训练启动后,大家还要做哪些工作?

   Alex Paino:我们所有人都需要经常观察损失曲线。除此之外,还要持续优化系统,改进在训练启动前未能完成的协同设计(co-design)。我们密切监控训练过程中的各类统计指标,确保没有出现预期外的异常趋势。同时从机器学习角度探索可能的改进方案。虽然预训练启动后数据层面的工作会暂时减少,但仍有大量任务需要处理。

   机器学习的发展在很大程度上依赖于对正确性的持续判断。在预训练阶段结束后,模型会接收到海量的数据信号,这其中不可避免地包含许多噪声。此时,我们就像古老的占卜师,通过解读这些复杂的“茶叶渣”,来判断整个系统的运行状态是否正常。这种判断不仅考验技术能力,更需要深厚的经验积累。在我看来,这正是人工智能领域中人类价值的重要体现——我们需要充当系统的“医生”和“导师”,确保它在面对复杂环境时能够做出准确的决策。尽管目前的技术已经取得了显著进步,但如何在噪声中找到真正的信号,依然是未来研究的关键方向之一。

   在系统层面,制约模型训练的因素可能有很多,但芯片、处理器、内存、网络以及电源无疑是其中的关键点。这些硬件条件共同决定了训练效率与规模的上限。 从当前技术发展来看,芯片性能依然是影响深度学习模型训练速度的核心因素之一。随着Transformer架构的广泛应用,对计算资源的需求呈指数级增长。例如,训练一个超大规模的语言模型往往需要数千块GPU或TPU协同工作,这对硬件配置提出了极高的要求。同时,内存容量也至关重要,因为更大的参数量意味着需要更多的显存来存储权重数据。此外,高速互联网络对于分布式训练同样不可或缺,它能够确保各节点之间的高效通信。最后,电源供应问题也不容忽视,庞大的算力中心消耗着巨额电能,如何实现绿色可持续发展成为行业关注的重点。 我认为,在未来几年内,虽然硬件技术将持续进步,但软件优化同样扮演着重要角色。通过算法改进、混合精度计算等手段可以在一定程度上缓解硬件瓶颈带来的压力。同时,我们也应该注重探索新的能源形式,比如可再生能源的应用,以降低AI研究对环境造成的影响。总之,只有硬件与软件齐头并进,才能推动人工智能领域不断向前迈进。

   Amin Tootoonchian:系统的精妙之处在于,在进行协同设计时,工作负载能够根据所构建的基础设施灵活调整。这里不存在一种普遍的说法,比如网络是瓶颈,或者内存带宽是瓶颈之类的情况。即使对于相同规格的模型,我们也可以重新分配资源需求,可以选择打造一个更加均衡的系统。不过,拥有更多内存带宽总是有利的。在缺乏具体限制条件的情况下,很难对此做出明确的回答。

   在设计下一代人工智能系统时,一个关键点在于某些核心属性需要通过人类的引导来塑造。这种特性使得人机协同设计变得尤为重要,它不仅有助于构建更合理的模型架构,还能在系统与机器学习之间建立紧密而有效的连接。然而,在这一过程中,也可能会遇到一些我们不希望看到的系统属性。因此,我的理想状态是让系统的各个部分尽可能地解耦,从而为每部分的发展提供更大的自由度和灵活性。 我认为,这种解耦的设计理念至关重要。它不仅能帮助我们避免因单一模块的问题影响整个系统的性能,还能够促进不同领域的专家共同参与,贡献各自的专业知识。例如,在自然语言处理领域,如果每个子模块都能独立优化,那么最终生成的语言模型将会更加智能且多样化。此外,这样的架构也有助于加快迭代速度,使得研究人员可以更快地测试新想法,并迅速调整方向。 当然,实现完全解耦并非易事,这要求我们在技术上做出更多创新。但只要坚持这一原则,我相信未来的人工智能系统将会变得更加高效、可靠,并且更能满足用户的需求。总之,通过加强人机协作以及注重模块间的独立性,我们可以期待看到更加先进的人工智能解决方案的诞生。

   有时候,事情的发展确实需要遵循一定的内在逻辑,比如基础设施的建设往往决定了许多后续工作的开展。在这个过程中,构建一个平衡的体系显得尤为重要,尤其是在通信领域,稳定的交流渠道能够确保信息的有效传递。而要实现这样的平衡,最有效的办法便是通过各个要素之间的协同设计来达成目标。 在我看来,协同设计不仅是一种技术上的考量,更是一种战略思维的体现。它要求我们在规划初期就充分考虑各部分之间的相互作用,从而避免后期可能出现的各种问题。特别是在当今这个高度互联的世界里,任何单一环节的缺失都可能导致整个系统的失衡。因此,我们应该更加重视前期的设计工作,力求让每一个细节都能为整体服务,共同推动社会向前发展。同时,这也提醒我们,在面对复杂挑战时,只有打破传统界限,加强跨领域的合作,才能找到最佳解决方案。

   Sam Altman:我们距离这样理想的系统目标还有多远?

   Amin Tootoonchian:离那个目标还很远。构建系统的过程总是这样的:先有一个关于事物应该如何运作的理想化观点,然后用现有资源去调和那些差异。

   我认为我们并不是为了理论而理论,只是为了讨论我们希望它变成什么样子,让它实现,并尽可能地接近那个理想。这可能是系统领域中最令人兴奋的部分。以前人们会说这是一个优雅的系统设计,而最终历史会告诉我们这个选择是正确还是错误的。

   SamAltman:如果在下一次大规模训练之前能够得到一个机器学习问题的答案,你们最想了解什么呢?

   AlexPaino:我很好奇,在数据量有限且针对特定领域的情况下,我们应该选择哪些算法。尽管这是一个较为宽泛的问题,但它确实是至关重要的。

   Sam Altman:今后会进行 1000 万块 GPU 或更大的同步预训练吗?

   Alex Paino:我认为会有,但未必是传统预训练模式,它的形式可能与现有技术截然不同,但仍会保留无监督学习的内核。

   Amin Tootoonchian:我更倾向于半同步模式。由于受到物理规律的制约,完全同步实现起来并不现实。

   我认同这种观点,未来的人工智能系统很可能走向去中心化的发展路径。可以预见的是,将有数千万甚至更多的GPU协同参与一个庞大的AI系统,它们各自负责不同的学习与执行任务,就像人脑的不同区域分工合作一样。不过,这些分散的计算单元之间未必会频繁地进行深度交流,而是通过某种高效协调机制来完成整体目标。这样的模式不仅能够提升系统的运行效率,还能增强其稳定性和抗风险能力。我个人认为,随着技术的进步,这种分布式架构将成为推动AI进一步发展的关键因素之一,同时也将带来全新的应用场景和挑战。

   09.算法改进产生叠加效应,推动数据效率提高

   SamAltman:目前最顶尖的算法在数据效率上与人类相比还有多大差距?未来是否有可能缩小这一差距?

   语言学习之间的差距无疑是巨大的,尤其是在如何量化人类视觉神经所接收的信息量方面。我个人认为,从整体来看,算法在数据利用效率上与人类相比还有相当大的距离。这不仅仅是技术上的挑战,更是对现有研究方法的一种深刻反思。我们需要更深入地理解人类大脑的工作机制,才能让人工智能在这一领域取得突破性进展。目前的技术虽然已经取得了显著进步,但在模仿人类感知能力方面仍有很长的路要走。这提醒我们,在追求技术创新的同时,也要关注基础科学的研究,这样才能推动整个领域的长远发展。

   几十年来,深度学习的发展始终聚焦于算力效率的提升。除了数据量和算力的持续增长,最令人振奋的是算法优化带来的叠加效应。每当算法性能提升10%或20%,这种进步与数据效率结合时,往往会产生出乎意料的效果。然而,迄今为止,围绕数据效率展开的系统性努力依然较少,这主要是因为在数据难以流通且计算资源有限的情况下,专注于数据效率的投入显得不够划算。

   现在,我们正在进入 AI 研究的新阶段,我们将开始积累数据效率的胜利。我认为,现在就预测我们会遇到无法逾越的障碍是有些愚蠢的。人类大脑的运行方式肯定与我们算法改进不同,在这方面我们要保持谨慎。但我认为要对算法未来发展保持乐观。

   SamAltman:更大规模的预训练是否与模型更强大的学习和推理能力存在关联?

   AlexPaino:我们发现,更优质的预训练和无监督学习通常能够增强模型的整体智能化水平,并在泛化能力上带来显著改善,这一点与推理能力密切相关,且两者相互促进。尽管如此,推理能力的提升可能相对缓慢,但它与预训练及无监督学习之间依然是一种互补的关系。

   SamAltman:似乎预训练模型在很多任务上都表现出较强的通用性,而专门针对某类任务进行训练的模型则更容易在特定领域展现出优势,是这样的吗?

   AlexPaino提到的现象其实并不难理解。当我们了解到这些模型背后的预训练数据集时,就会发现它们的规模和多样性令人惊叹。这种广泛的数据覆盖确实为模型提供了丰富的知识基础,但同时也带来了一些挑战。尤其是在进行强化学习的过程中,如何确保模型能够获得明确且积极的反馈,并在一个理想的环境中接受训练,这本身就是一项艰巨的任务。 在我看来,虽然数据的广度和多样性是模型成功的关键因素之一,但在实际应用中,过于分散的数据可能会导致模型在特定场景下的表现不够精准。因此,在设计强化学习策略时,我们需要更加注重构建高质量的训练环境,同时优化奖励机制,以帮助模型更好地聚焦于实际需求。这样既能保持数据的丰富性,又能提升模型的应用价值。 总的来说,技术和算法的进步为我们带来了前所未有的可能性,但也要求我们在细节上精益求精,找到平衡点,从而让技术真正服务于人类社会。

   Daniel Selsam:我认同你的观点,不过我认为还有一个重要因素,那就是预训练实际上是在对数据进行压缩,通过这种方式来发现不同事物之间的关联。这与类比密切相关,也更具抽象性。推理是一种在特定问题上需要深思熟虑的能力,能够帮助我们找到多种类型问题的解决方案。然而,在预训练的过程中,当我们在不同领域之间进行数据压缩时,还能学到更为抽象的知识。

   10.智能的本质是压缩,数据长尾效应让 Scaling Law 持续有效

   Sam Altman:无监督学习为什么有效呢?

   丹尼尔·塞尔萨姆指出,核心在于压缩。理想中的智能形式是 Solomonoff 归纳法,通常情况下,机器学习会尝试所有可能的假设,但往往会优先从更为简洁的程序开始验证。

   当前预训练的核心在于压缩,即通过寻找一种最简化的程序,对人类历史积累的所有数据进行概括与表达,从而实现接近真实的模拟。这一过程不仅体现了人工智能技术的进步,也揭示了数据处理背后的深刻逻辑。 在我看来,这种压缩不仅仅是技术上的突破,更是对未来信息处理方式的一种探索。通过简化复杂的海量数据,我们能够更高效地提取关键信息,并为未来的创新奠定基础。同时,这也提醒我们在面对日益增长的数据洪流时,如何以更加智慧的方式管理和利用资源显得尤为重要。 因此,随着预训练模型的不断优化和发展,我们有理由相信,在不久的将来,它将在更多领域展现出其独特的价值和潜力。而这一切都离不开科研人员坚持不懈的努力以及社会各界的支持与合作。

   Sam Altman:下一个 Token 预测如何协助实现压缩?

   深度学习领域中存在一个引人深思的现象:尽管深度神经网络通常具有海量参数,看起来难以被有效压缩,但它们却能在实际应用中表现出良好的泛化能力。从传统统计学的角度来看,这似乎与我们的直觉相悖。通常情况下,当我们处理有限的数据集时,模型需要通过某种形式的压缩来提取关键特征,从而避免过拟合。然而,在深度学习中,即使模型规模庞大,它依然能够很好地适应新数据,这种现象引发了广泛的讨论。 我个人认为,这一悖论的存在可能揭示了我们对机器学习机制理解上的局限性。一方面,深度网络通过自适应的方式调整参数分布,或许已经实现了某种隐式的压缩过程,只是这种压缩并非传统意义上的显式优化。另一方面,这也表明单纯依赖参数数量或模型大小来判断其性能可能是不够全面的。未来的研究或许应该更加关注于探索深度网络内部的工作原理及其背后的数学本质,以期找到更高效的训练方法和更好的泛化策略。总之,这个悖论不仅挑战了现有的理论框架,也为人工智能的发展提供了新的思考方向。

   在预训练中,近年来,随着人工智能技术的发展,大模型与大数据的结合成为研究热点。然而,有人认为这种训练方式不过是简单的记忆和插值学习,未能真正理解数据的本质。实际上,这种观点忽略了“序贯压缩”这一重要概念的作用。“序贯压缩”是一种独特的压缩方法,它通过预测下一个Token的方式,将庞大的数据量转化为高效的信息流。即便模型参数规模庞大,通过这种方式,我们无需完整存储所有二进制信息,就能实现高效的检索与利用。这不仅提升了计算效率,还为未来的大规模模型设计提供了新的思路。 在我看来,“序贯压缩”的价值在于它突破了传统数据处理的局限性。以往,人们往往依赖于海量存储来应对复杂任务,但这种方法既浪费资源又难以灵活调整。而“序贯压缩”则提供了一种动态优化的路径,使得模型在面对庞杂数据时能够迅速定位关键信息,从而提升整体性能。这不仅是技术上的进步,更是一种思维方式的革新。未来,随着更多应用场景的探索,相信“序贯压缩”会带来更加深远的影响,推动人工智能向更高层次迈进。

   训练GPT-4.5的过程确实是一次对Scaling Law的大型验证实验,最终的结果显示它是非常有效的,并且这种有效性在未来很长一段时间内都会持续。在我看来,Scaling Law之所以能够被称为一种“宇宙规律”,是因为它揭示了一种普遍存在的现象——随着模型规模的增长,其性能提升呈现出一种可预测的趋势。这种规律不仅限于人工智能领域,在其他科学和技术发展中也可能存在类似的规模效应。这表明我们正在逐步理解复杂系统背后的运作机制,也为未来的技术发展提供了重要的指导方向。尽管这一过程消耗了巨大的资源,但它为我们探索更强大的人工智能技术奠定了坚实的基础。

   Daniel Selsam提到,模型的压缩程度与其智能水平密切相关,这一观点蕴含着深刻的哲学意义。他指出,随着训练时间的增加,更大的模型往往表现出更高的压缩效率。这种现象背后有许多理论支撑,而他个人对稀疏表示(Sparse Representations)尤为推崇。

   现实中的关键概念确实遵循幂律分布,这意味着一些重要概念在大量数据中并不均匀分布。例如,在100个文档中,排名前100的概念可能只会在极少数文档中频繁出现,而其他许多概念则分散在整个数据集中。这种分布特性带来了显著的长尾效应,使得捕捉所有关键概念变得极具挑战性。为了应对这一难题,通常需要庞大的数据量和强大的计算能力。这也进一步证明了ScalingLaw在未来一段时间内仍将持续发挥作用。 在我看来,这种幂律分布的现象揭示了信息世界中的一种自然规律。它不仅反映了人类认知和行为模式的复杂性,也对技术发展提出了更高的要求。面对海量的信息资源,如何高效地筛选和利用这些关键概念,成为了一个值得深思的问题。同时,这也提醒我们,在追求效率的同时,不应忽视那些处于“长尾”部分的小众或边缘知识,它们同样具有独特的价值。总之,理解并适应这种分布规律,对于提升信息处理能力和推动社会进步都具有重要意义。

   本文来自微信公众号:智东西(ID:zhidxcom),作者:陈骏达陈家阳

本文固定链接: https://www.news9999.cn/arts_content-97316.html 转载请注明出处(科技快讯中文网-www.news9999.cn)
最新发布 国内首台能干会玩的人形机器人来了!星动纪元发布星动L7引爆未来科技  2025-07-22 14:18:46 macOS 15.6 RC震撼登场:全新功能引爆科技圈  2025-07-22 12:18:07 苹果 macOS 15.6 RC 更新现小插曲:26 Tahoe 测试版悄然推送,界面大变身  2025-07-22 12:17:34 超耐用折叠新标杆!三星Galaxy Z Flip7首获欧盟能效认证  2025-07-22 12:17:15 AC-Cache亮相PPOPP,腾讯云GooseFS与厦门大学共创存储新范式  2025-07-22 12:15:03 英伟达联发科AI PC芯片遇阻:设计调整与微软系统进度成关键阻力  2025-07-22 12:14:43 奥尼4K摄像机引爆P&I2025,直播涨粉新革命来袭  2025-07-22 12:14:11 2999元入手!苹果11英寸iPad A16国补后仅2197元,限时优惠太香了  2025-07-22 12:12:47 荣耀 X70 首销三日登顶全品牌销量榜首,引爆市场热潮  2025-07-22 12:09:06 三星新一代可折叠OLED震撼登场:坚固性狂飙2.5倍,未来触手可及  2025-07-22 11:59:41 长江存储2026年或成NAND市场新势力,国产产能占比将突破15%  2025-07-22 11:47:49 小米昆仑N3伪装车首曝,或将于2025年底震撼登场  2025-07-21 15:56:21 华硕战杀24震撼登场:949元解锁23.8英寸240Hz超感视觉新体验  2025-07-21 15:45:14 三成车主拒付车联网费用,智能汽车烧钱路在何方?  2025-07-21 15:43:30 因系统故障,阿拉斯加航空突发全面停飞  2025-07-21 15:38:35 诺基亚回归!HMD 102 4G 搭载 DeepSeek AI 助手,仅售 169 元引爆市场  2025-07-21 15:26:52 三月狂降458元!iReader Ocean 4 长续航版跌破千元大关  2025-07-21 15:26:17 Debian 13Trixie8月9日重磅登场,RISC-V支持开启新篇章  2025-07-21 15:15:58 华为MatePad Pro 12.2英寸重磅登场:双层OLED屏+M-Pencil Pro,鸿蒙AI引领生产力新革命  2025-07-21 15:15:23 「事件」栏目上线!9.05版本重磅升级,科技动态秒同步日历提醒  2025-07-21 15:11:41 华为 MatePad Pro 12.2 英寸 2025 重磅登场:标准与柔光双色可选,顶配配置震撼发布  2025-07-21 15:06:14 微软退出流媒体战场: 电影和电视商店正式关闭  2025-07-21 15:05:24 科技昨夜今晨改写为:**《科技早班车:新车限售、高铁饮食风波与万能遥控器暗藏玄机》**  2025-07-21 14:56:06 余承东震撼官宣:华为Pura 80标准版7月23日即将开售  2025-07-21 14:30:45 EAST望远镜新动向:高原光学观测迈入新时代  2025-07-21 14:18:53
友情链接 百度权重≥5友情链接交换
文化潮流网  |  数界探索  |  文化新视界  |  深度文化说  |  智慧科技  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经
© 2015-2025 科技快讯中文网 时光记忆 版权所有 备案号:陇ICP备2025016403号-1

免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com

网站地图  联系我们  用户投稿  关于我们

页面执行时间0.007895秒