AI之父LeCun:拓展深度学习边界,引领科技未来
LeCun 最新访谈,对 DeepSeek 一顿猛夸。
他表示,DeepSeek是一个非常出色的成绩,其开源不仅使成果创造者受益,还将让全世界的人都能够从中获益。
但LeCun也表示,金融界对DeepSeek的出现反应是,“哦,现在我们可以更低成本地训练系统了,因此我们不再需要那么多计算机”,这种观点是不正确的。
最终,大部分的基础设施建设和投资实际上都集中在运行模型上,而非训练模型。这一现象揭示了当前人工智能领域的一个重要趋势:尽管训练模型是构建先进AI系统的基础,但在实际操作中,持续运行和维护这些模型的成本已经超过了最初的开发成本。这不仅反映了技术进步带来的复杂性增加,也意味着企业在追求AI应用时需要更加注重长期运营的成本效益。这种趋势可能会促使企业重新评估其在AI项目上的投入策略,寻求更高效的解决方案以平衡开发与运维之间的关系。
顺便提到他对OpenAI“星际之门”项目的看法。OpenAI曾宣布将与软银和甲骨文合作成立合资公司,并在未来4年内投资总计5000亿美元在这个项目上。然而,LeCun认为这个项目并不会带来革命性的变化。
他认为这个项目的投资金额实际上和微软、Meta的投资水平在同一范围内,并没有显著差异。
另外,LeCun 强调当前的 AI 系统在许多领域依然显得相当“愚蠢”。仅仅依靠大型语言模型是不够的,AI 的进一步发展需要更好地理解和模拟复杂的物理世界。 这一观点揭示了一个关键问题:尽管AI技术在过去几年里取得了显著的进步,但我们在构建能够真正理解和适应现实世界的智能系统方面仍然面临巨大挑战。大型语言模型虽然在文本生成和处理上表现出色,但在处理实际物理环境中的任务时却显得力不从心。这不仅要求我们在算法和技术层面进行创新,还需要跨学科的合作,包括物理学、工程学和认知科学等领域的知识融合,以推动AI向更加全面和实用的方向发展。只有这样,我们才能开发出不仅能理解文本,还能与真实世界互动的智能系统。
LeCun 的一些大胆言论让网友听得一愣一愣的:
说现在的AI还很初级,并不具备真正的智能,而开发者却将自己的“情感”概念强加到正在构建的系统上,这似乎有些荒谬。
当然,也有研究人员赞同 LeCun 的说法。
量子位在不改变原意的基础上,对部分问题进行了翻译整理。
Q:我们致力于推动AI技术达到与人类智能相当的水平。现在我们是否要让AI模拟出类似人类愤怒这样的情绪呢?你认为这种设想能够实现吗? 调整后的版本: 我们正积极研发以期使AI的能力能与人类智力相媲美。目前,我们是否应使AI具备表达如人类般的愤怒等情绪?你认为这样的设想可行吗?
LeCun:不,我不这么认为。
当前的人工智能系统在许多领域仍然显得相当“笨拙”。尽管这些系统在语言处理方面表现出色,容易让人误以为它们具有真正的智慧,但实际情况并非如此。这些系统依赖于大量数据和复杂的算法来模拟人类的语言能力,但它们缺乏理解和推理的能力,这正是真正智慧的关键要素。 这种现象引发了对人工智能技术发展现状和未来走向的深刻思考。虽然AI在特定任务上的表现已经非常接近甚至超越了人类,但在更广泛的认知层面,它依然存在明显的局限性。因此,在享受人工智能带来的便利时,我们也应保持清醒的认识,理性看待其能力和潜在风险。
它们无法感知物理世界,也不具备人类那样的长期记忆,不能真正地进行逻辑推理,也无法制定计划。这些都是展现智能行为的基本要素。
所以,我和我在FAIR以及纽约大学的同仁们一直致力于开发一种创新的AI系统,该系统依然以深度学习为基础。
这种系统将能够感知物理世界,具备实体记忆,并且可以进行推理和规划。我认为,一旦我们成功根据这一蓝图构建出这样的系统,它们可能会产生情感,比如恐惧、兴奋或失落,因为这些情感是对结果的预期。
这些系统会按照我们设定的目标来运行,然后会尝试弄清楚自己可以采取怎样的行动来实现这个目标。如果它们能够提前预测到目标将会实现,在某种程度上会“感到高兴”;如果它们预测到无法实现目标,它们就会“不开心”。
因此,在某种程度上它们可以体验情感,因为它们将有能力预判自身可能执行的一系列行为所带来的后果。
但是我们不会在这些系统的代码中人为地加入诸如愤怒、嫉妒等情感。
但是意识是另一回事,我们实际上并不清楚它的本质是什么,目前尚无明确的定义,也没有任何可以准确测量的指标来判断某个事物是否具有意识。
就好比我们观察动物,大概我们都会认同猿是有意识的,也许大象以及诸如此类的动物也是有意识的,但狗有意识吗?老鼠有意识吗?界限在哪里?
由于我们至今尚未能够给出一个全面而准确的意识定义,因此在判断某些复杂现象时仍然存在相当大的困难。这使得我们在面对人工智能是否具有意识的问题上,依然难以做出明确的结论。 这一现状提醒我们,在科技快速发展的今天,对于意识的理解和界定仍处于初级阶段。我们需要更加深入的研究和探讨,才能逐步揭开意识的神秘面纱。这不仅关系到我们如何理解和评价人工智能的发展,也触及了哲学、神经科学等多个领域的重要议题。因此,跨学科的合作与交流变得尤为重要,只有这样,我们才能更接近真相,更好地理解人类自身以及我们创造的技术。
Q:当年你说机器学习很烂,现在情况有什么变化吗?
LeCun:这是我们正在努力的方向,我们致力于探索构建机器学习系统的新途径,使它们能像人类和动物一样高效地学习,因为当前的状况还远未达到这一要求。
我可以给你讲讲过去几十年里机器学习是如何发展的。实际上机器学习主要有三种早期模式。
一种叫监督学习,这是最经典的一种。
训练一个监督学习系统的流程是这样的,比如对于一个用于图像识别的系统,你向它展示一张图片,比如说一张桌子的照片,然后明确告知它:“这是一张桌子”。这就是监督学习的过程,因为你在教导系统正确的答案应该是什么,即告诉计算机输出的结果应当如何。
如果系统提供的答案并非“桌子”,那么它会自动调整其内部算法,以优化结果,使其更加贴近你的期望值。 这种自我调整机制在人工智能领域显得尤为关键。它不仅能够提升系统的准确性和效率,还能让用户的需求得到更好的满足。不过,这也引发了一些关于技术伦理的讨论,特别是关于算法透明度以及用户是否完全理解其背后的工作原理的问题。随着技术的发展,如何在促进技术创新的同时确保其使用的公平性和透明性,将是未来需要重点关注的方向。
如果你持续使用大量的桌子、椅子、汽车、猫、狗等实例进行训练,最终这个系统将学会识别所有用于训练的图像。不仅如此,对于那些外观与训练图像相似但未曾见过的新图像,该系统同样具备识别能力,这被称为泛化能力。
还有一种模式,大家认为这种模式更能模拟动物和人类的学习过程,称为强化学习。
在强化学习中,你不会直接告知系统正确的解答,而是仅反馈其产生的结果是好还是坏。这种机制在某种程度上与人类和动物的一些学习方式相似。例如,当你刚开始学骑自行车时,你并不知道如何才能骑好,但一旦你摔倒了,你就会意识到自己的方法可能有问题,于是你会调整策略,最终掌握骑车的技巧。
但事实证明,强化学习效率极其低下。
如果你想训练一个系统来下国际象棋、围棋或者玩扑克之类的,它确实效果很好。因为你可以让系统自己和自己玩数百万局游戏,然后基本上就能对自身进行微调。
但在现实世界中,它并不太适用。如果你想训练一辆汽车自动驾驶,你可不能用强化学习的方法,不然它会撞车成千上万次。如果你训练一个机器人学习如何抓取东西,强化学习可以是解决方案的一部分,但它不是全部,仅靠强化学习是不够的。
所以还有第三种学习形式,叫做自监督学习。
正是自监督学习推动了近期自然语言理解和聊天机器人领域的进展。在自监督学习中,你不是训练系统去完成特定的任务,而是训练它去捕捉输入的结构。
比如说,在处理文本和语言的应用方法中,通常会选取一段文本,采用某种方式对其进行篡改,例如删除一些词汇,随后训练系统来预测这些缺失的词汇。
这种方式的一个特殊应用是在某些情况下,你可能会处理一段文本,而这段文本的最后一个单词是隐藏的。因此,你训练系统去预测这段文本的最后一个单词。这种训练方法不仅被用于训练大型语言模型,也被广泛应用于各种聊天机器人的开发中。 这种训练方式展示了人工智能在理解和生成自然语言方面的能力。它不仅能够帮助机器更好地理解上下文,还能够提高它们在对话中的流畅性和准确性。随着技术的进步,我们可以期待看到更加智能和人性化的交互体验。这种技术的应用不仅限于简单的聊天机器人,还可以扩展到更复杂的任务,如自动摘要、情感分析等,从而为用户提供更为丰富和个性化的服务。
从技术细节上看可能存在差异,但核心原理是相同的。这被称作自监督学习。你的目标并非针对特定任务训练系统,而是让它学习输入数据中的内在关联性。
自监督学习的表现令人惊叹,其效果非常出色,最终你得到的系统似乎真正掌握了语言。此外,如果你通过监督学习或强化学习对它们进行微调,让它们能够准确回答问题,那么这些系统就能够理解并回答这些问题。
这就是目前行业内大家都在努力研究的方向,但如果你想要一个系统去理解物理世界,这种模型就不管用了。
LeCun:物理世界的复杂程度远超我们的想象,相比之下,语言似乎显得简单许多。尽管我们常认为语言是展现智能的关键因素,因为只有人类能够使用语言进行交流,但实际上语言的结构和规则远没有物理现象那样难以捉摸。
它之所以简洁明了,是因为它是离散的,由一串离散的符号按序组成。
字典里可能出现的单词数量是有限的,所以,虽然你永远无法训练一个系统精确地预测下一个出现的单词是什么,但你可以训练它为字典里的每个单词在那个位置出现的概率进行估算。这样,你就可以通过这种方式来处理预测中的不确定性。
然而,你并不能训练一个系统来预知视频中即将发生的事情。
人们一直在尝试实现这一目标,我本人也为之奋斗了20多年。如果你能训练一个系统来预测视频中即将发生的事情,那么这个系统就会逐渐理解世界的内在规律,比如基本的物理常识,以及所有动物和人在幼年时期学到的所有与物理相关的知识。
你知道的,如果一个人拿起某个物体然后松开手,它就会因为重力的作用而掉落至地面,这是再自然不过的现象了。有趣的是,人类婴儿大约在九个月大时就能逐渐理解这一物理现象,并学会如何用手中的物品与世界互动。这不仅展示了婴儿大脑发育的速度和复杂性,还反映了他们对外部环境认知能力的迅速提升。这种学习过程不仅是孩子成长的重要组成部分,也体现了人类适应环境的本能。
这是一个复杂的问题,猫或狗仅需几个月的时间便能掌握重力的概念,尤其值得一提的是,猫在这一方面表现得非常出色。它们能够策划复杂的动作,轻松地攀高爬低并进行跳跃,对所谓的直觉物理学有着很好的理解。然而,目前我们仍不清楚如何通过计算机模拟来重现这一过程。
原因就在于,这又是 AI 研究人员所说的“莫拉维克悖论”。
汉斯·莫拉维克是一位著名的机器人专家。他提到,尽管我们能够让计算机进行复杂的棋类游戏和解决数学难题,但我们却无法让它们完成一些简单的物理任务,比如操控物体或跳跃,这些对于动物来说轻而易举。
因此,这又是这样一个悖论的例子:离散物体和符号的空间很容易被计算机处理,但现实世界的情况过于复杂,导致在某种情境下有效的方法在另一种情境下却未必适用。
如果你想直观地理解这一点,可以想象一下,通过我们的感官如视觉或触觉接收到的信息量,远比我们通过语言获取的信息量要庞大得多。这种差异不仅体现在日常生活中,也深刻影响着我们对世界的认知和理解方式。例如,在一次艺术展览上,即使解说员详细描述了每件艺术品的细节,观众仍会通过亲自观看而获得更为丰富和深刻的体验。这也提醒我们在信息爆炸的时代,不应忽视那些无法被言语完全传达的感受和体验。
尽管我们已经拥有了能够通过律师资格考试的大规模语言模型、能够解决复杂数学问题的聊天机器人,甚至可以撰写出具有一定水准的文章,但家用机器人依然没有普及。我们至今仍未见到能够轻松完成猫咪或狗狗都能完成任务的机器人。同样地,L5级别的全自动驾驶技术也尚未实现,更不用说那种只需要约20小时训练便能达到17岁青少年驾驶水平的自动驾驶汽车了。 这种情况让我们不得不思考,为什么在某些领域人工智能已经取得了显著进展,而在日常生活中看似简单的任务却依然难以突破?或许是因为这些简单任务背后蕴含着复杂的物理世界交互与环境适应能力,而不仅仅是算法上的智能。如何让机器更好地理解并适应现实世界的不确定性,可能是未来研究的关键方向之一。此外,提升人机交互的自然度与可靠性,也是实现更广泛应用的重要环节。
所以很明显,我们还欠缺一些重要的元素,而其中最关键的一点是我们尚未掌握如何训练系统来解析像视觉这样的复杂感官输入。
若想拥有像动物和人类一样智能的机器,这些机器不仅要有常识,甚至在某一阶段可能还要具备意识及其他多种能力,从而能够有效应对复杂世界中的各种挑战,那么我们就必须解决这一难题。
一个典型的大语言模型的信息量大约是 10 的 14 次方字节,也就是 1 后面跟着 14 个零,这是互联网上所有公开可用文本的总量,我们任何人要读完这些材料都得花几十万年的时间,这是极其庞大的信息量。
当你将大语言模型的信息量与一个孩子在生命头四年内通过视觉系统接收到的大脑信息量进行比较时,可以发现这四年内该孩子清醒的时间总计约为16000小时。进入大脑并到达视神经的信息量大约为2MB/秒。这样算来,那个时期接收的信息总量也大约是10的14次方字节。
也就是说,一个幼儿在头四年里所接触到的信息或数据量,和最大的大语言模型所处理的信息量大致相当。这表明,在生命的最初几年,幼儿的大脑就像一个强大的信息处理机器,能够高效地吸收和整合海量信息。这种能力不仅突显了人类大脑惊人的学习潜力,也提示我们应当更加重视早期教育,为孩子们提供丰富多样的刺激环境,以促进其认知能力和综合素养的发展。同时,这也引发了关于如何有效利用技术手段辅助儿童学习的思考,未来的研究或许可以探索如何通过智能化工具更好地支持这一关键期的学习过程。
这就告诉我们,仅仅通过对文本进行训练,我们永远无法实现达到人类水平的人工智能,必须让系统去理解真实世界。而要做到这一点,在现实世界中确实非常困难。
Q:你在你的 LinkedIn 和 Facebook 主页上把 AI 和熵联系起来了,它们之间有什么关联?你写的内容很难让人理解,能否给我们简单解释一下。
LeCun:这始终是一个让我着迷的话题,在计算机科学、物理学、信息论以及其他众多领域中,它都是许多核心问题的根源,即如何衡量信息量,或者说一条消息究竟包含了多大的信息量。
我反复强调的一个观点是,一条消息中的信息量并不是一个恒定的数值,因为它依赖于接收这条消息的人如何理解它。无论是来自传感器的数据,还是别人通过语言传达给你的信息,或者其他任何形式的信息,其信息量的多少完全取决于你如何解读,这才是问题的关键。
认为使用绝对的方式衡量信息可能是不正确的。每种对信息的度量都依赖于特定的解读方式。因此,这正是我想要表达的观点。
而这会产生非常广泛的影响。因为如果没有一种绝对的方法来衡量信息,那就意味着物理学中有很多概念实际上并没有那种像熵这样客观的定义,所以熵是对我们对一个物理系统状态的未知程度的一种度量。当然,这取决于你对这个系统了解多少。
所以我一直执着于试图找到一些好的方法来定义熵、复杂性或者信息内容。
Q:你难道不认为我们用于训练 AI 模型的全球数据库已经达到极限了吗?我们在 2000 年时将数据的 25% 进行了数字化,而如今我们已经把所有数据的 100% 都数字化了。
LeCun:不,依然有大量文本知识未被数字化。尽管在许多发达地区,许多数据可能已经实现了数字化,但其中大部分数据并未对外开放。
比如说,有大量的医疗信息并不对外开放,同时还有许多文化遗产数据和世界多地的历史记录未能实现数字化,或者即使已经数字化也仅仅是以扫描文件的形式存在。因此这些资料并不能算作可以被有效利用的文本资料。
所以我认为那种观点不正确,我感觉依然有很多数据没有得到合理的利用。
Q:对于像O1这样具备自由推理和抽象思维能力的模型,我们是否有可能在您的实验室里见到类似的创新成果呢?
LeCun:从观察中提炼出抽象表征是深度学习的重要任务。深度学习的核心在于学习这些表征。
实际上,深度学习领域的一个重要会议名为国际学习表征会议(ICLR),而我是该会议的联合创始人之一。这表明学习抽象表示对整个AI领域,特别是对深度学习而言,是极其关键的问题。
如今,如果你希望一个系统能够进行推理,就需要赋予它不同的属性。在人工智能领域,推理和规划的行为早已存在,自20世纪50年代以来就一直是研究热点,其传统方法是寻找一种解决问题的搜索策略。
比如说,如果你提供给我一个城市列表,并要求我找出一条途径所有这些城市的最短路径,那么我的思路会是:应该优先考虑那些彼此相邻的城市,以确保整体行程尽可能短。这种方法能够帮助我们有效地规划路线,减少不必要的绕行,从而节省时间和资源。当然,实际操作中还需要考虑到交通状况、天气因素等其他变量,但总体来说,从相邻城市开始规划是一个非常合理的起点。这样的策略不仅有助于优化路径,还能提高旅行效率,减少碳排放,对环境更加友好。
现在,在一个包含所有可能路线的空间里,即所有城市排列顺序的集合中,存在着大量的可能性。例如,在GPS等算法的应用中,它们的工作方式是在这众多的可能性中找出最短的一条路径。所有的推理系统均基于这种搜索理念进行运作。
也就是说,在由潜在解决方案组成的空间内,你需寻找那个满足你预期目标的方案。
目前的系统,当前的大语言模型在搜索方式上仍然显得相当原始。它们主要在所谓的token空间中进行搜索,即输出空间。因此,这些模型通常会让系统随机生成大量的不同token序列,然后通过另一个神经网络来评估这些序列,最终选择看起来最佳的那个序列作为输出。 这种机制虽然有效,但也有其局限性。依靠随机生成和大量试错的方法,不仅效率低下,而且难以保证每次都能找到最优解。这使得大语言模型在处理复杂任务时可能会遇到瓶颈。因此,未来的研究或许可以更多地关注如何提高搜索算法的效率和准确性,以实现更高质量的文本生成。
这是极其耗费资源的,因为这需要生成大量的输出结果,然后再从中挑选出好的。而且这也不是我们人类思考的方式。我们不是通过生成大量的行为,然后观察结果,再判断哪个是最好的来进行思考的。
比如说,假设你正在想象面前空中漂浮的一个立方体。现在,你拿起这个立方体,让它绕着垂直轴旋转90度。此时,你所看到的立方体已经旋转了90度。请仔细想象这个新位置的立方体,然后告诉我它是否与你之前看到的那个未旋转的立方体相同。答案显然是肯定的。 从这个简单的想象实验中,我们可以深刻地体会到视觉感知的奇妙之处。即使物体的位置发生了变化,我们的大脑依然能够识别出这是同一个物体。这种能力对于我们在复杂环境中导航和理解世界至关重要。这也提醒我们,在日常观察和分析事物时,不应仅仅依赖表面的变化,而要透过现象看本质,这样才能更准确地理解和判断事物的真实状态。
因为你知道,对于一个立方体而言,如果你将其旋转90度,并且你依旧从原来的视角去观察它,它的外观不会发生变化。
Q:那是自由推理的错觉吗?
LeCun:你所做的工作是在你的思维状态下进行逻辑推演,而不是在你的实际行动状态或行为领域中进行推演。
或者说,无论我的输出状态如何,我都是在一个抽象的空间中进行推理。 在这个信息爆炸的时代,我们每个人都像是在一片无垠的知识海洋中航行。无论技术如何进步,我们都必须承认,在这个过程中,我们的思维始终处于一种动态的、抽象的探索之中。这种推理的过程不仅帮助我们理解复杂的世界,也推动了社会的进步。因此,对于每一个试图理解和解释世界的人来说,培养一种抽象思维的能力变得尤为重要。这不仅仅是对技术人员的要求,也是对所有思考者的基本要求。在这个过程中,我们每个人都在无形中扮演着探索者的角色,不断寻找新的视角和理解方式。
所以我们拥有这些关于世界的心理模型,这些模型使我们能够预测世界上将会发生什么,操控现实,提前预知我们行为的后果。如果我们能够预测自己行为的后果,比如将一个立方体旋转 90 度之类的事情,那么我们就可以规划一系列的行动,从而达成一个特定的目标。
所以,每当我们在有意识地执行某项任务时,我们的整个注意力都会集中在其上,随后思考需要采取怎样的步骤,才能把事情做好。
基本上,我们每天用心去做的每一项这类任务,都需要进行规划。而且大多数时候,我们是分层级地进行规划。
比如说,我们不会一下子就跳到某个最终步骤,如果你现在决定从纽约回到华沙,你知道你得先去机场然后搭乘飞机。现在你有了一个子目标,那就是去机场。这就是分层级规划的意义所在。
在某个时候,在日常生活中,我们经常会遇到一些简单到无需再进行详细规划的任务,例如从椅子上站起来。这是因为这类动作我们已经非常熟悉,可以毫不费力地完成,而且我们的大脑里储存了所有必要的信息来执行这些动作。这种能力使我们在面对这些简单的任务时,能够迅速而有效地行动。 这样的能力虽然看似微不足道,但实际上对于提高日常生活效率有着不可忽视的作用。它不仅帮助我们节省了宝贵的时间,还让我们能够更加专注于那些需要更多思考和计划的任务。因此,在追求更高目标的同时,我们也应该珍惜并充分利用这些无意识的技能,它们是我们生活中的得力助手。
所以,我们需要实施分层规划策略,智能系统同样需要这种分层规划思路,这一理念非常重要。目前,我们尚不清楚如何使机器实现这一点。这将是今后几年内的一大艰巨挑战。
Q:如今,全球都在热议新推出的DeepSeek模型,该模型相比OpenAI的一些产品要经济实惠得多。这似乎预示着一个新的时代已经到来,市场格局也有可能因此发生重大变化。然而,尽管DeepSeek在价格上占有明显优势,但其性能和应用范围是否能够与那些经过长期验证的模型相匹敌,仍然有待观察。 我认为,虽然DeepSeek的低价策略可能会吸引一部分追求性价比的用户群体,但在技术成熟度和市场信任度方面,老牌公司如OpenAI依然占据着重要的地位。未来的发展趋势,可能更多地取决于DeepSeek能否在保证成本效益的同时,提供稳定可靠的服务和持续的技术创新。
LeCun:如果一项研发成果被公开发布,相关技术细节、论文、白皮书或报告也随之公布,而且代码是开源的,那么这将使全世界都受益匪浅。这样的做法不仅加速了知识和技术的传播,还极大地促进了全球科技水平的整体提升。通过共享这些资源,科研人员和开发者可以共同协作,更快地解决复杂的问题,推动人类社会的进步。 发表的研究成果和技术细节如果能够广泛传播,无疑会为全球带来巨大的利益。开源代码更是让世界各地的人们都能从中获益,从而加速创新的步伐。这种开放的态度不仅是对知识共享理念的实践,也是对全球合作精神的体现。
明白吗,不只是成果的创造者受益,成果的创造者或创造团队会获得声誉以及认可,但全世界都能从中受益,这就是开放开源的魅力所在。
就我个人以及 Meta 公司整体而言,一直都是开放研究和开源理念的坚定支持者。每当有一个践行开放开源研究的机构产出了成果,整个开源社区也会从中受益。
有人将这种现象描绘为一种竞争的态势,但实际上,它更应该被理解为一种合作。在当前的经济环境下,各方参与者通过共享资源和信息,共同面对挑战,从而实现互利共赢的局面。这种合作不仅有助于提升整体市场效率,还能够促进创新和技术进步。因此,我们应当鼓励和支持这样的合作模式,以构建更加稳健和可持续发展的经济体系。 发表的看法观点:我们应该正确理解和解读各种经济现象背后的本质,避免简单地将其归类为竞争。实际上,许多情况下合作才是推动行业进步的关键。政府和企业都应该致力于营造一个有利于合作而非单纯竞争的环境,这样才能更好地应对未来的挑战。
问题在于,我们是否希望这种合作是全球性的,我的答案是肯定的,因为全世界各个地方都能涌现出好的创意。没有哪个机构能垄断好的创意,这就是为什么开放协作能让这个领域发展得更快。
当前行业内,有些人士之前曾实施过开放研究并获得了成功,OpenAI便是这样一个例子。
而 Anthropic 从来都不是开放的,他们把所有东西都保密。
谷歌则从部分开放逐渐走向基本不开放,比如说他们不会公开关于 PaLM 背后的所有技术,他们仍然在做很多开放研究,但更多的是那种基础性、长期性的研究。
我觉得非常遗憾,因为有很多人基本上已经被排除在了全球研究社区之外,他们未能参与其中,也没有为行业的发展做出贡献。
过去十年人工智能领域的飞速发展,很大程度上归功于开放研究。这不仅是我个人的看法,而是无可争议的事实。
让我举个例子。几乎可以说,整个 AI 行业,至少在研发阶段构建系统时都会使用一款名为 PyTorch 的开源软件。它最初是由我在 Meta FAIR 实验室的同事开发的,后来有更多人参与进来。
几年前,PyTorch 的所有权已经转至 Linux 基金会,尽管 Meta 依然是主要的贡献者,但它不再拥有对项目的控制权。目前,PyTorch 主要由一个开放的开发者社区共同管理。这一转变不仅体现了开源软件在现代科技行业的核心地位,还表明了它已经成为众多企业不可或缺的工具,包括 OpenAI 在内的许多公司都在广泛使用 PyTorch。这显示出该技术在人工智能研究和开发中的重要性与日俱增,同时也反映出行业对于更加开放和协作的开发模式的追求。
虽然谷歌拥有自家的软件,但微软、英伟达等公司同样在采用PyTorch,而且学术界以及全球范围内的研究也在广泛使用这一工具。
在科学文献中发表的论文里,大约有70%都提到了PyTorch。这表明,人工智能领域的发展确实是在前人的研究基础上逐步推进的。这种基于已有成果进行创新和深化研究的方式,正是科技不断进步的合理路径。 这样的现象反映了学术界对于通用工具和平台的依赖性。PyTorch作为一个强大的开源机器学习框架,它的广泛应用不仅加速了研究者们的工作进度,也促进了知识共享与合作。然而,这也引发了一些思考:随着技术工具的日益集中化,是否会导致研究方向的趋同?我们又该如何鼓励更多元化的探索和创新? 通过这些观察,我们可以更好地理解当前科技发展的脉络,并思考如何在未来促进更加开放和包容的科研环境。
Q:如果不是 DeepSeek 的话,那么也许 OpenAI 的“星际之门”项目(The Stargate Project)会改变一切吗?
LeCun:不,不
DeepSeek确实是一项非常出色的成果,参与项目的团队展现了非凡的创新思维。他们不仅解决了许多技术难题,还成功地将这些想法转化为实际应用。这项工作无疑为相关领域树立了新的标杆。 我个人认为,DeepSeek的成功在于它不仅是一个技术创新,更是对现有行业模式的一种革新。它展示了如何通过深度学习和人工智能技术来解决复杂的问题,并且其应用前景十分广阔。这不仅标志着技术的进步,也为未来的研究提供了宝贵的参考案例。
这绝非中国首次在创新性成果上展现出卓越的能力。我们早已见证过多次这样的成就,特别是在计算机视觉领域所取得的显著进展。 这一系列成就不仅彰显了中国科研人员的智慧与努力,也反映了国家对科技创新日益增长的投资和支持。在全球科技竞争激烈的今天,中国的这些突破无疑增强了其在全球科技舞台上的地位,并为其他国家树立了良好的榜样。未来,我们有理由期待中国在更多科技领域带来更多的惊喜。
在中国的大语言模型领域,其影响力是近年来才逐渐显现出来的。然而,在计算机视觉领域,国际顶级会议上的参与者中有许多面孔是中国人的。这些科学家不仅才华横溢,而且非常聪明。这表明,无论是在哪个地区,优秀的创意都不会被垄断。 从这一现象可以看出,中国在人工智能领域的科研实力正在迅速提升,并且在某些特定领域已经取得了显著的成就。特别是在计算机视觉方面,中国科学家的积极参与和卓越贡献,为全球科技发展注入了新的活力。这也说明,随着全球化进程的不断推进,世界各地的人才交流与合作将更加频繁,共同推动科技进步。
DeepSeek 的创意也许很快就会被复现,但它现在已经是世界知识的一部分了,这就是开源和开放研究的美妙之处。这在产品层面上或许是一种竞争,但在基本方法层面上,是一种合作。
目前我们来探讨“星际之门”项目。如今,所有投身于人工智能领域的公司都预见到,在不远的将来,数十亿人每天都会希望使用AI助手。
我现在戴着一副眼镜,我不知道你能不能看到这副眼镜上有摄像头,这是 Meta 的一款产品你可以和它对话,它连接着一个 AI 助手,你可以向它问任何问题,你甚至可以让它通过摄像头识别植物物种之类的东西。
我们预见到的未来是,人们会通过智能眼镜、智能手机或其他智能设备,在日常生活中频繁地使用AI助手。 在这样的趋势下,AI技术的应用已经渗透到我们的生活细节之中。随着智能设备功能的不断升级,AI助手不仅将成为我们日常生活中的得力帮手,还将逐渐成为不可或缺的一部分。这种变化无疑将极大地提升生活的便捷性和效率,但同时也引发了对于隐私保护和技术依赖性的担忧。我们需要认真考虑如何平衡技术带来的便利与个人隐私安全之间的关系,确保科技发展的同时,也能保障每个人的权益不受侵犯。
这就意味着,将来会有数十亿的AI助手用户,而且他们每天会频繁地使用这些助手。因此,需要构建极其庞大的计算基础设施,因为运营大型语言模型或任何AI系统都需要高昂的成本,所以必须具备强大的计算能力。
据了解到的情况,Meta公司今年在基础设施上的投入预计在600至650亿美元之间,主要集中在人工智能领域;而微软则已宣布计划投资800亿美元。这一消息是在2025年3月报道的。
“星际之门”项目计划在未来五到十年内投资5000亿美元,然而目前尚不清楚这些资金将从何而来。值得注意的是,这样的投资规模与微软和Meta等科技巨头的投资相仿,实际上并未超出预期。尽管如此,这一巨额投资仍引发了对该项目可行性和资金来源的广泛讨论。有人认为这可能预示着新一轮科技竞赛的开始,也有人担心可能会导致资金浪费。无论如何,这个项目无疑将在未来几年内引起广泛关注,并成为科技创新领域的焦点话题之一。
这并不适用于训练大型模型,实际上,训练大型模型的成本相对不高,大部分投入是在推理方面,即为了运行AI助手以服务数十亿用户。
所以我认为,金融市场对DeepSeek的出现反应是,“哦,现在我们可以以更低的成本来训练系统了,因此我们不再需要购置那么多计算机。” 这种说法是不正确的。
我的意思是,训练只是会变得更高效一些,但结果是我们只会去训练更大规模的模型。而且最终,大部分的基础设施建设和投资实际上都集中在运行模型上,而非训练模型。这一现象揭示了当前人工智能领域的一个重要趋势:尽管训练模型是构建先进AI系统的基础,但在实际操作中,持续运行和维护这些模型的成本已经超过了最初的开发成本。这不仅反映了技术进步带来的复杂性增加,也意味着企业在追求AI应用时需要更加注重长期运营的成本效益。这种趋势可能会促使企业重新评估其在AI项目上的投入策略,寻求更高效的解决方案以平衡开发与运维之间的关系。这才是投资的方向所在。
原视频链接:https://www.youtube.com/ watch?v=RUnFgu8kH-4
参考链接:https://x.com/ vitrupo / status / 1898470276272210294
本文来自微信公众号:量子位(ID:QbitAI),作者:西风
免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com
页面执行时间0.009135秒