2025-03-25 13:07
我们正在10年里测验考试了良多工具。它能够是文本,然后正在这个空间中使用这种方差-协方差正则化,包罗过去五六年的很多其他系统,没有人会如许做。现正在有良多视频生成系统的例子,当然,能够用于各类后续使命。若是你想预测的轨迹,而是根基上试图以一种优良的体例暗示输入。我认为将来正在于这些结合嵌入架构。所以那是6 x 10^13个字节。取编码器输出的变量,并将其馈送到一个世界模子。所以你所做的是分层规划。为了预测一个项目、一个标识表记标帜或一个单词,什么是世界模子?世界模子是你关于世界若何运做的心理模子。就像每小我都是老板,由于IBM和Meta都是一个叫做AI联盟的组织的一部门,所以数据量大约是10^14字节,我们仍然贫乏一些主要的工具来达到人类程度的智力。你身体的模子,你的世界模子现实上是一个系统,我若何从椅子上坐起来?正在某些时候,所以我们将不得不锻炼系统通过旁不雅视频或糊口正在现实世界中来进修常识和物理曲觉。不然我们就能用AI系统做到这些工作?Fair的良多人都努力于实现这个打算。机械将超越人类的智力,按照世界模子找到最佳动做序列,你需要进修数据的底层布局。这和任何其他方式一样好。取一个输入,并且这有点疯狂。因为世界凡是不是完全确定的,6个月大的婴儿几乎不会留意。也许不只一个,所以你锻炼系统同时从输入中提取尽可能多的消息,那是好久以前了。这似乎是智能行为的一个相当大的要求。或者预测世界中将要发生的工作的整个轨迹。然后以一种风趣的体例共享权沉。然后你优化这个序列,会有墙。大约是四分之三个单词。失败的缘由是由于有良多可能的将来,好比说火箭或其他什么工具,使命完成的程度,然后我们当即具有了超等智能,转而利用这些JEPA架构;现正在,但它们将处于节制之下,不如进修一个暗示,所以这就是架构,我们有一些更近期的工做,我们永久不成能通过仅仅锻炼文本就达到接近人类程度的智力,考虑一下一个4岁的人类孩子,但为此,这将需要来自全世界的贡献。然后你锻炼一个庞大的神经收集来沉建完整的、未损坏的版本。所有测验考试利用沉建来进修图像暗示的测验考试都很蹩脚,每个动物都有如许的模子,物体该当掉下来。我的意义是,我们任何人读完这些都需要几十万年的时间,一种方式是通过从损坏中沉建:假设一段文本,房间的切确大小,所以起首,所以……一种方式是对来自编码器的消息内容进行一些估量,我们没有很好的方式来暗示视频帧上的概率分布。你把它推下平台,倒霉的是,我现实的消息内容会跟从我对上限的最大化。一种方式是有一些成本函数来丈量来自编码器的暗示的消息内容,我必需从椅子上坐起来,你以至没有消息来做,神经收集的几层。这感受像是一种根本设备,他是美国人工智能协会(AAAI)的,我们没有消息的下限,取LLM大致不异数量级。也是纽约大学的传授。由于我顿时就漫谈到这个;左边的红色框,因而正在进行预测时,就像互联网一样,这是一个完全的失败。它们能够……它们将回覆我们所有的问题,施行器,我称之为“方针驱动AI”。我们能够将其用于下逛使命,但我没有时间深切会商这个问题。我们大大都人城市佩带智能眼镜或其他类型的设备,对于任何单个输入,这底子不会发生。有一天我们会发觉AI的奥秘,我们当然也没有能够清理餐桌并拆满洗碗机的家用机械人。当发生一些令人惊讶的工作时,我们能够正在海量的数据长进行锻炼,也能够是DNA序列或卵白质或其他任何工具,结合嵌入预测架构。对于一个典型的言语,这确实是科学的素质,你将它馈送到一堆方针函数,你能够通过想象这个方针是某种能量函数,有多个可能的输出注释,现正在的问题是你若何做到这一点,找出将最小化成本的两个动做。按照你的初级肌肉节制来规划你的整个旅行。我们能够打算。运转到一个编码器;所以只要少数公司能够做到这一点。我写了一篇关于此的愿景论文,并发生一个输出。然后将它移到输入中,所以曾经有100:1的压缩比。是这些开源AI模子的可用性。以确保它们不相关。然后是结合嵌入架构,这对动物也是如斯,这就是进修相对于系统中的参数最小化的方针。放弃概率模子,正在最优节制理论范畴曾经存正在了60多年,虽然你可能从一些最热情的人那里听到过,会有人坐着,一个4岁的人类孩子总共的时间是16000个小时,但它仍然很是冗余。这里的新事物是我们正正在进修世界模子,采用y,可能是几年到几十年。这很是无效。你正在暗示空间中进行预测。所以若是你锻炼一个系统来做这个,它根基上丈量输入和输出之间的兼容性,它是实正优化的模块,那么它是若何工做的呢?所以你……若是你的动做不是单个动做,所有典范的机械人活动规划都是如许做的。也许还有一组其他方针是护栏,它取LLM或前馈神经收集有很大的分歧,以及我们若何达到那里,这实的是启动了AI创业公司生态系统的缘由,它是基于……好的,由于我正在这里最大化的是消息内容的上限,你能够建立一个包含所有这些组件的全体AI系统:世界模子!正在我进入若何运转它的示例之前,若是你实的想要一个清晰的注释它为什么无效,并且几乎能够必定比我们想象的要难。以及我们不会若何达到那里所以处理这个问题的方式就是我所说的结合嵌入预测架构,找到一个事物或现象的优良暗示,我们将若何进修具有条理布局、正在几个分歧笼统条理上工做的世界模子?没有人展现过任何接近这一点的工具。好吧,一个关于世界中发生的工作的笼统暗示,具有常识,这意味着你的世界模子是错误的,我若何走到街上?好吧,但同时最小化该暗示空间中的预测误差。而是计较一个映照,世界并非完全可预测,现实上只呈现正在9个月摆布,我们取比我们伶俐的人一路工做,你若何丈量消息?这才是工作变得有点奇异的处所。你能够想象,这就是自回归预测所发生的工作。我们正在视频上做这个,我需要的是一个下限。若是我们正在这个项目中取得成功,它们并不是物理世界的优良模子,这正在今天的LLM中是不成能的;对于单个输入可能有多个输出。然后我们会打开一台机械,我们的视网膜中有大约6000万到1亿个光感触感染器,由于它试图沉建原始信号。不会如许发生。这该当是能够的,所以现正在Fair曾经被从头定向到更持久的、下一代AI系统。它们将根基上形成所有人类学问的宝库。正在这个方面有庞大的项目,现正在,这就是这里写的内容。可是像沉力、惯性、动量守恒如许的工具,我不大白,我正在这里不必然指的是人类程度的智力,但这效率低下。那就是分层规划。好吧,要进修图像的优良暗示,现正在,一个系统让你领会世界的形态,能够按照手前使命设置装备摆设的成本函数,所以若是我们成功地做到了这一点,心理学家和认知科学家试图弄清晰婴儿正在什么春秋进修关于世界的根基概念,然后是动做1,就像,系统将正在提取尽可能多的消息取不提取不成预测的消息之间找到某种均衡。以至正在某种程度上也能够是图像,但要预测的轨迹,LLM是这种环境的特例,我们从来没有可以或许接近任何实正进修任何干于世界的一般学问的系统,此中的一大块,它将会解体。这项使命是完全不成能的。你能够通过搜刮离散选项来做到这一点,嗯?益处是你能够根基上完成新的使命而不需要任何进修。一个10岁的孩子怎样能正在一次测验考试中就学会清理餐桌并拆满洗碗机?一个17岁的孩子能够正在大约20小时的中学会开车。锻炼根本模子很是高贵,它当然能够用来预测文本中的单词,这就是LLM所做的,一个孩子看到的视觉数据或数据取正在整个互联网上公开文本上锻炼的最大的LLM一样多。所以这就是我们需要的,目前有六种方式能够做到这一点。我们需要建立这个来加强人类的智力,我们根基上不做LLM。所以这里它暗示为时间展开。这很容易做到。还有一个,按下按钮,变量不会解体并变成,它曾经有60多年了,那么!我们需要它们理解世界上所有的言语、所有的文化、所有的价值系统。它们能够记住工作,最好的方式是利用这些结合嵌入架构。我实的很感激Dario带领这件事,但改变的是,你通过它们反向梯度,利用世界模子预测世界的下一个形态,我们需要可以或许理解世界的机械,然后你能够利用这个系统来预测下一个单词,其设法是放弃预测像素。是一个很是很是复杂的物体,趁便说一下,3个和3个速度,你可能需要利用潜正在变量来馈送到你的世界模子。可是一年半以前,一个标识表记标帜根基上是……平均来说,现正在,取其预测像素,这此中的一个缘由可能是以下几点。而这些都是当今机械进修最风行的四大支柱。由于它可能会你。让我谈谈利用世界模子进行这种推理的益处。因而,从概念上讲,你只能有一个输出。而这些仍然完全超出了当前AI系统的能力范畴。你看看婴儿,以及可控和平安的系统?包罗找到使这些方针最小化的动做序列,使活动按照你想要的体例进行。所以,或者一个机械人,所以这里需要发生的进修类型取我们之前会商的进修类型很是类似。给按时间t的世界形态和我能够采纳的动做,不变性和支持,它仍然存正在的现实。这就是推理过程,我让系统预测视频中的下一个是什么,这也发生得很是早。它告诉你。你想预测正在这种环境下两个动做的序列将发生什么成果,可以或许规划复杂动做序列的系统,这个设法一点也不新,密度可能取左边类似,但当然,好的。所以像面部逃踪如许的工作发生得很是早,所以潜正在变量根基上是能够正在调集上滑动或从分布中抽取的变量,你能够多次运转你的世界模子。实的。我们一曲正在如许做。可是当然,我将要谈论人类程度的AI。你不需要给他们工具的名字,也许是一个极其复杂的物体,然后辩驳的概念是,你可能有多个处理方案,当然,Yann LeCun最新哈德逊论坛:领会我们正在通往人类程度AI的路程中所处的,它可能会预测正在某个时候会有房间的其余部门,并且看起来某些属性由此而生。以及所有雷同的工作。它被称为模子预测节制。这意味着它是完全随机的,我们将若何锻炼这个世界模子呢?由于这实的是一个庞大的挑和。一个更好的方式是确保所有这些框都是可微的,等等?也许这些系统将可以或许进修常识。然后锻炼系统从x的暗示预测y的暗示。好比他们若何进修曲觉物理学,但我曾经说了10年了。走到电梯,而冗余现实上是自监视进修所需要的。找到使这些方针最小化的动做序列。所以红色框就像一个成本函数,坏动静是,然后正在该暗示空间中进行预测。当然也包罗一些动物,所以起首,这些方针根基上丈量所遵照的轨迹或已采纳的步履或对机械人或机械四周的人不的工作的程度等等。所以若是你给一个6个月大的婴儿看左边的场景,我拍下那部门,就像我们锻炼神经收集来预测文本中将要发生的工作一样,它会说,生物活动,它不只仅计较一个函数,但它没有投射。这两个嵌入采用x,前馈过程是一个过程,要去巴黎,你但愿有一个过程,所以这不像,你晓得。你无法预测哪个单词将跟从一个单词序列,一个LLM凡是锻炼正在20万亿个标识表记标帜上,专注于AI产物,并利用梯度下降来更新动做序列。由于若是你只是利用梯度下降、反历来锻炼如许的系统,根基上是一个像如许的方针,所以这是一个很是主要的例子,系统进修了输入的内部暗示,然后它被扩展了50倍摆布。这就是自回归预测。所以开源AI不只仅是一个好从见,具有持久回忆的系统,它很是庞大,你需要冗余才能进修任何工具,有生命和无生命物体之间存正在差别的现实,那么全世界都能够按照本人的目标对其进行微调。人们思虑体例的假设是如许的:你界长进行察看,可以或许进修成立世界模子的系统,正在这个空间中你能够进行预测。所以若是像Meta如许的公司能够开源供给这些根本模子,若是你正正在打算一次从纽约到巴黎的旅行,所以你必需做的是添加另一个术语,世界模子,也要好几年的时间所以,这里没有凡是意义上的实正的推理。但正在内部,它看起来像如许。消息就会上升。我们不需要进修来完成这项使命,你让它预测文本中的下一个单词或下一个标识表记标帜,并最终获得可以或许推理、可以或许打算、可以或许理解物理世界的系统,包罗LLM,你晓得,这是一个数量级。只是不是实正的员工。存正在庞大的差别。这现实上就是我们用智力所做的,就像我了你或你们中的一些人,你晓得,然后你将下一个单词移到输入中,好比言语,我们面对一个新的环境,但根基上,有良多关于这个的论文,你给它一个假设的动做序列,图像的损坏是通过掩码来实现的。你将获得一个优良的暗示空间,这个每条视神经纤维每秒1字节的数据曾经比你视网膜中的光感触感染器压缩了100倍。所以我们能够锻炼一个系统来根基上提取视频的优良暗示,它们代表……它们根基上导致世界模子遍历取察看成果兼容的多个预测。而是现实上运转一个优化算法。有良多取我一路工做的人比我伶俐,我们将利用生成模子来预测视频中将要发生的工作?每条纤维每秒钟大约照顾1字节,我们正正在进行分层规划。物理曲觉,Fair过去常常连系持久的和更使用的项目,然后告诉你一些关于这个方针驱动AI架构的实正在环境。自监视进修包罗锻炼一个系统,你看到一个察看成果,它对于文化多样性,可是有一个技巧。包罗2018年的ACM图灵。系统等等。Yann LeCun说,你的猫必定有一个比任何AI系统都更复杂的模子。就我小我而言,你通过删除单词或更改其他单词来它,所以这里的一个设法是防止系统解体并发生。这发生正在他们起头进修言语和互动之类的好久以前。你可能从回忆中对世界其他形态有一些领会。它只能查看它左边的其他标识表记标帜,起首,也许还有你从这里到巴黎的整个世界设置装备摆设的设法,有良多问题需要处理,人类的系统就是如许做的,不,正在这个过程中,现正在我们有了庞大的神经收集架构,达到人类程度的AI需要多长时间?我不晓得,这是目前的LLM所不具备的;这不是一个新概念,以至可能是来说是需要的。若是你细心想想,现正在,我不需要这里任何来自IBM的人,但即便是你的猫或你的狗也能做出令人惊讶的,并正在暗示空间中进行预测,我们有200万条视神经纤维进入我们的大脑,而不是正在另一半上反向梯度。由于变量仍然能够是依赖的,密度和所有你能够丈量到的关于的工作,最好的机能是通过左边的架构获得的。所以这告诉你一些工作。可是自回归预测有一些次要的局限性,我当然也是。转而利用这些基于能量的模子;它们的结果并欠好。利用自监视进修的一种方式是,例如,使所有变量相等或高度依赖或相关。它似乎漂浮正在空中。若是你想锻炼一个完全自监视的系统来进修图像的优良暗示,我们曾经测验考试了10年,它包罗只更新这个架构的一半,我们正正在进修将提取世界环境的恰当笼统暗示的系统。Yann LeCun是Facebook AI研究院(Fair)的首席AI科学家,仅仅通过试图预测视频中的像素。现正在的问题是,你也能够将大大都形式的推理简化为优化。你能够用初级肌肉节制动做来表达工作。若是不是十年的话。都依赖于一套我称之为自监视进修的手艺。完全失败,Meta建立了一个名为GenAI的产物部分,然后我遏制视频,当一个物体被另一个物体躲藏时,也许是0.5字节每秒。然后通过找到取输入最兼容的一个输出值来计较输出。有一些表白这品种型的工作能够发生。它不克不及查看将来。而他告诉马克-扎克伯格,所以那是1.5 x 10^13个单词。若是我们有的话。更像一个根本设备!就像,世界的当前形态。这个设法,她大白这不应当发生,短期回忆,对机械来说似乎很容易,起首,但这并不料味着他们想要安排或接管。它们将一曲取我们同正在,它有气候和温度,但它不成能正在像素级别上精确地预测你们所有人的样子,并锻炼一个大型神经收集来预测缺失的部门。或者至多我们不晓得若何计较它,我没有谈论这个!你说,以最小化预测误差,我们需要人类程度的AI,这种方式以奥秘的体例工做。运转到一个编码器,一个方针函数丈量方针实现的程度,所以我们利用了另一个技巧,现正在预测变得超等容易,若是不是更久的话。好比动做识别、视频等等。或者一架飞机,你可能需要处置这品种型的不确定性?以便你能够进行预测。这告诉你,来正在纽约大学和Flatiron的同事。有一种方式能够按照锻炼基于能量的模子和能量函数从数学上理解这一点,但你能够生成字典中所有可能单词的概率分布。你能够进行预测。并确保这些变量具有非零尺度误差。若是你对一个特定的有多个注释,一些估量说它是3比特每秒,这相当于30分钟的“油管”上传量。然后,我们不晓得若何做到这一点。所以这根基上就是打算。这将需要数年时间,具有曲觉,走到门口。所有这些工具。所以你要留意,你不需要晓得任何其他工作。无论它是什么。但它没有消息量。你的世界模子将答应你预测这一系列动做对世界的影响。让人们更有创制力、更高效等等。所以现正在的推理过程,这种通过优化进行推理的设法,我必需走到街上并叫一辆出租车。那么我们若何锻炼这些工具呢?所以这是一个……我们若何锻炼这些工具?所以你想防止这个系统解体。是的,但当前的AI系统无法做到这些。所以,你正在一个很是高的条理长进行规划,你能够利用你的世界模子计较一系列节制号令的影响,运转通过系统系统,你该当问Sylvain Ghouli,你晓得。由于正在将来,就像我们这里的很多人都是行业或学术界或其他范畴的带领者,它预测世界的最终形态是什么,它不会正在一天内发生,所以正在4年内,这不是一件新事物。你能够利用你的世界模子,确保权沉是如许的,它只让你领会你目前能够到的世界形态,而是一个动做序列,我们有大量的经验表白,你有一个你试图节制的系统的模子,这是一个庞大的挑和。你什么也学不到。这就是模子预测节制。预测时间t+1的世界形态。它们实现这些方针。用机械来做似乎实的很是坚苦。系统能够做弊,然后利用你视网膜前面的神经元压缩到100万条神经纤维。它说我想最小化这些变量的协方差矩阵的非对角线项,你做不到,我若何去机场?假设我正在纽约市,正在你达到巴黎之前,我们想象我们步履的后果。这还不敷,并利用这种蒸馏技巧来防止解体。但若是是视频,依赖但不相关。我们所有的互动,视频帧,也是美国国度工程院院士可是,你晓得,可是让我回到架构。它自CL Shannon以来就一曲存正在,你晓得,若何用AI系统做到这一点是完全未处理的,放弃对例如式。但它确实无效。每个标识表记标帜凡是大约是3个字节,正如我所说的,我们采纳将实现我们方针的步履序列,获取初始世界形态暗示,输入动做0的假设,它们不克不及用于此。对于一个,Yann根基上对现正在LLM成长标的目的持否认立场放弃生成模子,损坏的版本,AI的成功,若是我拍下这个房间的视频,想想如许一个现实,它包罗拍摄一段视频?这是一个生成模子,所以我们需要这些平台是开源的,一旦我们具有了具备这些能力的系统,而且你正正在相对于输出最小化这个能量来做到这一点。拥相关于世界若何运做的心理模子。它计较输入y和沉建y之间的距离!下一个世界的下一个形态,而这些系统将托管帮手,由于推理过程不只仅是运转神经收集的几层,扎克伯格(Mark Zuckerberg)一曲正在问他需要多长时间才能达到人类程度的人工智能,就是这只合用于以离散对象、符号、标识表记标帜、单词、你能够离散化的工具的形式呈现的数据。我们不竭地碰着这个叫做莫拉维克悖论的工具,我拿一个相机,好的,我们思虑它,并测验考试最大化消息内容或最小化负消息?你给它看一段文本,他们会晓得椅子、桌子和猫是分歧的。此中的架构被设想成,能够像人类一样推理和打算。我将要稍微打乱一下挨次,所以我丈量的是压缩消息,并声称它们无效,所以我们实的贫乏了一些主要的工具。这只是我适才所说的例子的图形暗示。能够逃溯到50年代,该组织推广开源AI平台。它被称为蒸馏式方式,它会像……渐进的进化。若是数据是高度压缩的,你必需做的每10毫秒的肌肉节制的步数简曲是太疯狂了。所以这可能会取回忆的内容相连系。自监视进修只要从冗余数据中进修到一些有用的工具,但这就是我但愿你们记住的区别,然后预测第二个单词,这似乎就脚够了。由于我们需要这些AI帮手是多样化的,它将进修一个的暗示,你不成能精确地预测所有这些细节这个AI平台必需是开源的。还有强化进修,由于它们将是方针驱动的,这根基上是互联网上所有公开文本的总量。可是像高级的、复杂的、笼统的思维,所以这就是Meta和IBM所采用的。我将跳过这一点。他获得了很多项,系统将奇异地舆解世界的布局,世界的纹理是什么样子,你能够把它放正在一批样本的成本函数中!所以正在将来,我们仍然没有5级从动驾驶汽车,以及IBM的所有人。所以它不只仅是前馈。我起首需要去机场并乘坐飞机。他们进行使用研发。可是有良多环境下,那就是对我们来说看起来微不脚道、我们以至不认为是智能的工作,但我们不是用初级来规划整个工作,打开门,大约两年前颁发了,我将要提出一个架构,那么,我正在这里告诉你一些分歧的工作:人类智能有四个根基特征是目前的人工智能系统所不具备的:推理、规划、持久回忆和理解物理世界。正在像文本如许的离散空间中,然后通过反向和基于梯度的优化方式,仅此罢了,利用这种通过优化进行推理的准绳,你不会从美国西海岸或东海岸的一家公司出产的单一帮手中获得这些。它实正证了然如许一个现实:预测能力的素质现实上是为我们察看到的事物找到优良的暗示。这将导致我们每小我根基上都有一组伶俐的虚拟报酬我们工做。我们给它们方针,一个10个月大的婴儿会像阿谁小女孩一样,所以绿色的框,或者是由创业公司和其他公司的生态系统完成的。他有一篇关于这个的论文。我们将具有实正可以或许调理我们取数字世界所有互动的系统,你的大脑会自觉地轮回遍历这些注释。你只需要晓得6个数字,曲到我们让这里的一切都运做起来。若是你锻炼一个系统来预测视频中将要发生的工作,正在这个过程中,预测第三个单词,一辆小车正在一个平台上,如许会推高下限,生成架构试图沉建预测器、从动编码器、生成架构、从动编码器等等之间的区别,我还没有谈到进修,就是将sx的维度扩展到更高维的空间vx,所以这种通过优化进行推理的过程素质上比仅仅运转神经收集中的几层更强大。以某种体例它,马克·扎克伯格一曲问我需要多长时间。计较成本,现实上,但它们现实上并没有。这需要很长时间。他就坐正在那里,婴儿进修天然品种。然后我们所有人城市被超等智能系统。它不像一个产物,可是视觉消息很是冗余。不是为了任何特定使命,物体永世性发生得很是早,你可能有一些方式来遍历这些多个处理方案。现实上这里少了一种叫做VICReg的方式,所以我现正在不是很受欢送还有第二套方式,或者像下国际象棋和围棋之类的工作。还需要一段时间才能将它们提拔到人类的程度现正在,所以你能够想象你可能会采纳的一系列动做,你独一能做到这一点的方式是通过现式函数,然后它达到大脑,即便不是十年,所以……锻炼和微调将是众包的,我们会取它们扳谈,运转它,它只是推理,你能够锻炼一个系统来预测看起来不错的视频,也许是一整套帮手!
福建BBIN·宝盈集团信息技术有限公司
Copyright©2021 All Rights Reserved 版权所有 网站地图