">
Scaling law也许是对的,但不会是全部,因为scaling law本身代表一个非常悲观的未来——scaling law的本质是,用指数级的数据增长,来获得几个点的收益。最终人类世界可能会出现很多长尾需求,需要人类的快速反应能力去解决,这些场景的数据本身也很少,LLM做不到。Scaling law发展到最后,可能任何一个人都站在一个数据孤岛上。
对于研究者而言,预设一个判断、押注正确的方向,往往会决定学术成就的高远。当一切尚未验证时,多少需要朴素的直觉来支撑,而朴素直觉的背后,往往是一些关于是与非、能与否的底层信仰。
在人工智能领域,底层信仰的作用在被放大。比如,此刻AI有一些根本性的研究底色:Scaling law是否是唯一至上的纲?
大模型的scaling law最早由OpenAI在2020年的一篇论文中提出,其内涵是,大模型的最终性能主要与计算量、模型参数量和训练数据量三者的大小相关,而与模型的具体结构(层数/深度/宽度)基本无关。
放眼全球,很多人都将scaling law奉为圭臬,但聚光灯外也不乏一些质疑scaling law的“少数派”。田渊栋就是这里面之一。
“虽然现在scaling law很火,但一味跟风,亦步亦趋,并不是我的风格。”田渊栋告诉「甲子光年」。
田渊栋博士毕业于卡耐基梅隆大学机器人系,如今是硅谷小有名气的华人科学家。今年是田渊栋在Meta的第十年。他任Meta FAIR研究员、高级经理,也曾获2021年国际机器学习大会(ICML)杰出论文奖提名,及2013年国际计算机视觉大会(ICCV)马尔奖提名。田渊栋的“组长”是图灵奖获得者杨立昆(Yann LeCun)。
2013~2014年,田渊栋曾在Google无人驾驶团队任软件工程师,这里种下了他对scaling law怀疑的种子。“我画过一张图,一开始数据量越大,模型performace越好,但模型离人类越近就越难获得新的数据,模型就越来越难以改进,最后总会有些corner case解决不了,这是Data driven(数据驱动)最大的问题。”
2019年,OpenAI联合发起人、首席科学家伊利亚·苏茨克维(Ilya Sutskever)找到田渊栋,希望他加入OpenAI。“他说他要做语言模型,我说我要尝试理解神经网络模型的工作原理,所以就没去。总之我觉得我这条路会一直走下去。”
五年后的今天,即使在大模型将scaling law推上神坛的当下,他依然坚信,scaling law也许是对的,但不会是全部,他告诉「甲子光年」:“Scaling law本身代表一个非常悲观的未来。”
他所押注的是一条看似风险更大的路:“我们最终能理解模型到底是如何被训练出来的。”
田渊栋最近的工作表排得非常密集,譬如在4月29日刚刚参与发表了AdvPrompter,可以两秒内生成针对大语言模型的对抗性攻击,这样生成新的数据集并且微调大模型,能够逐渐增强模型的鲁棒性。
首先从技术上看,模型数据“从哪来”“怎么训练”是未来限制AI发展的关键问题。
第二,从人机交互方式来看,搜索不是最自然的方式。技术的最高境界是变成水和空气,你感觉不到它的存在,你不用知道它的原理,就能获得技术带来的便利。
田渊栋:搜索是后天习得的,但对话式交互已经经过了几万年的演化,人类从出生开始就学习说话,这种方式对人类的“吸力”特别强。
如果之后出现互动小说、互动视频甚至是可互动的三维世界,就会将生成式AI和交互百分之百结合起来。每个人都生活在一个平行世界,通过对话就能感受不同体验,这时的人机交互就回到了人类最原始的状态,人类一定会陷进去。
从计算的角度来说,交互一定要基于生成,否则就需要无限的资源、人力去标数据或创作内容。甲小姐:
,数据库和生成式是一段连续光谱的两端——一端是由人类提供所有数据的世界;另一端是所有数据交由AI生成的世界。甲小姐:
“生成”与“非生成”的本质不同之处在于要不要人类输入很多数据,输入的内容是不是需要大量重复劳动?是不是能做到教孩子那样,指点一下就能举一反三?
生成式AI其实给人的就是这种期许。只要有足够的数据,通过输入prompt,模型会自己生成一个未知场景给人体验,这就减少了工程师的消耗。工程师不可能24小时工作,但AI可以,而且复制一个AI很容易,但复制工程师非常难,生成式AI会让生产力大幅度的提高。现在的问题是,好的小说、剧本非常少,如果AI能够生成高质量的内容,很多问题就迎刃而解了。
人类永远只会想自己沿着这条分叉走能拿多少利益,很难会主动开辟全新的分叉,一定会有一个短视的阶段。只有在某个方向撞墙之后,大家才会发现,scaling law是有问题的,才会往回走。
Scaling law也许是对的,但不会是全部,因为scaling law本身代表一个非常悲观的未来。Scaling law的本质是,用指数级的数据增长,来获得几个点的收益。
最终人类世界可能会出现很多长尾需求,需要人类的快速反应能力去解决,这些场景的数据本身也很少,LLM拿不到。Scaling law发展到最后,可能任何一个人都站在一个“数据孤岛”上,
是有关系。为什么我后来不做无人驾驶了?因为我觉得data driven模式有很多问题。我画过一张图,一开始数据量越大,模型performace越好,但模型离人类越近就越难获得新的数据,模型就越来越难以改进,最后总会有些corner case解决不了,这是最大的问题。而且车比LLM更难,因为在车上模型表现一定要达到100分才能上路,99分就等于0分。我当时就觉得很难,搞不清,所以第一个跑了。
每开除一个语言学家, NLP模型的性能都会上升。过去很多NLP模型训练规则是人类从数据中总结出,但那些无法用语言或符号清晰定义的问题,机器或许会总结得更好。Scaling law之后一定会有新的技术分叉
只有在某个方向撞墙之后,大家才会发现scaling law是有问题的,才会往回走。甲小姐:
高速公路的建设有标准流程,但是训练大模型没有标准,很多东西都要调。每一次训练都可能有新的训练方式和策略,
但没有特别成功的例子。因为预训练跟微调所需的计算资源差距太大了,预训练要用成千上万块卡,微调只用几块卡,你不能指望靠微调把一个坏模型变好。除非有一天我们对训练过程有更本质的理解,从本质上解决梯度下降效率低下的问题,从而找到新方法。现在模型训练过程仍是一个“黑盒”,我们大家都知道模型在做加减乘除,但并不知道它做加减乘除时,是否在运行某个高层次的算法去寻找数据的内在规律。
而且会有很多干扰因素,大脑还应该要考虑低能耗和慢上几十万倍的通信和响应速度(毫秒级对应硅基是纳秒级),抵御外来入侵者的免疫系统,冗余设计,几亿年的“祖传屎山”等等。所以生物学和脑科学真是太难了,需要数十年如一日,几代人前赴后继的努力,我非常敬佩他们。甲小姐:
只要能预测未来的具体形态,都是世界模型。Sora是世界模型,它生成的每一帧都是对世界的预测,可以从一开始预测后面,也可以从最后反推前面。甲小姐:
要看它的工作效率是否更接近线.谈选择:“还是要做一些独一无二的工作”“像不像人”和“有没有像人一样高的效率”是两回事。
你现在的核心研究方向是什么?田渊栋:虽然现在scaling law很火,但一味跟风亦步亦趋,并不是我的风格。
LLaMA属于刚成立的GenAI Team,我们属于FAIR,现在有600多人,是一个比较独立的研究组。LLaMA最早是FAIR做的,后来公司就考虑成立一个团队专门迭代LLaMA,因为大模型是很重要的。之后有一些工作像AdvPrompter有比较大的应用价值,应该会和LLaMA这边合作。
甲小姐:你会直接向Yann LeCun汇报吗?田渊栋:Yann现在是VP&IC,不管人。他还是主要做技术上的领导,
现在LLM的方式还是有问题,它的学习效率没有人那么高。你可以说LLM就是AGI,但AGI就是拿一堆数据堆一个很强的model吗?不一定。
AI能用和人类同样的效率,甚至更高的效率学习新知识,完成一些从未见过的工作。但不管如何GPT-4这样水平的AI已经能非常大程度影响这样一个世界了。甲小姐:
从效率上看,现在的模型还远远达不到人类水平。人一辈子能看多少东西?但人的生成能力远远强于AI模型,这是AI最大的问题。
4.谈信仰:“我相信基于神经网络的AI模型是可解释的”硅谷其实没什么主流、非主流之分,因为每一个人都会有自己的方法,并不是所有人都要学OpenAI,如果都和OpenAI一样,那我就叫OpenAI了。
OpenAI已经在scaling law的路径上取得很大进展,但你做的方向仍然前路未卜,这会让你有种无力感吗?田渊栋:
田渊栋:我相信基于神经网络的AI模型是可解释的,我们最终能理解模型到底是如何被训练出来的。
硅谷其实没什么主流、非主流之分,因为每一个人都会有自己的方法,并不是所有人都要学OpenAI,也许下一次科技革命的驱动就是从这些非主流开始的。另外我们也有很多LLM应用方面的工作有立即可用的价值,所以就算神经网络真的无法解释,人类除了拼命往里面塞数据、堆算力之外没有别的办法,那至少还是有饭吃的。
甲小姐:对于想要入局AI的人来说,是不是要想大航海时代一样,先下一个bet,再扬帆起航?田渊栋:
如果你不make a bet,你能做的就是follow other people,很难走得更远。有Bet的好处在于,你可以一辈子一直走下去,人生不会觉得无聊。
甲小姐:你曾在谷歌无人车团队工作1年多,加入Facebook也有近十年,应该有很多VC怂恿你创业吧。田渊栋:
我比较明白自己的长处和短处。我不太擅长从1到100的问题,而比较擅长从0到1。从0到1的事情我会在研究部门做。去年确实也有VC联系我,想要投资做AI生成电影。我当时真的有点动心,因为我自己也写科幻小说,当然希望自己的小说能够“啪”一下变成电影,但还是没走。我觉得要做从1到100的事情,世界上有很多很多人做得比我好得多,代码写得比我快,头脑比我灵活,相比之下,我自己不存在太大优势。
我们应该放弃这种执念,认为大脑是人类的控制器,其实不是这样子。人体的每一部分都对我们的行为表现有一票投票权,只是以后AI也会有一票而已。
人人都“为五斗米折腰”的结果就是,所有人都有同质化倾向,这对未来发展不利。
甲小姐:当任何一个人都拥有个性化的世界,这种经验还有意义吗?比如高考秘籍很珍贵,是因为大家都在高考,而不是自己一个人去高考。田渊栋:
这个世界总有一部分人会渴求自己尚未见过的世界,那些都是AI生成不了的,或AI只有少数的数据实现的。
甲小姐:移动网络时代我们已感受到剧烈的信息爆炸,但生成式世界中,所有信息都真假难辨,想要了解世界真相的人可能穷其一生,对世界的理解都不到万分之一,由此产生巨大的空虚感。田渊栋:
自我意识起源于人类大脑对自己的建模。从进化上来看,这个很有必要。因为人要根据周围的环境,及自身的状态,来决定自己的行为。比如看到一只老虎,是要逃跑,还是要跟它搏斗?体质好,有趁手的武器,再加上周围有帮手,可能就会选择搏斗;但要是孤身一人身上有伤,那肯定得逃。这个就要有对自身的建模,才能有下一步的行动。做得好就活下来了,做不好就被自然界淘汰了。
这个“自我”的模型就会慢慢扩展,也慢慢细化。如果一件物品和人本身的联系足够紧密,那么自我模型在计算的时候,也就会自动把它纳入在内,这个在武侠小说里是所谓“人剑合一”了。如果AI和人类完全融合,可能会形成一个整体意识,你分不清某个念头到底是AI产生的还是你自己产生的,也不会有一方控制另一方的问题。
所以,我们该放弃“大脑是人类的控制器”的执念,其实不是这样子。人体的每一部分都对我们的行为表现有一票投票权,只是以后接入的AI也会有一票而已。