当前位置：首页 > 案例

甲小姐对话田渊栋：Scaling law代表一个非常悲观的未来

来源：米乐m6官网登录入口发布时间：2024-06-05 04:11:09

　　Scaling law也许是对的，但不会是全部，因为sc

详细信息

　　Scaling law也许是对的，但不会是全部，因为scaling law本身代表一个非常悲观的未来——scaling law的本质是，用指数级的数据增长，来获得几个点的收益。最终人类世界可能会出现很多长尾需求，需要人类的快速反应能力去解决，这些场景的数据本身也很少，LLM做不到。Scaling law发展到最后，可能任何一个人都站在一个数据孤岛上。

　　对于研究者而言，预设一个判断、押注正确的方向，往往会决定学术成就的高远。当一切尚未验证时，多少需要朴素的直觉来支撑，而朴素直觉的背后，往往是一些关于是与非、能与否的底层信仰。

　　在人工智能领域，底层信仰的作用在被放大。比如，此刻AI有一些根本性的研究底色：Scaling law是否是唯一至上的纲？

　　大模型的scaling law最早由OpenAI在2020年的一篇论文中提出，其内涵是，大模型的最终性能主要与计算量、模型参数量和训练数据量三者的大小相关，而与模型的具体结构（层数/深度/宽度）基本无关。

　　放眼全球，很多人都将scaling law奉为圭臬，但聚光灯外也不乏一些质疑scaling law的“少数派”。田渊栋就是这里面之一。

　　“虽然现在scaling law很火，但一味跟风，亦步亦趋，并不是我的风格。”田渊栋告诉「甲子光年」。

　　田渊栋博士毕业于卡耐基梅隆大学机器人系，如今是硅谷小有名气的华人科学家。今年是田渊栋在Meta的第十年。他任Meta FAIR研究员、高级经理，也曾获2021年国际机器学习大会（ICML）杰出论文奖提名，及2013年国际计算机视觉大会（ICCV）马尔奖提名。田渊栋的“组长”是图灵奖获得者杨立昆（Yann LeCun）。

　　2013~2014年，田渊栋曾在Google无人驾驶团队任软件工程师，这里种下了他对scaling law怀疑的种子。“我画过一张图，一开始数据量越大，模型performace越好，但模型离人类越近就越难获得新的数据，模型就越来越难以改进，最后总会有些corner case解决不了，这是Data driven（数据驱动）最大的问题。”

　　2019年，OpenAI联合发起人、首席科学家伊利亚·苏茨克维（Ilya Sutskever）找到田渊栋，希望他加入OpenAI。“他说他要做语言模型，我说我要尝试理解神经网络模型的工作原理，所以就没去。总之我觉得我这条路会一直走下去。”

　　五年后的今天，即使在大模型将scaling law推上神坛的当下，他依然坚信，scaling law也许是对的，但不会是全部，他告诉「甲子光年」：“Scaling law本身代表一个非常悲观的未来。”

　　他所押注的是一条看似风险更大的路：“我们最终能理解模型到底是如何被训练出来的。”

　　田渊栋最近的工作表排得非常密集，譬如在4月29日刚刚参与发表了AdvPrompter，可以两秒内生成针对大语言模型的对抗性攻击，这样生成新的数据集并且微调大模型，能够逐渐增强模型的鲁棒性。

　　首先从技术上看，模型数据“从哪来”“怎么训练”是未来限制AI发展的关键问题。

　　第二，从人机交互方式来看，搜索不是最自然的方式。技术的最高境界是变成水和空气，你感觉不到它的存在，你不用知道它的原理，就能获得技术带来的便利。

　　田渊栋：搜索是后天习得的，但对话式交互已经经过了几万年的演化，人类从出生开始就学习说话，这种方式对人类的“吸力”特别强。

　　如果之后出现互动小说、互动视频甚至是可互动的三维世界，就会将生成式AI和交互百分之百结合起来。每个人都生活在一个平行世界，通过对话就能感受不同体验，这时的人机交互就回到了人类最原始的状态，人类一定会陷进去。

　　从计算的角度来说，交互一定要基于生成，否则就需要无限的资源、人力去标数据或创作内容。甲小姐：

　　，数据库和生成式是一段连续光谱的两端——一端是由人类提供所有数据的世界；另一端是所有数据交由AI生成的世界。甲小姐：

　　“生成”与“非生成”的本质不同之处在于要不要人类输入很多数据，输入的内容是不是需要大量重复劳动？是不是能做到教孩子那样，指点一下就能举一反三？

　　生成式AI其实给人的就是这种期许。只要有足够的数据，通过输入prompt，模型会自己生成一个未知场景给人体验，这就减少了工程师的消耗。工程师不可能24小时工作，但AI可以，而且复制一个AI很容易，但复制工程师非常难，生成式AI会让生产力大幅度的提高。现在的问题是，好的小说、剧本非常少，如果AI能够生成高质量的内容，很多问题就迎刃而解了。

　　人类永远只会想自己沿着这条分叉走能拿多少利益，很难会主动开辟全新的分叉，一定会有一个短视的阶段。只有在某个方向撞墙之后，大家才会发现，scaling law是有问题的，才会往回走。

　　Scaling law也许是对的，但不会是全部，因为scaling law本身代表一个非常悲观的未来。Scaling law的本质是，用指数级的数据增长，来获得几个点的收益。

　　最终人类世界可能会出现很多长尾需求，需要人类的快速反应能力去解决，这些场景的数据本身也很少，LLM拿不到。Scaling law发展到最后，可能任何一个人都站在一个“数据孤岛”上，

　　是有关系。为什么我后来不做无人驾驶了？因为我觉得data driven模式有很多问题。我画过一张图，一开始数据量越大，模型performace越好，但模型离人类越近就越难获得新的数据，模型就越来越难以改进，最后总会有些corner case解决不了，这是最大的问题。而且车比LLM更难，因为在车上模型表现一定要达到100分才能上路，99分就等于0分。我当时就觉得很难，搞不清，所以第一个跑了。

　　每开除一个语言学家， NLP模型的性能都会上升。过去很多NLP模型训练规则是人类从数据中总结出，但那些无法用语言或符号清晰定义的问题，机器或许会总结得更好。Scaling law之后一定会有新的技术分叉

　　只有在某个方向撞墙之后，大家才会发现scaling law是有问题的，才会往回走。甲小姐：

　　高速公路的建设有标准流程，但是训练大模型没有标准，很多东西都要调。每一次训练都可能有新的训练方式和策略，

　　但没有特别成功的例子。因为预训练跟微调所需的计算资源差距太大了，预训练要用成千上万块卡，微调只用几块卡，你不能指望靠微调把一个坏模型变好。除非有一天我们对训练过程有更本质的理解，从本质上解决梯度下降效率低下的问题，从而找到新方法。现在模型训练过程仍是一个“黑盒”，我们大家都知道模型在做加减乘除，但并不知道它做加减乘除时，是否在运行某个高层次的算法去寻找数据的内在规律。

　　而且会有很多干扰因素，大脑还应该要考虑低能耗和慢上几十万倍的通信和响应速度（毫秒级对应硅基是纳秒级），抵御外来入侵者的免疫系统，冗余设计，几亿年的“祖传屎山”等等。所以生物学和脑科学真是太难了，需要数十年如一日，几代人前赴后继的努力，我非常敬佩他们。甲小姐：

　　只要能预测未来的具体形态，都是世界模型。Sora是世界模型，它生成的每一帧都是对世界的预测，可以从一开始预测后面，也可以从最后反推前面。甲小姐：

　　要看它的工作效率是否更接近线.谈选择：“还是要做一些独一无二的工作”“像不像人”和“有没有像人一样高的效率”是两回事。

　　你现在的核心研究方向是什么？田渊栋：虽然现在scaling law很火，但一味跟风亦步亦趋，并不是我的风格。

　　LLaMA属于刚成立的GenAI Team，我们属于FAIR，现在有600多人，是一个比较独立的研究组。LLaMA最早是FAIR做的，后来公司就考虑成立一个团队专门迭代LLaMA，因为大模型是很重要的。之后有一些工作像AdvPrompter有比较大的应用价值，应该会和LLaMA这边合作。

　　甲小姐：你会直接向Yann LeCun汇报吗？田渊栋：Yann现在是VP&IC，不管人。他还是主要做技术上的领导，

　　现在LLM的方式还是有问题，它的学习效率没有人那么高。你可以说LLM就是AGI，但AGI就是拿一堆数据堆一个很强的model吗？不一定。

　　AI能用和人类同样的效率，甚至更高的效率学习新知识，完成一些从未见过的工作。但不管如何GPT-4这样水平的AI已经能非常大程度影响这样一个世界了。甲小姐：

　　从效率上看，现在的模型还远远达不到人类水平。人一辈子能看多少东西？但人的生成能力远远强于AI模型，这是AI最大的问题。

　　4.谈信仰：“我相信基于神经网络的AI模型是可解释的”硅谷其实没什么主流、非主流之分，因为每一个人都会有自己的方法，并不是所有人都要学OpenAI，如果都和OpenAI一样，那我就叫OpenAI了。

　　OpenAI已经在scaling law的路径上取得很大进展，但你做的方向仍然前路未卜，这会让你有种无力感吗？田渊栋：

　　田渊栋：我相信基于神经网络的AI模型是可解释的，我们最终能理解模型到底是如何被训练出来的。

　　硅谷其实没什么主流、非主流之分，因为每一个人都会有自己的方法，并不是所有人都要学OpenAI，也许下一次科技革命的驱动就是从这些非主流开始的。另外我们也有很多LLM应用方面的工作有立即可用的价值，所以就算神经网络真的无法解释，人类除了拼命往里面塞数据、堆算力之外没有别的办法，那至少还是有饭吃的。

　　甲小姐：对于想要入局AI的人来说，是不是要想大航海时代一样，先下一个bet，再扬帆起航？田渊栋：

　　如果你不make a bet，你能做的就是follow other people，很难走得更远。有Bet的好处在于，你可以一辈子一直走下去，人生不会觉得无聊。

　　甲小姐：你曾在谷歌无人车团队工作1年多，加入Facebook也有近十年，应该有很多VC怂恿你创业吧。田渊栋：

　　我比较明白自己的长处和短处。我不太擅长从1到100的问题，而比较擅长从0到1。从0到1的事情我会在研究部门做。去年确实也有VC联系我，想要投资做AI生成电影。我当时真的有点动心，因为我自己也写科幻小说，当然希望自己的小说能够“啪”一下变成电影，但还是没走。我觉得要做从1到100的事情，世界上有很多很多人做得比我好得多，代码写得比我快，头脑比我灵活，相比之下，我自己不存在太大优势。

　　我们应该放弃这种执念，认为大脑是人类的控制器，其实不是这样子。人体的每一部分都对我们的行为表现有一票投票权，只是以后AI也会有一票而已。

　　人人都“为五斗米折腰”的结果就是，所有人都有同质化倾向，这对未来发展不利。

　　甲小姐：当任何一个人都拥有个性化的世界，这种经验还有意义吗？比如高考秘籍很珍贵，是因为大家都在高考，而不是自己一个人去高考。田渊栋：

　　这个世界总有一部分人会渴求自己尚未见过的世界，那些都是AI生成不了的，或AI只有少数的数据实现的。

　　甲小姐：移动网络时代我们已感受到剧烈的信息爆炸，但生成式世界中，所有信息都真假难辨，想要了解世界真相的人可能穷其一生，对世界的理解都不到万分之一，由此产生巨大的空虚感。田渊栋：

　　自我意识起源于人类大脑对自己的建模。从进化上来看，这个很有必要。因为人要根据周围的环境，及自身的状态，来决定自己的行为。比如看到一只老虎，是要逃跑，还是要跟它搏斗？体质好，有趁手的武器，再加上周围有帮手，可能就会选择搏斗；但要是孤身一人身上有伤，那肯定得逃。这个就要有对自身的建模，才能有下一步的行动。做得好就活下来了，做不好就被自然界淘汰了。

　　这个“自我”的模型就会慢慢扩展，也慢慢细化。如果一件物品和人本身的联系足够紧密，那么自我模型在计算的时候，也就会自动把它纳入在内，这个在武侠小说里是所谓“人剑合一”了。如果AI和人类完全融合，可能会形成一个整体意识，你分不清某个念头到底是AI产生的还是你自己产生的，也不会有一方控制另一方的问题。

　　所以，我们该放弃“大脑是人类的控制器”的执念，其实不是这样子。人体的每一部分都对我们的行为表现有一票投票权，只是以后接入的AI也会有一票而已。

甲小姐对话田渊栋：Scaling law代表一个非常悲观的未来

详细信息

为您推荐

工业机器人也要“高智商”

山河智能请求一种移动机器人的轨道盯梢操控专利可以使液压驱动的滑移转向轮式移动机器人完成精准的轨道盯梢操控

合肥中科深谷获得乒乓球相关专利可以相对更精准地猜测乒乓球轨道

无人机怎样定位坐标

取消回复发表评论:

行业应用

技术与产品

联系方式

联系方式

米乐m6官网登录入口