Scaling Law递减,堆砌数据、算力拼AI模型已行不通?大厂正在找出路

  分析指出,相比传统的堆砌计算能力和数据的训练方法,被称为“测试时计算”(Test-time Compute)的新方法更有助于提高AI模型的预测能力,这种方法能够让AI模型在回答问题前,有更多时间和计算资源进行“思考”。专家指出,如果测试时计算成为扩展AI系统的下一步,对专注于高速推理的AI芯片的需求可能会大幅增加。

  作者:赵雨荷

Scaling Law递减,堆砌数据、算力拼AI模型已行不通?大厂正在找出路

  来源:硬AI

  迈向超级智能系统的AI实验室正意识到,可能需要改换道路。分析指出,相比传统的堆砌计算能力和数据的训练方法,被称为“测试时计算”(Test-time Compute)的新方法更有助于提高AI模型的预测能力。

  据TechCrunch报道,多位AI投资者、创始人和CEO透露,近年来AI实验室用于提升模型能力的“AI扩展定律”(AI scaling laws)正显示出边际收益递减的迹象。他们的观点与近期的报告一致,这些报告表明顶尖AI实验室中的模型提升速度已不如以往。

  现在,几乎所有人都开始承认,仅通过增加计算能力和数据量来预训练大型语言模型,并指望其变成某种全知全能模型的道路,是行不通的。这也许听起来显而易见,但扩展定律曾是开发ChatGPT、提升其性能的关键因素,也可能影响了许多CEO大胆预测通用人工智能(AGI)将在几年内到来的信心。

  OpenAI和Safe Super Intelligence的联合创始人Ilya Sutskever上周对媒体表示,“所有人都在寻找扩展AI模型的新方式”。本月早些时候,Andreessen Horowitz联合创始人Marc Andreessen在一档播客中提到,当前AI模型似乎都趋向于能力的上限。

  不过,有AI领域的CEO、研究人员和投资者已经开始宣称,行业正进入扩展定律的新纪元:“测试时计算”(Test-time Compute)被认为是一项特别有前景的新方法,能够让AI模型在回答问题前,有更多时间和计算资源进行“思考”。

  “我们正看到一种新扩展定律的出现,”微软CEO纳德拉(Satya Nadella)周二在微软Ignite大会上说,他指的是支持OpenAI o1模型的测试时计算研究。

  此外,Andreessen Horowitz合伙人、Mistral的董事会成员、曾是Anthropic天使投资人的Anjney Midha在接受媒体采访时表示,“我们现在正处于扩展定律的第二纪元,也就是测试时扩展。”

  AI扩展定律失效?

  自2020年以来,OpenAI、谷歌、Meta和Anthropic等公司取得的AI模型快速进步,主要归功于一个关键判断:在AI模型的预训练阶段使用更多的计算资源和数据。

  在这一阶段,AI通过分析大量数据集中的模式来识别和存储信息。当研究人员为机器学习系统提供充足的资源时,模型通常在预测下一个词或短语方面表现更好。

  第一代AI扩展定律让工程师通过增加GPU的数量和数据量来提升模型性能。尽管这种方法可能已经达到瓶颈,但它已经改变了整个行业的版图。几乎每家大型科技公司都押注AI,而为这些公司提供GPU的英伟达如今已成为全球市值最高的上市公司。

  然而,这些投资是基于扩展能够持续发展的预期而做出的。毕竟,扩展定律并不是自然、物理、数学或政府制定的法律,它并未被任何人或事物保证会以相同的速度继续下去。即便是著名的摩尔定律,也在运行了较长时间后逐渐失效。

  Anyscale联合创始人、前CEO Robert Nishihara在对媒体表示,

“如果你只投入更多的计算资源和数据,模型越做越大,回报会逐渐递减,要维持扩展定律的运行并保持进步的速度,我们需要新思路。”

“当你已经阅读了100万条Yelp评论,再读更多评论可能不会带来太大增益,但那是预训练。关于后训练的方法还相对不成熟,还有很大的改进空间。”

  尽管如此,AI模型开发者可能仍会继续追求更大的计算集群和更大的数据集进行预训练,而这些方法可能仍有一定的提升空间。例如,马斯克最近完成了一台拥有10万GPU的超级计算机Colossus,用于训练xAI的下一代模型。

  但趋势表明,仅通过现有策略使用更多GPU无法实现指数级增长,因此新的方法开始获得更多关注。

  测试时计算:AI行业的下一大赌注

  当OpenAI发布其o1模型的预览版时,就宣布这属于独立于GPT的新系列模型。

  OpenAI主要通过传统的扩展定律(即在预训练阶段使用更多数据和更多计算能力)改进了其GPT模型。但据称,这种方法现在的增益已不再显著。o1模型框架依赖于一个新概念——测试时计算(test-time compute),之所以这样命名,是因为计算资源是在接收到提示后(而不是之前)才使用的。分析认为,这种技术在神经网络背景下的探索还不多,但已经表现出潜力。

  一些人已经将测试时计算视为扩展AI系统的下一种方法。

  Andreessen Horowitz的Midha表示,

许多实验表明,即使“预训练”的扩展定律可能正在放缓,“测试时”扩展定律——即在推理过程中为模型提供更多计算资源——仍然可以显著提升性能。

  著名AI研究员Yoshua Bengio则表示,

“OpenAI的新‘o系列’进一步推动了[连贯思维],需要更多计算资源,也因此需要更多能源,我们因此看到了一种新的计算扩展形式:不仅仅是更多的训练数据和更大的模型,还包括花费更多时间‘思考’答案。”

  例如,在10到30秒的时间里,OpenAI的o1模型会多次重新提示自己,将一个复杂的问题分解为一系列更小的问题。现负责OpenAI o1工作的Noam Brown尝试开发可以击败人类的扑克AI系统,在最近的一次演讲中,Brown表示,他注意到人类扑克玩家在出牌前会花时间考虑不同的情景。2017年,他引入了一种方法,让模型在出牌前“思考”30秒。在此期间,AI会模拟不同的子游戏,推演不同场景可能的结果以确定最佳行动。最终,这种AI的预测表现比他以前的方法提升了7倍。

  需要注意的是,Brown在2017年的研究并未使用神经网络,因为当时它们尚未普及。然而,上周麻省理工学院的研究人员发表了一篇论文,表明测试时计算显著提高了AI模型在推理任务上的表现。

  目前尚不清楚测试时计算如何大规模推广。这可能意味着AI系统在解决难题时需要非常长的“思考”时间,可能是数小时甚至数天。另一种方法可能是让AI模型同时在许多芯片上“思考”问题。

  Midha表示,如果测试时计算成为扩展AI系统的下一步,对专注于高速推理的AI芯片的需求可能会大幅增加,这对Groq或Cerebras等专注于快速AI推理芯片的初创公司来说是好消息。如果找到答案与训练模型同样需要大量计算资源,那么AI领域的“挖掘工具”提供商将再次受益。

  无论AI研究的前沿情况如何,用户可能在一段时间内感受不到这些变化的影响。不过,AI开放商将不遗余力地继续快速推出更大、更智能、更快的模型,这意味着多家领先的科技公司可能会调整其推动AI边界的方法。

  本文来自微信公众号“硬AI”,关注更多AI前沿资讯请移步这里

  市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

标签:

相关推荐

  • 中国科技产业集团附属拟收购一系列太阳能板发电系统及设备

    中国科技产业集团附属拟收购一系列太阳能板发电系统及设备

      中国科技产业集团(08111)发布公告,于2024年11月21日(交易时段后),买方中国科技产业投资有限公司(公司全资附属公司):与卖方百年工程有限公司订立买卖协议,据此,卖方已同意出售,而买方已同意收购待售资产(即太阳能板发电系统及设备),以便买方参与中华电力的上网电价计划。收购事项的代价为470万港元;及  与卖方订立特许协议,据此,卖方同意特...

    2024/11/22
  • 振兴银行存量存款利率下调 第三方能否单方面终止“加息”

    振兴银行存量存款利率下调 第三方能否单方面终止“加息”

      [部分存量产品下调综合利率实际上是第三方机构此前的“加息”终止所致。根据储户提供的资料,去年,振兴银行引入北京尼客科技推出一款“伙伴助力计划”,针对振惠存3年期、5年期产品提供0.8%~1%不等的奖励利率,将综合存款利率分别拉升至4.5%、4.8%。]  新一轮银行存款降息之后,有银行存量存款利率也出现下调?近期,多名储户向第一财经反映,辽宁振兴银...

    2024/11/22
  • 11月22日操盘必读:影响股市利好或利空消息

    11月22日操盘必读:影响股市利好或利空消息

    影响股市利好与利空消息  宏观新闻  1、国务院国资委党委举办理论学习中心组集体学习会暨厅局级干部研修班。大家一致认为,要完善国有经济布局优化和结构调整机制,推动中央企业加快构建现代化产业体系。目前最紧迫的是要向前瞻性战略性新兴产业集中。此外,大家认为,要推动中央企业穿越经济周期,支持企业开启增长的“第二曲线”。  2、商务部印发促进外贸稳定增长若干...

    2024/11/22
  • 朸浚国际拟增加法定股本及“1供1”基准供股

    朸浚国际拟增加法定股本及“1供1”基准供股

      朸浚国际(01355)发布公告,董事会建议透过增设额外12.2亿股每股面值0.01港元的未发行股份,将公司法定股本由780万港元(分为7.8亿股每股面值0.01港元的股份)增加至2000万港元(分为20亿股每股面值0.01港元的股份)。增加法定股本须待股东于股东特别大会上通过普通决议案批准后,方可作实。  待增加法定股本生效及获独立股东于股东特别大...

    2024/11/22
  • 芝加哥联储主席:货币政策处于“关键时刻” 未来降息速度或有所放缓

    芝加哥联储主席:货币政策处于“关键时刻” 未来降息速度或有所放缓

      智通财经APP获悉,芝加哥联储主席古尔斯比(AustanGoolsbee)11月16日表示,美国经济正处于过渡期,当前是货币政策的“关键时刻”。随着2023年接近尾声,新冠疫情及其后续经济反弹带来的扭曲正在逐渐消退。  古尔斯比在印第安纳波利斯参加中央印第安纳州企业合作伙伴关系活动时发表讲话。他指出,美国经济的当前阶段可能需要进一步的降息,但速度可能...

    2024/11/22
  • 日本森大厦入股摩天大楼One Vanderbilt 纽约中城新地标估值47亿美元

    日本森大厦入股摩天大楼One Vanderbilt 纽约中城新地标估值47亿美元

      SLGreenRealtyCorp.将OneVanderbilt的部分股权转让给了日本森大厦株式会社,而该交易对这栋靠近曼哈顿大中央车站的摩天大楼估值达到47亿美元。  周四的声明显示,森大厦买下了该物业11%的权益。SLGreen现在拥有大楼60%的股权。  这座高427米的大楼在2020年的时候投入使用。作为中城最新的写字楼之一,它吸...

    2024/11/22
  • 收盘:美股收高道指上涨460点 周期股与小盘股普涨

    收盘:美股收高道指上涨460点 周期股与小盘股普涨

      北京时间22日凌晨,美股周四收高,道指上涨460点。投资者从英伟达等科技股转向与可能从经济加速增长中受益的周期股与小盘股。市场继续关注俄乌局势的发展与美联储官员讲话。美联储古尔斯比称劳动力市场已经稳定,或需要放慢降息步伐。  道指涨461.88点,涨幅为1.06%,报43870.35点;纳指涨6.28点,涨幅为0.03%,报18972.42点;标普...

    2024/11/22
  • 智富资源投资公布中汇获委任为新核数师 继续停牌

    智富资源投资公布中汇获委任为新核数师 继续停牌

      智富资源投资(00007)发布公告,公司已于2024年11月21日与中汇订立业务约定书,据此,中汇已获委任为公司新核数师,自2024年11月21日起生效,以填补郑郑辞任后的临时空缺,并留任至公司下届股东周年大会结束为止。  此外,继续停牌。...

    2024/11/22
  • 澳门旅游团,探索最精准免费资料大全的奇妙之旅华为鸿蒙系统next版5.6.7.38

    澳门旅游团,探索最精准免费资料大全的奇妙之旅华为鸿蒙系统next版5.6.7.38

    本文目录导读:旅游团的魅力旅游团的行程安排最精准的免费资料大全专业的导游团队旅游团的收获探索澳门旅游团——领略最精准免费资料大全的魅力之旅澳门,这座充满魅力的城市,以其独特的文化、美食和风景吸引着无数游客,而其中,澳门旅游团更是为游客们提供了一个全新的视角,去探索这座城市的每一个角落,我们就来谈谈关于“澳门最精准免费资料大全旅游团”的奇妙之旅。旅游团的魅力澳...

    2024/11/22
  • 供应链成本下降 罗斯百货上调全年盈利预期

    供应链成本下降 罗斯百货上调全年盈利预期

    因减少运费和供应链费用,罗斯百货(ROST.US)上调了年度利润预期。财报显示,罗斯百货第三季度营收为 50.7亿美元,同比增长3.0%,不及市场预期;净利润为4.89亿美元,同比增长9.4%;摊薄后每股收益为1.48美元,高于市场预期的1.40美元。罗斯百货第三季度的销售额为51亿美元,高于上年同期的49亿美元,同店销售额同比增长了1%,不...

    2024/11/22
返回顶部
微信号复制成功
微信号: 123456
点击下方按钮