复旦年夜学副教学郑骁庆谈DeepSeek:AI行业不仅有“范围法令”,开源将减速模子更新,芯片需要可能不降反增
复旦年夜学副教学郑骁庆谈DeepSeek:AI行业不仅有“范围法令”,开源将减速模子更新,芯片需要可能不降反增
2025年02月02日 23:13
逐日经济消息网
每经记者 宋欣悦 每经编纂 高涵
克日,中国AI始创公司深度求索(DeepSeek)在寰球掀起波涛,硅谷巨子惊恐,华尔街焦急。
短短一个月内,DeepSeek-V3跟DeepSeek-R1两款年夜模子接踵推出,其本钱与动辄数亿乃至上百亿美元的外洋年夜模子名目比拟可谓昂贵,而机能与外洋顶尖模子相称。
作为“AI界的拼多多”,DeepSeek还摇动了英伟达的“算力信奉”,旗下模子DeepSeek-V3仅应用2048块英伟达H800 GPU,在短短两个月内练习实现。除了性价比超高,DeepSeek失掉如斯高的存眷度,另有另一个起因——开源。DeepSeek彻底攻破了以往年夜型言语模子被多数公司把持的局势。
被誉为“深度进修三巨子”之一的杨破昆(Yann LeCun)在交际平台X上表现,这不是中国追逐美国的成绩,而是开源追逐闭源的成绩。OpenAI首席履行官萨姆·奥尔特曼(Sam Altman)则常见地亮相称,OpenAI在开源AI软件方面“始终站在汗青的过错一边”。
DeepSeek存在哪些翻新之处?DeepSeek的开源战略对行业有何影响?算力与硬件的主导位置能否会逐步被减弱?
针对上述疑难,《逐日经济消息》记者(以下简称NBD)专访了复旦年夜学盘算机学院副教学、博士生导师郑骁庆。他以为,DeepSeek在工程优化方面获得了明显结果,特殊是在下降练习跟推理本钱方面。“在业界存在着两个法令,一个是范围法令(Scaling Law),别的一个法令是指,跟着技巧的一直开展,在既有技巧基本上连续改良,可能年夜幅下降本钱。”
对DeepSeek抉择的开源战略,郑骁庆指出,“开源模子可能吸引全天下顶尖人才停止优化,对模子的更新跟迭代有减速感化。”别的,开源模子的通明性有助于打消应用保险的顾忌,增进寰球范畴内子工智能技巧的公正利用。
只管DeepSeek的模子下降了算力需要,但郑骁庆夸大,AI模子仍须要必定的硬件基本来支撑年夜范围练习跟推理。别的,年夜范围数据核心跟预练习还是AI开展的主要构成局部,但将来可能会更重视高品质数据的微协调强化进修。
郑骁庆 图片起源:受访者供图
NBD:微软CEO萨提亚·纳德拉在微软2024年第四序度财报德律风会上提到,DeepSeek“有一些真正的翻新”。在你看来,DeepSeek有哪些翻新点呢?
郑骁庆:在深刻研读DeepSeek的技巧讲演后,咱们发明,DeepSeek在下降模子练习跟推理本钱方面采取的方式,年夜多基于业界已有的技巧摸索。比方,键值缓存(Key-Value cache)治理,对缓存数据停止紧缩。另一个是混杂专家模子(MoE,Mixture of Experts),现实上是指,在推理的时间,只要应用模子的某一个特定的模块,而不须要全部模子的收集构造跟参数都参加这个推理进程。
别的,Deepseek还采取了FP8混杂精度练习的技巧手腕。这些实在之前都有所摸索,而DeepSeek的翻新之处就在于,很好地将这些可能下降技巧跟推理本钱的技巧整合起来。
NBD:你以为DeepSeek现阶段的技巧程度上能否曾经濒临或许到达了寰球当先程度呢?
郑骁庆:DeepSeek现在在现有技巧基本上,包含收集构造练习算法方面,实现了一种阶段性的改良,并非是一种实质上的推翻性翻新,这一点是比拟明白的。其改良重要是针对特定义务,比方,DeepSeek在数学、代码处置以及推理义务等方面,提出了一种在机能与本钱上绝对均衡的处理计划。但是,它在开放范畴(open domain)上的表示,上风并不是非常显明。
在业界存在着两个法令,一个是范围法令(Scaling Law),即模子的参数范围越年夜、练习数据越多,模子就会更好。别的一个法令是指,跟着技巧的一直开展,在既有技巧基本上连续改良,可能年夜幅下降本钱。
比方说,以GPT-3为例,晚期它的本钱就很高。但跟着研讨的深刻,研讨职员逐步明白哪些货色是任务的,哪些货色是不任务的。研讨职员基于过往的胜利教训,研讨目的会逐步清楚,本钱现实上也会随之下降。
DeepSeek的胜利,我更感到可能是工程优化上的胜利。固然也十分愉快看到中国的科技企业在年夜模子的时期,在机能与本钱的均衡方面获得了明显停顿,一直推进年夜模子的应用跟练习本钱降落。合乎方才我提到的第二个法令的情形之下,走到天下前线。
NBD:DeepSeek旗下模子的最年夜亮点之一是在练习跟推理进程中明显下降了算力需要。你以为这种低本钱年夜效力的技巧翻新,临时来看,会对英伟达等芯片公司发生什么影响呢?
郑骁庆:我团体以为,它并不会对芯片洽购量或出货量发生太年夜的影响。
起首,像DeepSeek或许相似的公司,在寻觅无效的整合处理计划时,须要停止大批的后期研讨与融化试验。所谓的融化试验,即指经由过程一系列测试来断定哪个计划是无效的以及哪些计划的整合是无效的。而这些测试就十分依附于芯片,由于芯片越多,迭代次数就越多,就越轻易晓得哪个货色任务或许哪个货色不任务。
比方说,DeepSeek的练习估算不到600万美元。它的技巧讲演中提到,不到600万美元的资金,是依照GPU的小时数(每小时两美元)来预算的。也就是说,他们基于之前的良多研讨,把整条练习流程都曾经搞明白的情形之下(哪些是任务,哪些不任务的),从新走一遍。它的GPU的运算速率是几多,运算小时数是几多,而后再乘以每小时两美元失掉的这个成果。讲演中也提到了,600万美元实在不包括先期研讨本钱,比方,在构造上的摸索、在算法上的摸索、在数据上采网络上的摸索的本钱,也不涵盖融化试验的开支以及装备的折旧费。以是,我团体断定,对英伟达实在影响不是那么年夜。
别的,DeepSeek的研讨标明,良多中小企业都能用得起如许的年夜模子。只管练习本钱的降落可能会临时增加对GPU的需要,但年夜模子变得愈加经济,会使底本由于模子本钱太高而不盘算应用年夜模子的企业,参加到应用模子的行列,反而会增添对芯片的需要。
NBD:跟着DeepSeek-V3、R1等低本钱年夜模子的问世,传统的年夜范围数据核心跟高投入的年夜模子练习能否依然值得持续推动呢?
郑骁庆:我感到依然值得。由于起首DeepSeek模子是言语模子,还不扩大到多模态,乃至于咱们当前要研讨天下模子。那么一旦引入多模态之后,对算力的请求跟基本设备请求就会成指数的增加。由于人工智能弗成能仅仅范围于言语体自身,言语只是聪明的一种表示,而在这方面的摸索依然须要如许的一个基本设备。
方才也提到DeepSeek实在是在良多先期研讨的基本之上,找到了一条机能跟本钱均衡的一个处理计划。先期研讨包含种种百般的实验,怎么去减速它呢?这个仍是须要强盛的硬件支撑。不然,每迭代一次,就可能须要长达一年多的时光,这显然是无奈遇上当初AI武备比赛的。而假如有多少万张卡,迭代可能多少天就实现了。
别的就是利用方面。即使是模子的推理本钱再低,当须要支撑数千、数万乃至更年夜范围的并发应用时,依然须要一个装备大批显卡的强盛基本架构来确保稳固运转。
我感到年夜范围预练习这一波潮水可能会弱化,可能不会成为下一步各人争取的主疆场。之前这个范畴曾是竞争剧烈的疆场,但当初看来,本钱跟产出之间的比例正逐步趋于压缩。然而前面两步——高品质数据的微协调基于强化进修的人类偏好对齐,我信任将来会有更多的投入。
NBD:DeepSeek采取开源形式,与很多外洋年夜模子巨子闭源的做法差别。你怎样看开源模子在推进AI行业开展中的感化?
郑骁庆:DeepSeek现在遭到了普遍地存眷跟承认。从开源模子与闭源模子的角度来看,咱们察看到,开源模子在积聚了以往研讨结果的基本上,在目的明白的情形之下,借助于种种练习技能以及模子构造上的优化,特殊是接收先前研讨者在年夜模子范畴已验证无效的道理跟方式,开源模子已可能大抵追上闭源模子。
开源模子最年夜的利益就在于,一旦模子开源,寰球的顶尖人才都能基于这些代码停止进一步的迭代与优化,这无疑减速了这个模子的更新与开展过程。比拟之下,闭源模子确定是不如许的才能的,只能靠领有这个闭源模子所属机构的外部人才去推进模子的迭代,迭代速率绝对受限。
别的,开源模子通明开放,也缓解了大众对年夜模子应用保险的一些顾忌。假如模子闭源,各人在应用进程傍边可能或多或少会有一些顾忌。并且开源模子对人工智能的遍及以及寰球范畴内的公正利用起到了十分好的增进感化,特殊是技巧平权方面。也就是说,当一项迷信技巧开展起来当前,全天下的人,不论来自哪个国度、身处何地,都利用享有同等地享用这种技巧所带来的上风及其发生的经济效益。
NBD:DeepSeek团队成员多为海内顶尖高校的应届结业生、在校博士生。你以为中国AI能否存在奇特的竞争上风?
郑骁庆:我感到咱们的AI下面的竞争上风,实在是咱们的人才数目上的上风。这多少年,从我团体来看,咱们的高级教导,包含硕士、博士的培育,有了长足提高。当初从中国的头部高校来看,对博士生、硕士生的培育曾经比拟濒临于美国。
在如许的情形之下,咱们的基本高级教导品质的晋升,使得咱们贮备了大批的人才。在如许的进程傍边,咱们可能对现有的技巧停止敏捷的消化。
现实上,美国很多年夜模子研讨团队,不乏有华人的身影。各人开顽笑说,当初的人工智能竞争是在中国的中国人跟在美国的中国人竞争。要说优势,实在我感到仍是很遗憾的,那就是咱们很少能有推翻性的翻新。
新浪财经大众号
24小时转动播报最新的财经资讯跟视频,更多粉丝福利扫描二维码存眷(sinafinance)