AGI时代大模型技术路线的终局是什么

AGI时代模型技术路线的终局是什么
原创甲子引力甲子光年
大模型生态需要百花齐放。
4月25日,由中国科技产业智库「甲子光年」主办、上海市信息服务业行业协会支持的「共赴山海·2023甲子引力X智能新世代」峰会在上海召开。现场30余位嘉宾与数百位科技从业者共同全方位聚焦新一代人工智能,为科技与产业的结合寻新机会。
在当天下午的《行稳致远:大模型、大算力与可持续发展,新智能时代的基础设施》主题圆桌中,达观数据董事长兼CEO陈运文、亚马逊云科技初创生态架构师团队技术负责人孔雷、上海交通大学计算机科学与工程系教授&开源GPGPU平台“青花瓷”发起人梁晓峣、PPIO联合创始人姚欣、华映资本管理合伙人章高男、亿铸科技高级副总裁徐芳6位嘉宾共同探讨了大模型实现路径的多种可能性。
以下是本场圆桌的交流实录,「甲子光年」整理删改:
1.大模型是否真的“越大越好”?
徐芳(主持人):这次圆桌的主题是《行稳致远:大模型、大算力与可持续发展:新智能时代的基础设施》。2023年,人工智能领域有一个现象是所有人都无法忽视的,OpenAI带来的ChatGPT,以及随之而来的通用智能的冲击。我们看一下国内,大模型如雨后春笋般出现,互联网大厂纷纷推出了自己的大模型平台。但是我们都知道,做大模型背后有巨量的成本投入,包括训练模型、数据中心的租赁等。但是为什么成本这么高,各厂商还是会出现大模型的规模之争?
陈运文:大型模型在自然语言处理领域中是一项非常有价值的新技术,能够解决以往传统技术难以解决的问题。由于大型模型具有更大的存储容量,能够包含更多的知识,因此在许多应用场景特别是面向普通用户的C端应用场景下,大型模型能够应对来自各个方向的用户需求,因此模型参数越大,它可以解决的问题就越广泛。这也是为什么当今互联网巨头选择超大规模的参数模型来承载各行各业的应用的原因。随着大型模型和C端应用场景的不断结合,特别是引擎和商业应用的结合,C端大型模型的参数规模一定会越来越大,其中包含的知识也会越来越丰富,它能够解决的问题也会越来越深入,这是未来的发展方向。
农夫山泉京华时报孔雷:刚才也听到很多嘉宾在讲AI暴力美学,模型足够大,足够强,参数足够多,确实能带来很强的效应,但只是表面现象。参照历史,5年前或者10年前有大数据时代,现在大模型时代,大家都在谈规模,但是我认为模型之争更多是一个营销口径。在整个模型的学习曲线里面,模型大和小,参数多和少只是其中一个方面,还有很多包括算法优化、工程化,对接应用等维度。这是一个需要多维应对的态势,我并不认为模型越大,效果越好。反而现在我们国内的初创公司呈现出了百花齐放的态势。
九年级化学教学案例对于现在的玩家我们分三个维度看,第一类玩家要做特别大的模型,比如OpenAI的GPT系列为领导的100B以上的模型。这个真的是超大规模。它的模式是要去构建一个足够高的壁垒,让别人都望尘莫及,他们在资金和人力上的投入是别人很难在短时间赶上的。第二类和第三类玩家更多在契合大家的应用场景,20B~65B是一类,10B以下是一类,这反而是更多国内初创公司的契机,也是值得各位计算机领域的专家挖掘、精细研究的地方。
姚欣:我也同意类似的观点,没必要一味追求大规模,号称万亿级的模型并不见得效果好,人脑都做不到这么大的参数量。恰恰相反,我们要追求更小的数据量。AI发展过程中,大家的追求是用更小的数据量训练。上一个时代的AI其实是要大数据,小模型;今天
联想100分学校这个时代,模型大了之后我们反而可以让数据相对较小,我们可以得出一个更有效的基础。所以今天真正要让模型走到应用侧,我们往往要把模型蒸馏、裁减再使用,并不使用大的模型,可能的确是平台层需要追求模型通用性所以主打大模型方向,但是对于大多数企业来讲暂时用不到。
章高男:对于大模型通常的定义是100亿以上的训练数据规模才能叫大模型,另外一般也默认是以深度学习为主要框架的模型。我们通常所说的大模型有这两个前提。我个人很欢迎大企业参与大模型,因为这代表着技术发展潮流和趋势。但大模型解决问题的效果首先取决于训练数据的优质性,因为所谓通用大模型进入很多细分行业领域里数据是很稀疏的。所以通用大模型在细分领域中效果未必是最好的,也有很多垂直行业的细分大模型的机会。
AI发展变化太快了,实话讲我是跟不上学习的,只是了解皮毛但是又不得不学,毕竟这是未来很重要的技术趋势之一、有一个观察是,这波大模型会让深度学习取代很多过去的逻辑推理或者数学方法,这在工业中会有很多机会。譬如以前做CAE仿真,通常都是建立高维方程求解,但越来越多仿真软件开始尝试深度学习方法,这是一个很大的机会。
2.大模型时代需要什么样的算力结构?
徐芳:非常感谢各位大咖的精彩分享。发展大模型离不开基础设施的建设,请各位分享一下大模型时代需要什么样的算力结构?请梁晓峣教授先开始。
医蛭梁晓峣:谢谢主持人。我本身专业是做GPGPU芯片的,从算力角度来讲,现在这个GPGPU肯定是我们大模型算力的基础底座,不光这波大模型热潮是这样。大概6-7年前开始的上一波深度学习的算力基座就已经变成GPU了。一直以来,以英特尔为代表的CPU是芯片“皇冠上的明珠”,但7-8年前皇冠已经易主了,现在GPU成为皇冠上的明珠。从英伟达的市值也可以发现,最近几年市值已经比英特尔超了不止1倍,最高的时候可能达到英特尔市值的4倍。从真正应用落地来讲,A100一卡难求,到处都买不到,我们所有大模型都部署在GPU上的。从这点来看,未来没有这样一个坚强的算力基座,大模型的道路就会非常艰难。因为按照摩尔定律,按照英伟达的路线表,每隔一年半芯片的算力必然是翻倍,有时候还不止翻倍,可能翻3-4倍,现在这个A100的算力基本上也就是刚刚可以支持大模型的能力,再过两代,算力翻到5-6倍以后,可以看一下大模型的规模可以到什么样的量级。现在我们在大算力芯片方面存在短板,目前我们没有看到真正能取代英伟达GPU的产品,再过3-5年别人也在不断进步,翻5-6倍以后我们的差距可能更大,这个值得大家注意。
姚欣:其实梁教授对比英伟达GPU来解读算力只是揭示了算力的一角,因为大家买GPU最多还是用来做训练。的确A100一卡难求,有一天我们应用走向普及的时候,我们更大的挑战在推理侧。我之前也看OpenAI讲到,未来95%的算力消耗在推理侧,训练侧只占到5%。好消息是我们推理侧的芯片选择会更多,不会只有英伟达GPU一款,包括国产GPU、TPU等都在发展。随着应用的普及,算力可能是千万倍增长,同时也会带来整体成本下降。OpenAI单次连续对话的成本比谷歌更高,有研究显示,如果要用OpenAI颠覆谷歌或者谷歌切换到这个模式,成本可能会近百倍地上升,因为在使用时算力消耗会在短时间内爆炸式增长。最近我们用ChatGPT的时候频频限流,有钱的地主家都烧不起了,当各家大模型上线后真正面临的挑战在这里。未来整个算力大爆发会带来整个云边端、芯片底层到云算力平台的爆发,比大模型厂商之争,算力之争更是繁荣的场景,更是值得大家进入的场景。
孔雷:我非常认同。算力在大模型时代是一个很重要的基座,但并不是全部。我们有两个见解可以分享给大家:康定师专
首先,像亚马逊之类的很多云巨头厂商都在建自己的基座模型,这个思路是怎么来的?我
们看过去整个IT基础架构的发展,上个时代是大数据时代,大数据时代其实最早也是各家初创公司百花齐放搞出来的,但是后来发现它的算力、规模、数据之争最后都会碰到资源的瓶颈,这个时候谁来解决?无论是大数据还是大模型,它们多是跟云天然绑定的,GPU、CPU,包括现在很多提到的NPU也是其中一部分,还要看周边所有的生态玩家配套设施、网络、存储,是一个工程化的系统工程,云厂商有非常大的先见之明、资源优势和规模效应。长远看,接下来3-5年,(大模型会成为)各个云厂商兵家必争之地。
第二,从芯片的角度,其实现在AI芯片在国内外百花齐放,有更多芯片公司涌现,做更加细化的AI芯片,他们在各个领域做优化工作,无论是降低能耗还是优化算法等领域都有公司存在。这不是为了打破寡头垄断,而是为了解决所有模型领域的细分场景痛点。
把这两点结合起来,就是大家都在谈的“模型即服务”(MaaS),MaaS的底层肯定是云巨头提供的。这是我的一些见解。
徐芳:的确,国内的芯片除了GPGPU,存算一体之外,更新的架构也在持续出现,这些最终都是服务,比如达观数据向垂直领域提供整体解决方案,请陈运文总分享一下他的观点。新目标英语七年级上
陈运文:我们自己的模型训练使用中型的算力平台,目前我们用的是英伟达的全套方案,用的是DGX方案,多G多卡的高性能通信,能充分唤起GPU的算力,还是非常优秀的。但更大规模卡的训练是租赁的方式,因为我们全部自建超大规模的多G多卡集是不合算的,所以选择租赁相应云服务。
徐芳:非常感谢陈总的分享。大家知道,任何产业的底层发展要素中,资本是不可缺少的一部分,我们请章高男总从资本角度分享下大模型时代需要什么样的算力结构?
章高男:行动上讲,每个基金都有自己的团队能力组成,有自己投资的方向,整体上我们还是非常拥抱整个AI带来的变化。推理和训练端的算力我们都投过,边缘计算我们也投了智能化RTOS。训练推理我们也投了GPU,这波对GPU还是有非常好的促进作用,算力不光是GPU,还有FPGA、Asic还有各种异构架构的新尝试,特别是一些细分特殊场景上有很多高效的算法调优机会。我个人觉得算力这块有百花齐放的态势,做得好都能到自己的定位和机会。

本文发布于:2024-09-22 05:33:44,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/490510.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模型   算力   时代   应用   发展   训练
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议