专家解读ChatGPT
从任务角度来说, ChatGPT 以问答类为主,对话领域的模型非常复杂, ChatGPT 技术方案最大的优点就是单一模型,特点就是参数比较大,达1750亿的参数,代价就是需要巨大的算力。当今时代和过去不同的就在于以前是系统复杂导致人力消耗巨大,现在则是算力要求。以前重人力的时代下产品的"天花板"不高, ChatGPT 实现的效果在以前是无法达到的。
ChatGPT 技术最初的源头是 Transformer 结构,这个结构最大的意义是可以承载更大的算力和数据,去训练一个更复杂的模型。GPT3所采用的 GPT 路线,又叫单向注意力模型,只要算力足够就可以训练出参数巨大的模型,尺寸上不封顶,最高点尚未可知。
GPT3是20年提出的模型,达到1750亿参数,这已经是
OpenAl 的产品演化了两年后的产品。2020年和2021年很多公司在做千亿甚至万亿参数的模型,但都达不到GPT3的效果,很多公司并没有持续深耕该领域,而 OpenAl 在经过两年后又提出了Gpt3.5。所以来看2023年即将发生的事情,接下来可能会有一些公司和团队对外宣称做出了类似
ChatGPT 的模型,参数甚至超过 ChatGPT ,但不会有想进一步把模型转化为产品的想法。如果存在一些公司能够做出
模型并且不断改进、持续升级的话,那么这些公司是值得关注的。
Chatgpt 应用落地的一个很大的问题在于在任意场景落地都需要对产品进行定制化。还有一点, ChatGPT 虽然"见多识广",但是比某一项能力,未必能超越垂直类的产品,比如针对医疗数据训练出一个模型,用它来做问答,在医疗领域一定是比 ChatGPT 要好的。
解决这些问题的方案主要在于解决具体场景定制化的需求。一方面是知识的定制化,要让 ChatGPT 学会、精通某一领域的知识;另一方面就是技能的定制化,要对 ChatGPT
特有的技能如:推理、写作等进行专门强化。但是定制化的问题在于成本非常高, ChatGPT 的参数量很大,训练成本就会很高。类似 ChatGPT 这类模型的商业落地,应该先从中等尺寸的模型开始做起,这些中等尺寸的模型可能就几十亿到几百亿的参数,落地成本没有那么高。中等尺寸的模型可能功能没有 ChatGPT 强大,但是在专业领域,往往也不需要全方面的能力。
国内的发展格局分为两大类,一类是专门型的研究机构和团队,另一类就是大型公司。从公司角度来看,国内有头部大厂等都在探索这个行业,他们都有超过千亿的大模型,但是他们没有将这些模型当做产品去做。虽然这些大厂商有丰富的资源,但是在现在的大环境下,整体都处于收紧的状
态,资源基本都倾斜主营业务,不会在探索性的领域投入过多。从研发机构角度来看,北京某家公司开展时间较早,在GPT3出现后,其做过千亿参数的模型。某研究院也做了一系列的几亿到几十亿的开源模型,已经形成的封神榜预训练大模型体系在中文 NLP 起到支撑性的作用。评估一个团队,要注意是否有在大算力上去做大模型的经验,大多数团队都只是具备在小规模算力上做小模型的经验。
展望 NLP 和 AIGC 的未来发展, NLP 是经历范式革命非常严重的一个领域,从以前需要关键词到现在
Transformer 结构的出现,技术在不断地改变,有一个猜想就是 NLP 领域未来可能会消失,像 ChatGPT 这样的模型出现,我们有特定需求的时候只需要去调整 ChatGPT 去实现即可,未来 NLP 算法工程师是否还有存在的必要是一个值得思考的问题。
本文发布于:2024-09-24 04:27:23,感谢您对本站的认可!
本文链接:https://www.17tex.com/fanyi/11060.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |