首页 > 专利技术

生成式人工智能：ChatGPT与搜索

随着OpenAI的ChatGPT被集成到搜索引擎和更广泛的网络中，我们来研究一下什么是生成式人工智能，以及像ChatGPT这样的模型如何改变我们网络搜索、信息使用和交流互动的方式。生成式人工智能有可能改变搜索的商业模式，以及我们获取网络内容的方式。

生成式人工智能的定义

气动加油泵

生成式人工智能旨在理解和预测来自特定数据集的信息。重要的是要明白，生成式人工智能并不是全新的技术。某些应用程序中早已应用这种技术了，如智能撰写程序可以完成用户起好头的句子。从很多方面看，这是一种现成的工具，只是最近应用开始大幅增多。

生成式人工智能处于转折点

深度学习和预测人工智能也已经面市了很长一段时间了，但是其模型的规模和复杂性最近有了惊人的增长。目前的大型语言模型（Large Language Models，LLMs）处理能力高达几百千兆字节，可以分析大量数据集，但是这种分析或“训练”需要大量算力支持。模型规模的扩大要通过提高计算技术来实现，包括中央处理器（CPU）和云计算（客户可以使用云上的几千个图形处理器（GPU））；模型规模的扩大还需要海量可用数据。模型开发机构推出公共应用程序时使其更加“人性化”，更容易使用。

为什么转换模型（Transformer）是大型语言模型（LLM）的转折点？

手势控制

转换模型是一种深度学习模型，使用“自注意力机制”（self-attention mechanism）来衡量给定输入数据中每个部分的重要性。大型语言模型（LLM）中用转换模型启动自然语言处理（Natural Language Processing，NLP）开发链。自然语言处理是人工智能的一个分支，用于帮助计算机理解人类自然语言。应用于自然语言处理时，转换模型能更有效地训练人工智能 GPU，与其它模型相比，训练成本显著降低。2022年，英伟达（NVIDIA）首席执行官（CEO）黄仁生（Jensen Huang）说：“转换模型使自我监督学习成为可能，人工智能开始飞速前进。[1]”关于大型语言模型和转换模型的更多细节，请参阅本报告的详细解释。

OpenAI和ChatGPT

OpenAI是2015年成立的一个科研实验室——开发了三个生成式人工智能模型——ChatGPT、Codex和DALL-E。经过训练后，这些模型可以理解人类语言的结构，创作文本、代码和图像内容，还能根据训练数据集生成新型数据/观点。由于计算技术、数据可得性、测试和进一步优化模型的公共能力有了进步，这些模型的发布标志着生成式人工智能的一个转折点。2022年11推出的第三代ChatGPT（生成式预训练转换模型或GPT－3）是一个能够解决/回答问题的类人人工智能平台。ChatGPT搜索的不同之处是对查询能提供对话式响应，而不是仅仅给出推荐网站的链接。自推出之后，ChatGPT已成为历史上用户增长最快的消费者应用程序，截至2023年1月累计已有1亿月均用户（Monthly Average Users，MAU）。相比之下，之前增长最快的应用程序是中国的字节跳动（月均用户9个月达到1亿）

和Instagram（月均用户2.5年达到1亿）[2]。

今年2月发布的ChatGPT采用GPT-3.5技术，使用的参数多达1750亿个，是GPT-2参数的100倍还多（GPT-2只使用了约15亿个参数）。参数增多，需要的算力也大幅上升，但新模型能够执行以前没有训练过的任务。虽然有时难免会出现不完整的答案，不一致的反馈，或有偏见的行为，但ChatGPT仍然是一个有发展前景且对用户友好的大型语言模型应用程序。展望未来，预计ChatGPT-4 将使用100万亿个参数，这表明大型语言模型技术的进步速度可能达到指数级。

生成式人工智能的市场机遇

人工智能已嵌入到技术堆栈的每一层。生成式人工智能是一种人工智能，经过训练后不仅能识别模式和做出预测，还能根据训练数据集生成新内容和新观点。为了评估此类人工智能的市场机遇，花旗研究（Citi Research）比较了类似的对话式人工智能市场，但也指出这些对话式人工智能并非同类产品。对话式人工智能是一种模仿人类交流的技术，不一定要通过大型语言模型（LLM）运行，不过聊天机器人（以及传统对话式人工智能的升级版）更像是生成式人工智能天然的初始用例。

虽然生成式人工智能的定义和市场规模估计各不相同，但花旗研究（Citi Research）认为，互联网数据中心（IDC）对全球对话式人工智能工具和技术市场的预测可能是最重要的预测之一，因为其对市场规模的预测与花旗研究的某些分析结果一致，增长率很高（但是缺乏合理的基础）。根据IDC估计，

对话式人工智能市场预计将以37%的年复合增长率（CAGR）增长，从2021年的33亿美元增长到2026年的160多亿美元[3]。其中，公共云组件的年复合增长率（CAGR）将达到52%，而内部解决方案的年复合增长率仅为19%。值得注意的是，IDC的预测时间是2022年7月——即ChatGPT推出前四个月做出的，因此这一预测可能偏保守，低估了未来的增长潜力。

随着公共云与内部对话式人工智能显著增多，加上有些引人注目的用例需要大量算力，如ChatGPT。花旗研究（Citi Research）认为这将考验云市场的成熟度和可扩展性。

图1.2021－2026年全球人工智能软件的收入（百万美元）

数据来源：IDC，花旗研究（Citi Research）。指纹读取器

关键问题

·生成式人工智能产品和服务能否改变搜索引擎市场份额的格局：虽然现在还处于转型初期，并且消费者使用习惯通常具有粘性（即改变消费者的习惯需要时间），但生成式人工智能产品和服务推出后，可能会使搜索市场份额发生变化。不过，这种转变可能需要一段时间才能显现出来。搜索市场份额每变化一个百分点，相当于约20亿美元的搜索收入。

·生成式人工智能的快速跟随者能否加入竞争：尽管率先集成生成式人工智能的搜索引擎和浏览器处于自动跟踪

领先地位，但该领域大多数主要参与者都在努力开发基于生成式人工智能和大型语言模型（LLM）的产品和服务。这意味着，随着新产品进入市场，市场格局近期到中期可能会发生重大变化。在科技行业，有多个快速跟随者在和短视频等领域颠覆先行者的案例。更加关注用户体验是快速跟随者成功的因素之一。

·提高聊天式搜索的潜在成本：生成式人工智能的开发和服务成本很高。用生成式人工智能查询比传统方式搜索成本高几美分。

·搜索内容结果的可靠性和责任：ChatGPT结果的可靠性尚不确定。因为这是一个预训练模型，因此背景/内容高度依赖输入语料和模型的细化。从前几代ChatGPT来看，输出结果与训练大型语言模型（LLM）的数据集一样新。但是，新版ChatGPT将网络搜索的最新数据与训练集的输出相结合。如果将来出现安全问题，可能会有潜在风险/责任，例如给出误导性答案的风险。这与传统搜索不同——传统搜索只是引导用户访问原始来源，对内容来源的准确性只承担少量责任。

·聊天式搜索对监管的潜在影响：集成生成式人工智能后，搜索引擎结果页面上会给出更多相关答案，用户可能会在这些页面上花费更多时间。根据欧盟的《数字市场法案》（Digital Markets Act）（将于2023年5月生效），这可能会引发“守门人”（gatekeeper）责任问题。

已宣布的相关产品

2023年2月，微软（Microsoft）宣布在“必应”（Bing）搜索引擎和Edge浏览器中集成新的生成式人工智能模型——Open AI基于GPT-3.5并针对搜索进行了优化的ChatGPT。该集成将能够：（1）基于相关/个性化结果创作内容；（2）用网络链接总结出问题的完整答案；（3）通过聊天进行更具体的后续查询；（4）用1000个字符的文本框扩展搜索。微软指出，搜索引擎使用ChatGPT 后，不仅能创造更好的用户体验，搜索相关性也提高了。这一点很重要，因为提高搜索相关性可帮助解决40%以上搜索不能立即给出答案的问题。

图2. 必应（Bing）针对开放式问题的新聊天页面上提供多个来源的搜索结果

图3. Edge新边栏用生成式人工智能创建领英（LinkedIn）帖子的示例

2月初，谷歌发布了生成式人工智能工具——Bard，这是谷歌的第一个对话式人工智能模型。Bard使用了一个“轻量级”LaMDA模型，只对1370亿个参数进行了训练，目前功能和性能都很有限。Bard是一个面向公众的大型语言模型（LLM），基于几种人工智能工具，包括：（1）对话应用程序的语言模型LaMDA是一个聊天/对话模型；（2）路径语言模型PaLM是一个较先进的多模态模型，可以综合处理文本、音频和图像；（3）Sparrow基于谷歌2017年对转换模型的原创研究，强调安全对话。转换模型是大型语言模型（LLM）（如ChatGPT）的基础模型。

图4.供用户查询的Bard 人工智能人机交互新界面

图5. 生成式人工智能与谷歌搜索集成巧克力工艺品

中国

由于人们对ChatGPT和Bard的发布反应强烈，路透社（Reuters）和其它新闻媒体报道，中国互联网公司也在开发类似产品，将与ChatGPT类似的功能集成到自己的服务与产品中。

飞盘制作

本文发布于:2024-09-22 10:23:22，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/3/145144.html

上一篇：邮件列表

下一篇：面向序列分类问题的机器学习算法集成及其应用