对话交互:封闭域任务型与开放域闲聊算法技术

对话交互:封闭域任务型与开放域闲聊算法技术
前不久,OPPO 旗下的⼈⼯智能助⼿“⼩布助⼿”⽉度活跃⽤户数突破⼀亿,成为国内⾸个⽉活⽤户数破亿的⼿机语⾳助⼿。
经过 2 年多的成长,⼩布助⼿在能⼒上实现⼤幅升级,也融⼊了我们⾝边便捷的服务功能。⼩布团队亦克服了诸多技术难点,为⽤户带来了更智能的服务。为此,⼩布团队撰写了⼀系列⽂章,详细介绍⼩布助⼿背后的技术⽀撑,本⽂是揭秘⼩布背后技术的第三篇。
第⼀篇:
第⼆篇:
1. 对话系统的基本架构
智能对话交互已逐步成为新⼀代的⼈机交互趋势,⽽OPPO研发的⼩布助⼿也已覆盖⼿机、⼿表、电视、⽿机等多类终端设备,是⼀款集成任务型技能、知识问答、聊天、对话推荐、主动对话等综合能⼒的智能助⼿。
⼩布助⼿功能可分为五类:
系统应⽤类:确定的命令需求,如系统设置、时间技能、应⽤技能等
信息查询类:客观知识的查询/搜索需求,如“今天天⽓怎么样”等
桑塔纳2000机油泛娱乐类:满⾜⽤户娱乐需求,包括听歌、看电影等
⽣活服务:满⾜⽤户⽇常⽣活需求,包括导航、打车、订餐等
聊天类:主观类的闲聊需求,包括⼈设问答、闲聊问答、话题多轮等
⼩布助⼿架构是融合了任务型、知识问答型、聊天对话型的综合对话系统。
一倍体对于任务型对话系统,由⽤户输⼊语⾳,⾸先经过ASR模块识别为⽂本,下发到NLU服务进⾏⾃然语⾔语义模块,⽣成语义表征结果,如领域Domain+意图Intent+槽位Slot,然后下发给DM对话管理模块,然后对话状态跟踪更新上下⽂的对话状态,通常为词槽表征的对话状态。
太钢在线倾听对话策略模块基于当前对话状态选择最佳的回应action,下游不同BOT的action可能涉及到检索、推荐、系统问、意图澄清以及API调⽤;对话action的结果经过NLG模块⽣成合适的⾃然语⾔,最后经过TTS语⾳合成输出回复语⾳。
聊天对话系统主要包括以下⼏层。
Offline闲聊知识库索引层:主要负责基于离线训练好的语义编码模型得到所有问题Query的语义向量,然后基于⾼维向量索引⼯具⽣成语义索引,同时基于分词⽣成⽂本索引,最后服务于线上服务;
Online在线服务层:主要是Query话题识别情感识别等处理后,下发给应答引擎包括模板应答、检索式应答、⽣成式应答,以及主动对话引擎,然后融合排序模块基于应答模块输出的候选回复进⾏深度语义排序最终输出最佳回复,回复更新到对话上下⽂辅助Query理解;
另外最下⾯的Offline离线的⽤户兴趣挖掘层,主要基于⽤户query挖掘⽤户兴趣主题,最后服务于主动
对话引擎,⽤来发起新话题吸引⽤户长程交互。
2. 任务型语义理解
语义理解中存在两个关键问题:
1. 语义表征Input: Query+Context, Output: ?
2. 语义理解算法Algorithm(Input->output)
语义表征⽅法主要包括典型Query/典型指令、Term空间、结构化意图和槽位、语义依存结构树四种。⽬前对话系统基本采⽤这种Semantic Frame意图+槽位的语义结果表征⽅法,意图槽位表征也存在slot之间的关系⽆法更为精细刻画的问题,所以对于多跳图谱问答等复杂语义依赖的场景,需要通过语义依存结构树的表征⽅法作为补充增强,同时语义理解任务复杂度随着语义表征精细程度会越复杂。
实际在⼀个好的⼯业界AI系统中,根据不同阶段和不同领域的需求差异,综合运⽤四个层次的NLU技术来实现,⼩布助⼿⽬前以意图槽位体系的语义理解为主,在信息查询百科、聊天等领域运⽤Query改写以及语义检索技术,来实现开放域多样且⽆边界的query的意图理解,在垂域问答采⽤查询推理树来表征语义结果。
对于意图识别算法架构,主要分为语义检索架构和分类模型架构。
语义检索的优点是偏差⼩在意图样本少时效果好,同时意图不⽤固定,可通过意图知识库任意扩展,所以扩展性强。缺点是⽅差⼤,且结果容易受噪声样本的影响,只能进⾏意图识别,词槽抽取⽆法多任务并⾏。适⽤场景是:百科问答/聊天类意图⾮固化且句式灵活多样的场景。
分类模型架构的优点是⽅差⼩,泛化能⼒强,与槽位填充可多任务并⾏处理。缺点则是偏差⼤,训练数据集少则效果不好,意图类别必须固定。适⽤场景是:意图类别固定的场景,如系统操控等指令类技能。
常⽤的意图识别算法主要是各种分类模型CNN/LSTM/Transformer。这⾥重点说明⼀下特征增强的意图识别或引⼊外部知识的意图识别,包括引⼊实体位置特征、实体类型特征、词性特征等。
实体位置特征直接增加NER实体特征降低模型学习难度,但可能存在先验特征噪声需具体技能具体分
析,实体类型特征主要是引⼊如时间、地点等实体类型特征增强模型学习效果,准召提升均有0.5-1个点左右提升。复杂网络理论及其应用
槽位提取本质上是序列标注任务,模型实践主要包括LSTM+CRF/Lattice LSTM+CRF,CNN+CRF/IDCNN+CRF,Lattice LSTM基于字特征+词特征增强特征提升模型准召,F1提升约0.7%-2%不等看具体技能,IDCNN通过引⼊Dilation Convolution膨胀卷积以较少层获得更⼤感受野,
相同F1提升inference性能。
槽位可分为可枚举词槽,和不可枚举词槽,即任意⽂本槽位。
可枚举词槽:如⽇期时间、数字、⾦额等说法固定,或有限资源池的词槽,如⾳乐影视。槽位提取⽅式通常基于词典AC⾃动机、规则DFA 进⾏快速匹配抽取。
艋胛
不可枚举槽位:如⽇程闹钟事件、联系⼈好友名、短信内容等⾮固化形式的槽位类型。槽位提取⽅式主要是序列标注算法模型。
任意⽂本提槽,⽐如短信技能⾥的给XX发送XX信息内容,我们基于词槽内容采⽤任意⽂本填充的⽅式来⾃动化数据增强,基于训练出的提槽序列标注模型提槽后,通过可配置模块进⾏验证,相⽐未进⾏数据增强的模型召回率有3%以上的提升。
基于独⽴的意图识别和槽位提取模型,来进⾏语义理解会存在语义理解歧义问题,基于多任务联合建模可以有效缓解歧义问题, 其优势主要在于Intent能⼤⼤缩⼩Slots的歧义空间,因为Slots是Query意图的重要特征,较独⽴模型F1可提升1%-1.5%,较分离模型训练效率⾼。
⼤规模预训练语⾔模型在由于模型容量巨⼤学习到丰富的知识分布,对于语料相对匮乏或提⾼轻量级
惠普nc4400模型效果的业务场景⾮常有效,基于BERT的Joint Task Learning在 Fine tuning阶段将输出层改造为分类+序列标注的结构,因为意图理解和槽位解析是相辅相成的任务,可以提升模型效果。

本文发布于:2024-09-21 14:45:57,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/649402.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语义   模型   意图   对话   特征   槽位   理解
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议