数据识别方法、装置、设备及计算机程序产品与流程



1.本技术涉及人工智能技术领域,尤其涉及一种数据识别方法、装置、设备及计算机程序产品。


背景技术:



2.随着生活水平的日益提高以及科技的快速发展,现如今人们对于个人的隐私数据越来越重视,若能识别用户输入的数据中是否包含隐私数据,可以更好地对用户的隐私数据进行保护。
3.但是,当前处于5g时代,5g消息面向千行百业、消息数据类型多样,而现有技术中隐私数据识别主要针对文本,使得当前不能准确地从用户输入的类型多样的消息数据中识别出隐私数据。


技术实现要素:



4.本技术的主要目的在于提供一种数据识别方法、装置、设备及计算机程序产品,旨在解决当前不能准确地从类型多样的消息数据中识别出隐私数据的技术问题。
5.为实现上述目的,本技术实施例提供一种数据识别方法,所述数据识别方法包括:
6.获取待识别消息数据并确定所述待识别消息数据的数据类型;
7.通过目标神经网络模型根据所述数据类型对所述待识别消息数据进行信息提取,得到信息提取结果;
8.基于所述信息提取结果对所述待识别消息数据进行隐私数据识别,得到识别结果。
9.优选地,所述数据类型包括图像数据类型与文本数据类型,所述通过目标神经网络模型根据所述数据类型对所述待识别消息数据进行信息提取,得到信息提取结果的步骤包括:
10.若所述数据类型为图像数据类型,则通过所述目标神经网络模型的富媒体特征提取器对所述待识别消息数据进行图像特征提取,得到信息提取结果;
11.若所述数据类型为文本数据类型,则通过所述目标神经网络模型的对话上下文及卡片字段语义提取器对所述待识别消息数据进行文本语义提取,得到信息提取结果。
12.优选地,所述基于所述信息提取结果对所述待识别消息数据进行隐私数据识别,得到识别结果的步骤包括:
13.将所述信息提取结果输入至所述目标神经网络模型的全连接注意力层;
14.通过所述全连接注意力层基于所述信息提取结果对所述待识别消息数据进行隐私数据识别,得到识别结果。
15.优选地,所述确定所述待识别消息数据的数据类型的步骤之后包括:
16.根据所述待识别消息数据的数据类型将所述待识别消息数据输入相应的预处理器;
17.基于所述预处理器对所述待识别消息数据进行预处理,得到预处理后的待识别消息数据。
18.优选地,所述基于所述信息提取结果对所述待识别消息数据进行隐私数据识别,得到识别结果的步骤之后包括:
19.根据所述识别结果确定所述待识别消息数据的加密措施;
20.根据所述加密措施对所述待识别消息数据进行数据加密。
21.优选地,所述获取待识别消息数据并确定所述待识别消息数据的数据类型的步骤之前,还包括:
22.获取历史消息数据及所述历史消息数据对应的隐私数据识别结果,并由所述历史消息数据及所述历史消息数据对应的隐私数据识别结果形成训练数据集;
23.基于富媒体特征提取器、对话上下文及卡片字段语义提取器、全连接注意力层构建初始神经网络模型;
24.基于所述训练数据集对所述初始神经网络模型进行训练,得到目标神经网络模型。
25.优选地,所述训练数据集包括训练集与测试集,所述基于所述训练数据集对所述初始神经网络模型进行训练,得到目标神经网络模型的步骤包括:
26.根据所述训练数据集中的训练集对所述初始神经网络模型进行训练,得到待测试神经网络模型;
27.根据所述训练数据集中的测试集对所述待测试神经网络模型进行测试,得到目标神经网络模型。
28.为实现上述目的,本技术还提供一种数据识别装置,所述数据识别装置包括:
29.预处理模块,用于获取待识别消息数据并确定所述待识别消息数据的数据类型;
30.提取模块,用于通过目标神经网络模型根据所述数据类型对所述待识别消息数据进行信息提取,得到信息提取结果;
31.识别模块,用于基于所述信息提取结果对所述待识别消息数据进行隐私数据识别,得到识别结果。
32.进一步地,为实现上述目的,本技术还提供一种数据识别设备,所述数据识别设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的数据识别程序,所述数据识别程序被所述处理器执行时实现上述的数据识别方法的步骤。
33.进一步地,为实现上述目的,本技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述的数据识别方法的步骤。
34.本技术实施例提供一种数据识别方法、装置、设备及计算机程序产品,获取待识别消息数据并确定所述待识别消息数据的数据类型;通过目标神经网络模型根据所述数据类型对所述待识别消息数据进行信息提取,得到信息提取结果;基于所述信息提取结果对所述待识别消息数据进行隐私数据识别,得到识别结果。本技术在进行隐私数据识别之前先确定待识别消息数据的数据类型,以针对不同数据类型的待识别消息数据进行隐私数据识别,再由训练好的目标神经网络模型根据不同的数据类型对待识别消息数据进行信息提取,并通过信息提取结果对待识别消息数据进行隐私数据识别,有效提高隐私数据识别的准确性,实现准确地从类型多样的消息数据中识别出隐私数据。
附图说明
35.图1为本技术数据识别方法实施例方案涉及的硬件运行环境的结构示意图;
36.图2为本技术数据识别方法第一实施例的流程示意图;
37.图3为本技术数据识别方法第一实施例中数据识别的在线识别流程图;
38.图4为本技术数据识别方法第二实施例的流程示意图;
39.图5为本技术数据识别方法第三实施例的流程示意图;
40.图6为本技术数据识别方法第四实施例的流程示意图;
41.图7为本技术注意力机制的示意图;
42.图8为本技术第四实施例中初始神经网络模型的应用示意图;
43.图9为本技术数据识别装置较佳实施例的功能模块示意图。
44.本技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
45.应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
46.如图1所示,图1是本技术实施例方案涉及的硬件运行环境的数据识别设备结构示意图。
47.在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本技术的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
48.本技术实施例数据识别设备可以是pc,也可以是平板电脑、便携计算机等可移动式终端设备。
49.如图1所示,该数据识别设备可以包括:处理器1001,例如cpu,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
50.本领域技术人员可以理解,图1中示出的数据识别设备结构并不构成对数据识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
51.如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据识别程序。
52.在图1所示的设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的数据识别程序,并执行以下操作:
53.获取待识别消息数据并确定所述待识别消息数据的数据类型;
54.通过目标神经网络模型根据所述数据类型对所述待识别消息数据进行信息提取,得到信息提取结果;
55.基于所述信息提取结果对所述待识别消息数据进行隐私数据识别,得到识别结果。
56.进一步地,所述数据类型包括图像数据类型与文本数据类型,所述通过目标神经网络模型根据所述数据类型对所述待识别消息数据进行信息提取,得到信息提取结果的步骤包括:
57.若所述数据类型为图像数据类型,则通过所述目标神经网络模型的富媒体特征提取器对所述待识别消息数据进行图像特征提取,得到信息提取结果;
58.若所述数据类型为文本数据类型,则通过所述目标神经网络模型的对话上下文及卡片字段语义提取器对所述待识别消息数据进行文本语义提取,得到信息提取结果。
59.进一步地,所述基于所述信息提取结果对所述待识别消息数据进行隐私数据识别,得到识别结果的步骤包括:
60.将所述信息提取结果输入至所述目标神经网络模型的全连接注意力层;
61.通过所述全连接注意力层基于所述信息提取结果对所述待识别消息数据进行隐私数据识别,得到识别结果。
62.进一步地,所述确定所述待识别消息数据的数据类型的步骤之后,处理器1001可以用于调用存储器1005中存储的数据识别程序,并执行以下操作:
63.根据所述待识别消息数据的数据类型将所述待识别消息数据输入相应的预处理器;
64.基于所述预处理器对所述待识别消息数据进行预处理,得到预处理后的待识别消息数据。
65.进一步地,所述基于所述信息提取结果对所述待识别消息数据进行隐私数据识别,得到识别结果的步骤之后,处理器1001可以用于调用存储器1005中存储的数据识别程序,并执行以下操作:
66.根据所述识别结果确定所述待识别消息数据的加密措施;
67.根据所述加密措施对所述待识别消息数据进行数据加密。
68.进一步地,所述获取待识别消息数据并确定所述待识别消息数据的数据类型的步骤之前,处理器1001可以用于调用存储器1005中存储的数据识别程序,并执行以下操作:
69.获取历史消息数据及所述历史消息数据对应的隐私数据识别结果,并由所述历史消息数据及所述历史消息数据对应的隐私数据识别结果形成训练数据集;
70.基于富媒体特征提取器、对话上下文及卡片字段语义提取器、全连接注意力层构建初始神经网络模型;
71.基于所述训练数据集对所述初始神经网络模型进行训练,得到目标神经网络模型。
72.进一步地,所述训练数据集包括训练集与测试集,所述基于所述训练数据集对所述初始神经网络模型进行训练,得到目标神经网络模型的步骤包括:
73.根据所述训练数据集中的训练集对所述初始神经网络模型进行训练,得到待测试神经网络模型;
74.根据所述训练数据集中的测试集对所述待测试神经网络模型进行测试,得到目标神经网络模型。
75.为了更好的理解上述技术方案,下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
76.为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
77.参照图2,本技术第一实施例提供一种数据识别方法的流程示意图。该实施例中,所述数据识别方法包括以下步骤:
78.步骤s10,获取待识别消息数据并确定所述待识别消息数据的数据类型;
79.本实施例中数据识别方法应用于5g(5th generation mobile communication technology,第五代移动通信技术)消息应用开放平台,5g消息应用开放平台可以帮助行业客户按需实现多场景的a2p(application to person,应用到个人)沟通,企业可通过平台快速完成消息应用的部署,无需进行复杂的代码开发,使得行业客户可以简单便捷地创建自己的5g消息应用,例如作为行业客户的银行可以在5g消息平台中创建银行相关的业务办理应用,并在创建完成后将业务办理应用推荐给具有需求的用户使用,使得用户可以通过该业务办理应用在线进行业务办理。具体地,5g消息应用开放平台可以从5g消息系统中获取5g消息作为待识别消息数据,5g消息系统中的5g消息为用户通过智能终端发送,智能终端可以为智能手机、平板电脑等终端,5g消息在本实施例中可以为文本、图片、音频、视频、位置、联系人等多种类型的数据;也可以为富媒体,富媒体包含流媒体、声音、flash(多媒体软件平台)、以及java、javascript、dhtml等程序设计语言的形式之一或者几种的组合,可以理解地,即使富媒体或5g消息具有多种类型,但实质上可以分为图像数据类型与文本数据类型,即多种类型的5g消息或富媒体以图像或文本的形式呈现,并且5g消息中可以同时包含多种类型的数据,使得5g消息中可能同时包含图像数据类型与文本数据类型的数据。5g消息系统包括5g消息中心、maap系统及聊服务器等设备;5g消息中心即5gmc,英文全称为5g message center,是5g消息业务的核心网元,它具有接入、路由模块及功能,作为整体vnf(virtual network function,虚拟网络功能)进行部署,又具备短消息中心的处理能力和外部接口,该网元将统一提供针对短消息和基础多媒体消息的处理、发送、存储和转发等功能。maap(massage as a platform,消息即平台)系统包含maap平台管理模块和maap平台,是行业5g消息业务的核心网元,该网元将为行业用户提供5g商业消息业务接入及消息上下行能力,为用户提供行业聊天机器人搜索、详情查询、消息上下行等功能,其中maap平台管理模块用于对maap平台进行管理,maap平台用于第三方企业和用户之间进行消息传递。聊服务器为5g消息提供聊功能,包括聊消息收发、信息管理等功能。5g消息业务基于终端原生短信入口,为用户提供文本、图片、音频、视频、位置、联系人等媒体内容的发送和接收,包括点对点消息、发消息、聊消息、点与应用间消息。相较于功能单一的传统短信,5g消息不仅拓宽了信息收发的广度,支持用户使用文本、音视频、卡片、位置等多媒体内容,更延展了交互体验的深度,用户在消息窗口就能完成服务搜索、发现、交互、支付等业务,构建一站式服务的信息窗口。
80.在本技术一个实施例的应用场景中,用户在具有需求时,可以在5g消息开放平台中进行相应的业务办理,具体地,用户可以通过智能手机、平板电脑等智能终端向5g消息系
统中的5g消息中心发送5g消息,以使5g消息中心在接收到用户发送的5g消息后将5g消息存储至5g消息开放平台,再由5g消息开放平台根据5g消息对该用户进行业务办理。可以理解地,由于5g消息开放平台为开放平台,因此通过5g消息开放平台进行业务办理后,用户所输入的5g消息可能被第三方所获取甚至下载,因此为了确保用户的隐私数据安全,5g消息开放平台还需要对5g消息进行隐私数据识别,由此确定5g消息中是否包含隐私数据,进而根据隐私数据识别的识别结果对5g消息进行加密。
81.进一步地,在5g消息中心接收到用户发送的5g消息后,5g消息开放平台从5g消息中心获取5g消息作为待识别消息数据,或者接收5g消息中心传输的5g消息,并将接收的5g消息确定为待识别消息数据,由于5g消息或富媒体可能同时存在多种类型的数据,因此待识别消息数据也可能包含图像数据类型与文本数据类型对应的多种类型的数据。在获取到待识别消息数据后,5g消息开放平台启动对待识别消息数据进行隐私数据识别的流程,首先对待识别消息数据进行类型识别,根据类型识别的结果将待识别消息数据输入至对应的预处理器中进行数据预处理,以此得到预处理后的待识别消息数据,其中作为待识别消息数据的5g消息可以为文本、图片、音频、视频、位置、联系人等形式的数据,而文本、图片、音频、视频、位置、联系人等不同形式的数据又可以整体归类为图像数据类型与文本数据类型等两大类,隐私数据可以包括个人基本信息、个人身份信息、个人生物识别信息、网络身份标识信息、个人健康生理信息、个人教育工作信息、个人财产信息、个人通信信息、联系人信息、个人上网记录、个人常用设备信息、个人位置信息等,本实施例中隐私数据的具体类型不做具体限定。由于对待识别消息数据进行识别后再进行数据预处理及后续的隐私数据识别,因此可以实现针对不同类型的待识别消息数据进行隐私数据识别。
82.步骤s20,通过目标神经网络模型根据所述数据类型对所述待识别消息数据进行信息提取,得到信息提取结果;
83.可以理解地,5g消息开放平台在对获取的待识别消息数据进行隐私数据识别之前,需要先构建初始神经网络模型并通过大量的训练数据对初始神经网络模型进行训练,以此得到训练好的目标神经网络模型,再通过目标神经网络模型对经预处理得到的预处理的待识别消息数据进行隐私数据识别。具体地,在预先训练得到目标神经网络模型之后,5g消息开放平台通过目标神经网络模型按照待识别消息数据的数据类型对预处理后的待识别消息数据进行信息提取,其中信息提取包括文本语义提取和/或图像特征提取。再将文本语义提取的提取结果和/或图像特征提取的提取结果作为最终的信息提取结果,以在后续基于信息提取结果对待识别消息数据进行隐私数据识别,使得隐私数据识别的识别结果更加准确。
84.步骤s30,基于所述信息提取结果对所述待识别消息数据进行隐私数据识别,得到识别结果。
85.在得到由文本语义提取的提取结果和/或图像特征提取的提取结果确定的信息提取结果后,5g消息开放平台通过目标神经网络中的全连接注意力层根据信息提取结果对待识别消息数据进行隐私数据识别,具体地,根据全连接注意力层对信息提取结果的各区域进行注意力权重分配,在完成注意力权重分配后根据各区域的注意力权重确定待识别消息数据中是否存在隐私数据(若信息提取结果中存在注意力权重较高的区域,说明待识别消息数据中存在隐私数据),得到对待识别消息数据进行隐私数据识别的识别结果。本实施例
根据信息提取结果对待识别消息数据进行隐私数据识别,其中包括通过目标神经网络中的全连接注意力层结合信息提取结果对待识别消息数据进行注意力权重分配来辅助完成隐私数据识别,可以提高隐私数据识别的准确性。
86.进一步地,所述基于所述信息提取结果进行所述待识别消息数据的隐私数据识别的步骤包括:
87.步骤s31,将所述信息提取结果输入至所述目标神经网络模型的全连接注意力层;
88.步骤s32,通过所述全连接注意力层基于所述信息提取结果对所述待识别消息数据进行隐私数据识别,得到识别结果。
89.在得到信息提取结果后,5g消息开放平台通过训练好的目标神经网络模型中的全连接注意力层对信息提取结果进行注意力权重分配,将注意力放在信息提取结果的潜在隐私区域。具体地,若信息提取结果为图像特征提取的提取结果,则通过目标神经网络模型的全连接注意力层对图像特征提取的提取结果进行注意力权重分配,将注意力放在图像特征提取的提取结果中图像的隐私潜在隐私区域,并通过图像特征提取的提取结果所分配的注意力权重确定图像特征提取的提取结果中是否包含隐私数据,以此得到图像特征提取的提取结果所对应的待识别消息数据是否包含隐私数据的识别结果;可以理解地,注意力权重的大小为0至1之间,注意力权重越接近于1,说明待识别消息中存在隐私数据的可能性越大;反之,注意力权重越接近于0,说明待识别消息数据中包含隐私数据的可能性越小,本实施例中当信息提取结果中的各区域中存在任一区域的注意力权重大于预设阈值时,则确定信息提取结果中存在隐私数据,其中预设阈值可以为目标神经网络模型通过训练与学习得到,也可以根据实际需求设定,例如当信息提取结果中的各区域中存在任一区域的注意力权重大于预设阈值0.95时,则确定信息提取结果中存在隐私数据。
90.若信息提取结果为文本语义提取的提取结果,则通过目标神经网络模型的全连接注意力层对文本语义提取的提取结果进行注意力权重分配,将注意力放在文本语义提取的提取结果中的文本的潜在隐私区域,并通过文本语义提取的提取结果所分配的注意力权重确定文本语义提取的提取结果中是否包含隐私数据,以此得到文本语义提取的提取结果所对应的待识别消息数据是否包含隐私数据的识别结果。
91.进一步地,若信息提取结果包含文本语义提取的提取结果与图像特征提取的提取结果,则通过目标神经网络模型的全连接注意力层,根据文本语义提取的提取结果中的对话上下文及卡片字段,对图像特征提取的提取结果中的富媒体图像的各区域进行注意力权重分配,将注意力放在富媒体图像的潜在隐私区域,并通过图像特征提取的提取结果与文本语义提取的提取结果所分配的注意力权重确定信息提取结果中是否包含隐私数据,以此得到信息提取结果所对应的待识别消息数据是否包含隐私数据的识别结果。
92.进一步地,所述基于所述信息提取结果对所述待识别消息数据进行隐私数据识别,得到识别结果的步骤之后包括:
93.步骤s33,根据所述识别结果确定所述待识别消息数据的加密措施;
94.步骤s34,根据所述加密措施对所述待识别消息数据进行数据加密。
95.进一步地,在完成隐私数据识别并得到识别结果后,5g消息开放平台可以根据识别结果确定待识别消息数据的加密措施,具体地,若识别结果为待识别消息数据中包含隐私数据,5g消息开放平台则获取隐私数据对应的加密等级及该等级对应的加密方式作为应
对待识别消息数据的加密措施,并按照确定的加密等级对应的加密方式对待识别消息数据进行加密,以此确保用户的待识别消息数据的安全性;相反地,若识别结果为待识别消息数据中不包含隐私数据,5g消息开放平台则获取非隐私数据对应的加密等级及该加密等级对应的加密方式作为应对待识别消息数据的加密措施,并按照确定的加密等级对应的加密方式对待识别消息数据进行加密。可以理解地,隐私数据对应的加密等级必然高于非隐私数据对应的加密等级,使得隐私数据对应的加密方式比非隐私数据对应的加密方式严格,以确保待识别消息数据存储的安全性。
96.参照图3,图3为本技术数据识别方法第一实施例中数据识别的在线识别流程图。在线识别流程包括:1、持有智能终端的终端用户将富媒体发送至5gmc中;2、5gmc将从终端用户发送的富媒体存储至5g消息开放平台中;3、5g消息开放平台对富媒体进行预处理,其中包括对富媒体进行类型识别在将富媒体传输至对应的预处理器中进行处理,具体地,3.1、根据识别的数据类型将富媒体传输至富媒体预处理器进行预处理;和/或,3.2、根据识别的数据类型将富媒体传输至文本预处理器中进行预处理,其中还需要判断用户发送的富媒体的输入途径为卡片输入还是对话输入,在通过相应的方式将富媒体输入至文本预处理器;4、将预处理后的富媒体传输至富媒体消息隐私数据识别器,其中包括4.1、将文本预处理器处理后的富媒体发送至富媒体消息隐私数据识别器;和/或,4.2、将富媒体预处理器处理后的富媒体发送至富媒体消息隐私数据识别器;5、富媒体消息隐私数据识别器判断该富媒体是否包含隐私数据;6.1、若判断结果为“是”,说明富媒体中包含隐私数据,则将包含标注注意力聚焦的图像区域的识别结果反馈至5g消息开放平台以对待识别消息数据进行高级别加密;6.2、若判断结果为“否”,说明富媒体中不包含隐私数据,则将识别结果反馈至5g消息开放平台以对待识别消息数据进行低级别加密。
97.本实施例提供一种数据识别方法、装置、设备及计算机程序产品,获取待识别消息数据并确定所述待识别消息数据的数据类型;通过目标神经网络模型根据所述数据类型对所述待识别消息数据进行信息提取,得到信息提取结果;基于所述信息提取结果对所述待识别消息数据进行隐私数据识别,得到识别结果。本技术在进行隐私数据识别之前先确定待识别消息数据的数据类型,以针对不同数据类型的待识别消息数据进行隐私数据识别,再由训练好的目标神经网络模型根据不同的数据类型对待识别消息数据进行信息提取,并通过信息提取结果对待识别消息数据进行隐私数据识别,有效提高隐私数据识别的准确性,实现准确地从类型多样的消息数据中识别出隐私数据。
98.进一步地,参照图4,基于本技术数据识别方法的第一实施例,提出本技术数据识别方法的第二实施例,在第二实施例中,所述通过目标神经网络模型根据所述数据类型对所述待识别消息数据进行信息提取,得到信息提取结果的步骤包括:
99.步骤a,若所述数据类型为图像数据类型,则通过所述目标神经网络模型的富媒体特征提取器对所述待识别消息数据进行图像特征提取,得到信息提取结果;
100.在得到预处理的待识别消息数据后,由于待识别消息数据是根据不同数据类型对应的富媒体预处理器或文本预处理器进行预处理得到的,因此预处理的待识别消息数据可能包括图像数据类型/或或文本数据类型,因此5g消息开放平台根据预处理后待识别消息数据对应的数据类型,对预处理后的待识别消息数据进行信息提取。具体地,若预处理的待识别消息数据对应的数据类型为图像数据类型,则通过目标神经网络模型中的富媒体特征
提取器对预处理的待识别消息数据进行图像特征提取,具体为通过组成富媒体特征提取器的深度卷积神经网络(cnn,convolutional neural network)基于cnn学习图像像素在空间上的关系将包含富媒体图像信息的预处理的待识别消息数据转换成空间向量表示,得到表征图像特征提取结果的信息提取结果。
101.步骤b,若所述数据类型为文本数据类型,则通过所述目标神经网络模型的对话上下文及卡片字段语义提取器对所述待识别消息数据进行文本语义提取,得到信息提取结果。
102.进一步地,若预处理的待识别消息数据对应的数据类型为文本数据类型,则通过目标神经网络模型的对话上下文及卡片字段语义提取器对预处理的待识别消息数据进行文本语义提取,具体为通过组成对话上下文及卡片字段语义提取器的长短期记忆神经网络(lstm,long short-term memory),利用lstm可以记住长期依赖信息的特点,将包含对话上下文及卡片字段的预处理的待识别消息数据通过lstm抽取出文本语义信息,得到表征文本语义提取结果的信息提取结果。
103.可以理解地,由于待识别消息数据的数据类型可能同时包含图像数据类型与文本数据类型据,因此经预处理得到的待识别消息数据中也可能同时包含图像数据类型与文本数据类型,若预处理的待识别消息数据的数据类型同时包含图像数据类型与文本数据类型,则分别通过目标神经网络模型的富媒体特征提取器与对话上下文及卡片字段语义提取器对预处理的待识别消息数据进行图像特征提取及文本语义提取,得到图像特征提取结果与文本语义提取结果,并将图像特征提取结果与文本语义提取结果共同作为信息提取结果。
104.本实施例通过目标神经网络模型中与预处理的待识别消息数据的数据类型对应的提取器,对预处理的待识别消息数据进行信息提取,使得根据信息提取结果对待识别消息数据进行隐私数据识别得到的识别结果更加准确。
105.进一步地,参照图5,基于本技术数据识别方法的第一实施例,提出本技术数据识别方法的第三实施例,在第三实施例中,所述确定所述待识别消息数据的数据类型的步骤之后包括:
106.步骤s11,根据所述待识别消息数据的数据类型将所述待识别消息数据输入相应的预处理器;
107.步骤s12,基于所述预处理器对所述待识别消息数据进行预处理,得到预处理后的待识别消息数据。
108.在获取到待识别消息数据后,5g消息开放平台先对待识别消息数据进行类型识别,得到待识别消息数据的数据类型,可以理解地,由于不同类型(如文本、图片、音频、视频、位置、联系人等)的数据实质以图像或文本的形式呈现,因此5g消息开放平台在识别到待识别消息数据的具体类型后,根据具体类型将待识别消息数据自动归类至图像数据类型或文本数据类型,使得本实施例中识别得到的待识别消息数据的数据类型可以包括图像数据类型与文本数据类型。进一步地,本实施例中预处理器可以包括富媒体预处理器和文本预处理器,若经确定待识别消息数据的数据类型为图像数据类型,则将待识别消息数据输入至与图像数据类型对应的富媒体预处理器;通过富媒体预处理器对待识别消息数据进行图像预处理,具体地,可以通过富媒体预处理器对待识别消息数据进行标准化处理,得到图
像数据类型的待识别消息数据,更具体地,对每一帧图像的每一个像素值按比例压缩至0到1的范围内,然后将每一帧图片的像素值分别对应减去全局均值图片的像素值以实现归一化,其中全局均值图片的像素值是通过计算训练数据中每一帧图片的每一个位置像素值的均值所得到。经处理后的图像像素值都将被归一化为均值为0、方差为1。若经确定待识别消息数据的数据类型为文本数据类型,则将待识别消息数据输入至与文本数据类型对应的文本预处理器;通过文本预处理器对待识别消息数据进行文本预处理,得到文本数据类型的预处理的待识别消息数据,更具体地,移除所有标点符号,若文本为中文则对文本进行分词、若文本为英文则将字母统一为小写,同时将每个词索引化(tokenize),使得每一段文本被转化成一段索引数字,并且对未达到最大文本长度的序列补零。取对话上下文及卡片消息字段集的最长长度l作为其索引序列长度,词典大小为m。可以理解地,由于在5g消息中,用户通过智能终端一般有两种途径可能会将潜在隐私数据发往行业chatbot(机器人对话),一种是用户在与chatbot对话过程中输入的信息,另一种是在卡片消息中输入的信息,因此当待识别消息数据的数据类型为文本数据类型时,5g消息开放平台还可以判断用户发送的待识别消息数据/富媒体的输入途径,若待识别消息数据为用户在与chatbot对话过程中输入的,则将对话上下文发送至文本预处理器进行文本序列化处理,若待识别消息数据为用户在卡片消息中输入,则将卡片相关字段发送至文本预处理器进行文本序列化处理。若经确定待识别消息数据同时包含图像数据类型与文本数据类型,则通过富媒体预处理器与文本预处理器分别对待识别消息数据进行图像预处理及文本预处理,得到包含图像数据类型与文本数据类型的待识别消息数据。
109.本实施例通过识别待识别消息数据的数据类型,再根据数据类型对应的预处理器对待识别消息数据进行预处理,以根据预处理后的待识别消息数据进行隐私数据识别,实现准确地从类型多样的消息数据中识别出隐私数据。
110.进一步地,参照图6,基于本技术数据识别方法的第一实施例,提出本技术数据识别方法的第四实施例,在第四实施例中,所述获取待识别消息数据并确定所述待识别消息数据的数据类型的步骤之前,还包括:
111.步骤s100,获取历史消息数据及所述历史消息数据对应的隐私数据识别结果,并由所述历史消息数据及所述历史消息数据对应的隐私数据识别结果形成训练数据集;
112.步骤s200,基于富媒体特征提取器、对话上下文及卡片字段语义提取器、全连接注意力层构建初始神经网络模型;
113.步骤s300,基于所述训练数据集对所述初始神经网络模型进行训练,得到目标神经网络模型。
114.可以理解地,在应用训练好的目标神经网络来实现隐私数据识别之前,必须先通过大量的训练数据来训练初始神经网络模型,并在初始神经网络模型的性能达到最优时确定为目标神经网络。具体地,5g消息开放平台首先从内部存储器中获取历史消息数据,其中历史消息数据可以包括富媒体图像、对话上下文、卡片字段等;进一步地,5g消息开放平台还需要获取富媒体图像、对话上下文、卡片字段等历史消息数据对应的隐私数据识别结果,并为历史消息数据对应的隐私数据识别结果一一设置标签,其中历史消息数据中包含隐私数据的隐私数据识别结果的标签为1,历史消息数据中不包含隐私数据的隐私数据识别结果的标签为0。由富媒体图像、对话上下文、卡片字段及对应的隐私数据识别结果组成数据
集。进一步地,5g消息开放平台还需要对数据集进行预处理,具体地,富媒体图像集可表示为:v={v1,v2,...,vn},其中vn是空间位置n处的特征向量;对应的对话上下文及卡片消息字段集可表示为:q={q1,q2,...,ql},其中ql是第l个单词的特征向量,l=0,1,2...。对数据集中的富媒体图像进行标准化处理,形成第一数据;而若获取到富媒体视频数据而非富媒体图像,则从富媒体视频数据中提取出每一帧图像数据,并将图像数据转换为448*448大小的图像数据,形成模型可接受的输入数据大小。同时为了确保数据都在同一范围内,需要对图像数据进行标准化处理,对每一帧图像的每一个像素值都按比例压缩至0到1的范围内,然后将每一帧图片的像素值分别对应减去全局均值图片的像素值以实现归一化,得到第一数据,其中全局均值图片的像素值是通过计算富媒体视频数据中每一帧图像的每一个位置像素值的均值所得到,并且经预处理后的图像像素值都将被归一化至均值为0、方差为1。
115.进一步地,5g消息开放平台还需要对数据集中对话上下文及卡片字段进行文本清洗并将文本序列化,具体地,移除对话上下文及卡片字段的所有标点符号,若文本为中文则对文本进行分词,若文本为英文则将字母统一为小写;同时将每个词索引化(tokenize),使得每一段文本被转化成一段索引数字,并且对未达到最大文本长度的序列补零,取对话上下文及卡片字段的最长长度l作为其索引序列长度,词典大小为m,得到第二数据。由第一数据与第二数据形成训练数据集。可以理解地,训练数据集又分我训练集与测试集,其中训练数据集可以设定90%划为训练集,10%划为测试集,训练集用于对初始神经网络模型进行模型训练,而测试集则用于对训练后的神经网络模型进行测试,使得训练后的神经网络模型的性能达到最优。
116.进一步地,除了获取训练数据集之外,5g消息开放平台还需要通过深度学习框架搭建注意力机制神经网络模型,具体地,由富媒体特征提取器、对话上下文及卡片字段语义提取器、全连接注意力层构建初始神经网络模型,使得初始神经网络可以将富媒体图像通过深度卷积神经网络抽取出图像特征信息、将对话上下文及卡片字段通过lstm(long short-term memory,长短期记忆神经网络)抽取出文本语义信息,最后结合二者的信息,由全连接注意力层根据对话上下文及卡片字段给富媒体图像各区域分配注意力权重,从而实现将注意力放在图像的潜在隐私区域,其中富媒体特征提取器由深度卷积神经网络(cnn,convolutional neural network)组成,可以利用cnn学习图像像素在空间上的关系,负责将获取的富媒体图像转换成空间向量来表示;对话上下文及卡片字段语义提取器由长短期记忆神经网络组成,可以利用lstm可以记住长期依赖信息的特点,将对话上下文及卡片字段通过lstm抽取出文本语义信息,而全连接注意力层中的注意力机制可以帮助解码器学习将注意力放在图像的特定部分。本实施例通过搭建编码器-解码器架构的深度神经网络,引入注意力(attention)机制,而注意力机制的引入解决了编码器-解码器结构当输入或输出序列较长时性能较差的局限,首先注意力机制模型中编码器传递所有的隐藏状态给解码器,使得从编码器获得的更加丰富的上下文提供给解码器。注意力解码器在输出序列之前会执行一个额外的步骤,为了将注意力集中在与解码器输出序列最相关的部分输入上,解码器将执行以下内容:查看从编码器收到的所有隐藏状态,每个编码器隐藏状态都是和输入语句中的某个词最相关的,给每个隐藏状态分配一个分数,将每个隐藏状态与其softmax后的分数相乘,因此扩大了拥有高分数的隐藏状态,并缩小了低分数的隐藏状态。这个打分
的操作是在解码器侧的每一个时步都会执行。注意力机制使得模型可以按需要聚焦于输入序列中的相关部分,注意力网络会给每一个输入分配一个注意力权重,如果该输入与当前操作越相关则注意力权重越接近于1,反之则越接近于0,这些注意力权重在每一个输出步骤都会重新计算。参照图7,图7为本技术注意力机制的示意图;其中x为输入,y为输出,rnn(recurrent neural network)为循环神经网络,attention表示注意力层,tx为输入时间步骤的个数;ty为输出时间步骤的个数;attentioni为在输出时间步骤i的注意力权重;在注意力机制中,首先计算注意力权重,其中权重长度为tx,所有权重之和为1,具体计算过程如下公式所示:
117.attentioni=soft max(dense(x,y
i-1
))
118.进一步地,计算注意力权重和输入的乘积之和,得到的结果成为上下文,具体计算过程如下公式所示:
[0119][0120]
进一步地,将所得的上下文输入到本模型解码器的长短期记忆神经层中,具体计算过程如下公式所示:
[0121]
yi=lstm(ci)
[0122]
又参照图8,图8为本技术第四实施例中初始神经网络模型的应用示意图;具体地,首先由富媒体特征提取器将5g消息富媒体数据压缩至448*448格式大小后输入至初始神经网络模型中,利用模型中预训练的深度卷积神经网络vgg模型对5g消息富媒体数据中的图像进行预处理,抽取出图像的特征表示,将图像编码为固定长度的向量,将vgg模型的最后一个池化层作为输出,输出形状为512*14*14的图像特征向量矩阵v(即富媒体特征向量),其中14*14是图像区域的数量,512为图像每个区域的特征向量维度。同时,向对话上下文及卡片字段语义提取器中输入索引化后的文本,每条索引序列长度为l,因此该层输出数据的形状为(none,l);对5g消息对话中的上下文及消息卡片那个的字段名进行处理,例如对英文句子“what is your id number”进行处理,首先经过词嵌入层(word embedding):利用词嵌入将每个词转化为向量,输入数据维度为m,输出设置为需要将词转换为128维度的空间向量,输入序列长度为l,因此该层输出数据的形状为(none,l,128)。该层的作用是对输入的词进行向量映射,将每个词的索引转换为128维的固定形状向量;然后经过三个lstm层(每层含64个lstm神经元、激活函数为relu)和三个dropout层,从而提取出对话上下文及卡片字段文本特征向量q。进一步地,由于注意力机制就是通过结合富媒体图像和对话上下文及卡片字段二者的信息,生成一个关于图像各区域的注意力权重,对图像信息进行加权,从而实现将注意力放在图像的特定区域,注意力层根据对话上下文及卡片字段给富媒体图像各区域分配注意力权重,以此学习将更大的注意力权重分配给富媒体图像中那些和隐私数据更相关的区域,从而实现将注意力放在富媒体图像的潜在隐私区域。进一步地,初始神经网络模型中共包含2层全连接注意力层,每一层的操作如下:首先将富媒体图像的特征矩阵v和对话上下文及卡片字段的特征向量q输入至全连接神经网络层,其中矩阵和向量的加法是将矩阵的每一列与向量相加,最终输出ha,再将ha输入至softmax函数,输出图像各区域的注意力分布attentionv,具体如下公式所示:
[0123][0124]
attentionv=softmax(whha+bh)
[0125]
进一步地,根据注意力权重的分布来计算注意力权重attentioni与图像特征向量vi的乘积之和,具体如下公式所示:
[0126][0127]
其中全连接层(dense)构成:神经元个数设置为1,激活函数设置为“sigmoid”,输出该富媒体数据是否包含隐私数据(yi=1为包含,yi=0为不包含),得到富媒体隐私数据识别结果。然后计算预测结果和真实结果之间的误差,训练目标是最小化该误差。目标函数选择'binary_crossentropy'二值对数损失函数,具体如下公式所示;
[0128][0129]
在获取到训练数据集且初始神经网络模型也构建完成后,5g消息开放平台需要通过训练数据集中作为训练集的数据对初始神经网络模型进行训练,并在训练完成后通过训练数据集中作为测试集的数据对训练后的初始神经网络模型进行测试,以此得到当前最优的目标神经网络模型。
[0130]
进一步地,所述基于所述训练数据集对所述初始神经网络模型进行训练,得到目标神经网络模型的步骤包括:
[0131]
步骤s301,根据所述训练数据集中的训练集对所述初始神经网络模型进行训练,得到待测试神经网络模型;
[0132]
步骤s302,根据所述训练数据集中的测试集对所述待测试神经网络模型进行测试,得到目标神经网络模型。
[0133]
进一步地,5g消息开放平台将训练数据集中的训练集输入至初始神经网络模型中进行训练,具体地,将历史消息数据、历史消息数据对应的隐私数据识别结果以及隐私数据识别结果对应的标签输入至初始神经网络模型中,将训练回合数设置为1000(epochs=1000),梯度下降优化算法选择adam优化器用于改善传统梯度下降的学习速度(optimizer='adam'),神经网络通过梯度下降,可以到使目标函数最小的最优权重值,神经网络通过训练会自主学习到权重值,在完成训练后得到待测试神经网络模型。进一步地,5g消息开放平台将训练数据集中的测试集输入至训练后的待测试神经网络模型中进行模型的测试,具体地,通过测试集确定待测试神经网络模型是否收敛来对待测试神经网络模型进行评价与验证,当待测试神经网络模型收敛时导出其权重值,并将待测试神经网络模型确定为具有最优性能的目标神经网络模型。
[0134]
本实施例基于富媒体特征提取器、对话上下文及卡片字段语义提取器、全连接注意力层构建初始神经网络模型,再通过历史消息数据及其对应的隐私数据识别结果形成的数据集将初始神经网络模型训练成为目标神经网络模型,可以由富媒体特征提取器将富媒体图像通过深度卷积神经网络抽取出图像特征信息、由对话上下文及卡片字段语义提取器
将对话上下文及卡片字段通过lstm抽取出文本语义信息,最后结合提取的图像特征信息与文本语义信息,由全连接注意力层根据对话上下文及卡片字段给富媒体图像各区域分配注意力权重,从而实现将注意力放在图像的潜在隐私区域,以此提高隐私数据识别的准确性。
[0135]
进一步地,本技术还提供一种数据识别装置。
[0136]
参照图9,图9为本技术数据识别装置第一实施例的功能模块示意图。
[0137]
所述数据识别装置包括:
[0138]
预处理模块10,用于获取待识别消息数据并确定所述待识别消息数据的数据类型;
[0139]
提取模块20,用于通过目标神经网络模型根据所述数据类型对所述待识别消息数据进行信息提取,得到信息提取结果;
[0140]
识别模块30,用于基于所述信息提取结果对所述待识别消息数据进行隐私数据识别,得到识别结果。
[0141]
此外,本技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述数据识别方法各实施例的步骤。
[0142]
在本技术数据识别设备和计算机程序产品的实施例中,包含了上述数据识别方法各实施例的全部技术特征,说明和解释内容与上述数据识别方法各实施例基本相同,在此不做赘述。
[0143]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0144]
上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
[0145]
以上仅为本技术的优选实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。

技术特征:


1.一种数据识别方法,其特征在于,所述数据识别方法包括:获取待识别消息数据并确定所述待识别消息数据的数据类型;通过目标神经网络模型根据所述数据类型对所述待识别消息数据进行信息提取,得到信息提取结果;基于所述信息提取结果对所述待识别消息数据进行隐私数据识别,得到识别结果。2.如权利要求1所述的数据识别方法,其特征在于,所述数据类型包括图像数据类型与文本数据类型,所述通过目标神经网络模型根据所述数据类型对所述待识别消息数据进行信息提取,得到信息提取结果的步骤包括:若所述数据类型为图像数据类型,则通过所述目标神经网络模型的富媒体特征提取器对所述待识别消息数据进行图像特征提取,得到信息提取结果;若所述数据类型为文本数据类型,则通过所述目标神经网络模型的对话上下文及卡片字段语义提取器对所述待识别消息数据进行文本语义提取,得到信息提取结果。3.如权利要求1所述的数据识别方法,其特征在于,所述基于所述信息提取结果对所述待识别消息数据进行隐私数据识别,得到识别结果的步骤包括:将所述信息提取结果输入至所述目标神经网络模型的全连接注意力层;通过所述全连接注意力层基于所述信息提取结果对所述待识别消息数据进行隐私数据识别,得到识别结果。4.如权利要求1所述的数据识别方法,其特征在于,所述确定所述待识别消息数据的数据类型的步骤之后包括:根据所述待识别消息数据的数据类型将所述待识别消息数据输入相应的预处理器;基于所述预处理器对所述待识别消息数据进行预处理,得到预处理后的待识别消息数据。5.如权利要求1所述的数据识别方法,其特征在于,所述基于所述信息提取结果对所述待识别消息数据进行隐私数据识别,得到识别结果的步骤之后包括:根据所述识别结果确定所述待识别消息数据的加密措施;根据所述加密措施对所述待识别消息数据进行数据加密。6.如权利要求1所述的数据识别方法,其特征在于,所述获取待识别消息数据并确定所述待识别消息数据的数据类型的步骤之前,还包括:获取历史消息数据及所述历史消息数据对应的隐私数据识别结果,并由所述历史消息数据及所述历史消息数据对应的隐私数据识别结果形成训练数据集;基于富媒体特征提取器、对话上下文及卡片字段语义提取器、全连接注意力层构建初始神经网络模型;基于所述训练数据集对所述初始神经网络模型进行训练,得到目标神经网络模型。7.如权利要求6所述的数据识别方法,其特征在于,所述训练数据集包括训练集与测试集,所述基于所述训练数据集对所述初始神经网络模型进行训练,得到目标神经网络模型的步骤包括:根据所述训练数据集中的训练集对所述初始神经网络模型进行训练,得到待测试神经网络模型;根据所述训练数据集中的测试集对所述待测试神经网络模型进行测试,得到目标神经
网络模型。8.一种数据识别装置,其特征在于,所述数据识别装置包括:确定模块,用于获取待识别消息数据并确定所述待识别消息数据的数据类型;提取模块,用于通过目标神经网络模型根据所述数据类型对所述待识别消息数据进行信息提取,得到信息提取结果;识别模块,用于基于所述信息提取结果对所述待识别消息数据进行隐私数据识别,得到识别结果。9.一种数据识别设备,其特征在于,所述数据识别设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的数据识别程序,所述数据识别程序被所述处理器执行时实现如权利要求1-7中任一项所述的数据识别方法的步骤。10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的数据识别方法的步骤。

技术总结


本申请公开了一种数据识别方法、装置、设备及计算机程序产品,获取待识别消息数据并确定所述待识别消息数据的数据类型;通过目标神经网络模型根据所述数据类型对所述待识别消息数据进行信息提取,得到信息提取结果;基于所述信息提取结果对所述待识别消息数据进行隐私数据识别,得到识别结果。本申请在进行隐私数据识别之前先确定待识别消息数据的数据类型,以针对不同数据类型的待识别消息数据进行隐私数据识别,再由训练好的目标神经网络模型根据不同的数据类型对待识别消息数据进行信息提取,并通过信息提取结果对待识别消息数据进行隐私数据识别,有效提高隐私数据识别的准确性,实现准确地从类型多样的消息数据中识别出隐私数据。别出隐私数据。别出隐私数据。


技术研发人员:

邢彪 丁东 冯杭生 陈嫦娇

受保护的技术使用者:

中国移动通信集团有限公司

技术研发日:

2021.06.04

技术公布日:

2022/12/22

本文发布于:2024-09-21 22:01:21,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/45530.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   所述   消息   神经网络
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议