一种文本对象的识别方法及装置与流程



1.本技术涉及网络安全技术领域,尤其涉及一种文本对象的识别方法及装置。


背景技术:



2.随着互联网技术的快速发展,网络安全发挥着至关重要的作用。在检测网络上发生的动态事件是否为攻击事件时,目前一般通过对比动态事件中的实体与已知的攻击事件中的实体,或者对比动态事件中的实体与安全漏洞库中的安全漏洞是否相同或相似,从而确定动态事件是否为攻击事件。比如,若安全漏洞库中标记某一个地址为攻击源,且发生的动态事件中的源地址为该地址,则可以确定动态事件为攻击事件。
3.可以看出,快速地识别出动态事件以及攻击事件中包括的实体、确定实体的类型,对于动态事件的安全检测尤为重要。由于目前攻击事件或者动态事件的描述文本多为长难句,为了从描述文本中识别出用于描述事件实体的文本对象,现有技术中提出通过规则抽取的方法来识别出文本中包括的多个对象以及确定对象的类型,但是随着互联网的发展,描述文本的形式也变得多种多样,因此采用固定的规则抽取的方式并不适用于目前快速迭代的描述文本的对象类型识别。


技术实现要素:



4.本技术示例性的实施方式中提供一种文本对象的识别方法及装置,用以提升对于网络攻击事件或者动态事件中包括的对象进行类型识别的效率和准确率。
5.第一方面,本技术提出了一种文本对象的识别方法,包括:
6.响应于识别指令,提取网络事件的描述文本中包括的多个对象;
7.分别对所述多个对象进行特征提取,确定每个对象的特征矩阵;其中,任一对象的特征矩阵中的每个行向量用于表征所述任一对象的一种特征;
8.对所述任一对象的特征矩阵的每个列向量进行特征重提取生成所述每个列向量对应的中间矩阵,并对每个中间矩阵进行特征增强生成所述每个中间矩阵对应的目标向量;
9.将生成的多个目标向量组成的目标矩阵输入到预先训练好的类型预测模型中,确定所述任一对象所属的类型。
10.在一些实施例中,所述对所述任一对象的特征矩阵的每个列向量进行特征重提取生成所述每个列向量对应的中间矩阵,包括:
11.获取预先设置的多个卷积核;
12.依次采用所述多个卷积核对任一列向量进行卷积计算,得到所述任一列向量对应的中间矩阵。
13.在一些实施例中,所述对每个中间矩阵进行特征增强生成所述每个中间矩阵对应的目标向量,包括:
14.采用1*1的卷积核,依次对任一中间矩阵包括的多个行向量进行卷积计算;
15.将所述多个行向量分别对应的计算结果组合为所述任一中间矩阵对应的目标向量。
16.在一些实施例中,所述分别对所述多个对象进行特征提取,确定每个对象的特征矩阵,包括:
17.将所述任一对象输入到预先训练好的特征提取模型中,输出所述任一对象的特征矩阵。
18.在一些实施例中,所述特征提取模型包括表层特征提取模块、句法特征提取模块和语义特征提取模块;所述将所述任一对象输入到预先训练好的特征提取模型中,输出所述任一对象的特征矩阵,包括:
19.采用所述表层特征提取模块提取所述任一对象的表层特征,输出所述任一对象的表层特征向量;
20.采用所述句法特征提取模块提取所述任一对象的句法特征,输出所述任一对象的句法特征向量;
21.采用所述语义特征提取模块提取所述任一对象的语义特征,输出所述任一对象的语义特征向量;
22.根据所述表层特征向量、所述句法特征向量和所述语义特征向量,确定所述任一对象的特征矩阵。
23.第二方面,本技术提出了一种文本对象的识别装置,所述装置包括:
24.特征处理单元,被配置为执行:
25.响应于识别指令,提取网络事件的描述文本中包括的多个对象;
26.分别对所述多个对象进行特征提取,确定每个对象的特征矩阵;其中,任一对象的特征矩阵中的每个行向量用于表征所述任一对象的一种特征;
27.对所述任一对象的特征矩阵的每个列向量进行特征重提取生成所述每个列向量对应的中间矩阵,并对每个中间矩阵进行特征增强生成所述每个中间矩阵对应的目标向量;
28.类型预测单元,用于将生成的多个目标向量组成的目标矩阵输入到预先训练好的类型预测模型中,确定所述任一对象所属的类型。
29.在一些实施例中,所述特征处理单元,具体用于:
30.获取预先设置的多个卷积核;
31.依次采用所述多个卷积核对任一列向量进行卷积计算,得到所述任一列向量对应的中间矩阵。
32.在一些实施例中,所述特征处理单元,具体用于:
33.采用1*1的卷积核,依次对任一中间矩阵包括的多个行向量进行卷积计算;
34.将所述多个行向量分别对应的计算结果组合为所述任一中间矩阵对应的目标向量。
35.在一些实施例中,所述特征处理单元,具体用于:
36.将所述任一对象输入到预先训练好的特征提取模型中,输出所述任一对象的特征矩阵。
37.在一些实施例中,所述特征提取模型包括表层特征提取模块、句法特征提取模块
和语义特征提取模块;所述特征处理单元,具体用于:
38.采用所述表层特征提取模块提取所述任一对象的表层特征,输出所述任一对象的表层特征向量;
39.采用所述句法特征提取模块提取所述任一对象的句法特征,输出所述任一对象的句法特征向量;
40.采用所述语义特征提取模块提取所述任一对象的语义特征,输出所述任一对象的语义特征向量;
41.根据所述表层特征向量、所述句法特征向量和所述语义特征向量,确定所述任一对象的特征矩阵。
42.第三方面,提供了一种电子设备,所述电子设备包括控制器和存储器。存储器用于存储计算机执行指令,控制器执行存储器中的计算机执行指令以利用控制器中的硬件资源执行第一方面任一种可能实现的方法的操作步骤。
43.第四方面,提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
44.本技术提出对网络事件的描述文本中的各对象进行多维度的特征提取,得到每个对象的特征矩阵。基于特征矩阵中的列向量为同维度的特征数据这一特点,对列向量进行特征重提取,深层次地增强提取的特征。进而为了便于进行类型预测,本技术还提出了可以对扩充后得到的多通道的特征数据聚合为单通道,得到单通道的特征数据,采用单通道的数据进行类型预测。本技术的方案充分提取出了对象的特征,根据特征预测对象的类型,有效提升了网络事件文本对象的类型识别的准确率。另外,本技术还将深度学习模型应用到了类型预测的过程中,可以适应目前快速迭代的描述文本的类型识别需求,提升类型识别的效率,从而可以及时地锁定攻击事件并及时告警。
附图说明
45.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
46.图1为本技术实施例提供的一种文本对象的识别方法流程图;
47.图2为本技术实施例提供的一种特征提取过程示意图;
48.图3为本技术实施例提供的一种特征重提取的过程示意图;
49.图4为本技术实施例提供的一种文本对象的识别装置的结构示意图;
50.图5为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
51.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
52.需要说明的是,本技术中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应所述理解这样使用的数据在适当情况下可以互换,以
便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
53.威胁情报作为网络安全中的一份子,可以用于相关企业内部进行潜在攻击的预测以及阻止攻击事件的发生,威胁情报在事前可以起到预警的作用,在攻击事件发生时可以协助进行检测和响应,在事后可以用于分析和定位攻击源头。为了保证威胁情报能够起到上述作用,则需要准确地检测出已知的攻击事件的威胁情报中包括的实体,以及准确地检测出当前发生的动态事件的描述文本中包括的实体,通过实体比对的方式确定当前发生或者已经发生的动态事件是否为攻击事件。因此,如何从攻击事件或者动态事件中准确、快速地识别出实体就变得尤为重要了,其中实体可以包括攻击方式、区域、攻击时间等。
54.目前,无论是从攻击事件中识别实体的类型还是从动态事件中识别实体的类型,都需要先从事件的描述文本中识别出相应的文本对象,然后确定各个对象的类别。由于目前网络事件的描述文本多为英文的长难句,因此在进行识别时,相关技术中提出了通过预先设定的规则与描述文本进行匹配,确定匹配成功文本对象的类型。但是随着互联网的发展,描述文本千变万化,比如描述文本中的攻击类型越来越多,因此固定的规则匹配的方式并不适用于现有的描述文本。
55.有鉴于此,本技术提出了一种文本对象的识别方法及装置,通过对描述文本进行特征提取来识别描述文本中各个对象的类型,能够适应于当前快速迭代的描述文本的识别需求。本技术提出对描述文本中包括的对象进行特征提取得到每个对象的特征矩阵,并基于特征矩阵中的列向量为同维度的特征数据这一点,对列向量进行进一步地特征重提取,深层次地增强提取的特征,从而保证能够根据特征预测出准确的对象的类型。
56.可选地,本技术的方案可以应用于多种场景:
57.在一种可能实现的场景中,本技术的方案可以用于构建攻击检测系统,可以快速地从已知的攻击事件中和识别出其中包括的各种类型的对象,针对各对象所属的类型对各类对象进行存储,使得用户可以清晰地了解当前攻击事件的具体信息情况,从而能够针对性地给出解决方案。可选地,还可以将用户输入的解决方案与攻击事件中各对象的类型进行关联存储,从而在下一次发生相同或者相似攻击事件时,可以快速地输出解决方案。
58.在另一种可能实现的场景中,本技术的方案还可以用于日常运维过程中快速锁定攻击事件并做出响应。可选地,可以采用本技术的方案对当前网络中发生的动态事件进行检测,识别出其中的各类型的对象。进而可以按照基于识别出的类型,对比当前动态事件中的对象和已知的攻击事件的对象,或者对比当前动态事件包括的对象和漏洞库中的安全漏洞,从而快速地评估当前的威胁情况,生成告警信息并提供相应的应对措施,提升技术人员日常运维的效率。
59.需要说明的是,本技术的方案并不限于上述两种场景,上述两种场景仅作为示例性地描述,并不作为对于本技术方案的限定。
60.以下,结合上述两种可能实现的场景对本技术的方案进行具体介绍。本技术下述实施例中,“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b的情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的
这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式,除非其上下文中明确地有相反指示。以及,除非有相反的说明。
61.在本技术说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本技术的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
62.参见图1,为本技术实施例提供的一种文本对象的识别方法流程图。可选地,图1所示的方法流程可以由服务器或者服务器集来实现,或者也可以由任意终端设备,比如个人计算机等电子设备来执行,或者该方法流程还可以由计算平台、计算平台的芯片系统或者计算平台的处理器来执行,本技术对于图1所示的方法流程的执行主体不作具体限定。图1所示的方法流程具体包括:
63.101,响应于识别指令,提取网络事件的描述文本中包括的多个对象。
64.可选地,识别指令可以是运维人员输入的,或者也可以是周期性地或者非周期性地触发的,比如可以每间隔设定周期获取一次网络中发生的动态事件,或者也可以实时获取动态事件进行识别。进一步地,可以提取网络事件的描述文本中包括的多个对象,作为一种可选的方式,可以采用bio标注的方式提取出描述文本中包括的多个对象。
65.102,分别对多个对象进行特征提取,确定每个对象的特征矩阵。
66.可选地,可以预先设置并训练特征提取模型,将多个对象分别输入到特征提取模型中,输出每个对象对应的特征矩阵。其中,任一对象的特征矩阵中的每个行向量用于表征该任一对象的一种特征。比如,任一对象的特征矩阵的某一个行向量可以用于表征该对象的语义特征。不同的行向量可以表征该任一对象不同的特征,不同的列向量可以表征该任一对象不同维度的特征数据。
67.103,对任一对象的特征矩阵的每个列向量进行特征重提取,生成每个列向量对应的中间矩阵。
68.本技术基于每个列向量的数据表征的是对象在同一维度的特征数据,提出将对象的特征矩阵中的每个列向量进行特征重提取,深层次地提取每个维度上的特征,得到每个列向量对应的中间矩阵。
69.104,对每个中间矩阵进行特征增强,生成每个中间矩阵对应的目标向量。
70.根据上述步骤103可以得到多个通道的特征数据,进一步地,可以将多通道聚合为单通道,得到单通道的特征数据,即生成每个中间矩阵对应的目标向量。
71.105,将生成的多个目标向量组成的目标矩阵输入到预先训练好的类型预测模型中,确定任一对象所属的类型。
72.可选地,该类型预测模型可以采用深度学习模型(比如可以采用bilstm-crf模型),在对该模型进行训练时,所使用的训练集中可以包括不同类型的对象的目标矩阵,以及对应的类型标签,将不同类型的对象的目标矩阵作为模型的输入,将对应改的类型标签
作为模型输出,对模型进行训练。
73.进一步地,在使用类型预测模型时,可以将需要进行预测的任一对象的目标矩阵输入到模型中,从而模型可以准确地输出该任一对象的类型标签。
74.基于上述方案,本技术提出对网络事件的描述文本中的各对象进行多维度的特征提取,得到每个对象的特征矩阵。基于特征矩阵中的列向量为同维度的特征数据这一特点,对列向量进行特征重提取,深层次地增强提取的特征。进而为了便于进行类型预测,本技术还提出了可以对扩充后得到的多通道的特征数据进行聚合得到单通道的特征数据,采用单通道的数据进行类型预测。本技术的方案充分提取出了对象的特征,根据特征预测对象的类型,有效提升了网络事件文本对象的类型识别的准确率。另外,本技术还将深度学习模型应用到了类型预测的过程中,可以适应目前快速迭代的描述文本的类型识别需求,提升类型识别的效率,从而可以及时地锁定攻击事件并及时告警。
75.作为一种可选的方式,在获取到待识别的网络事件的描述文本后,可以通过bio标注的方式提取出其中的多个对象。其中,b代表一个对象的开头,i代表一个对象除开头外其他的位置,o代表其他的对象(比如不关注的对象)。可选地,还可以对描述文本进行预处理,比如可以清除长度与标注的长度不匹配的描述文本。
76.进一步地,在对提取出的对象进行特征提取时,可以采用预先预训练好的特征提取模型(比如可以采用roberta模型)来对每个对象进行多维度的特征提取。可选地,特征提取模型中不同的网络层可以用于提取不同的特征。比如可以参见图2所示的特征提取过程,特征提取模型可以包括表层特征提取模块、句法特征提取模块和语义特征提取模块,在对任一对象进行特征提取时,可以采用表层特征提取模块提取任一对象的表层特征,输出任一对象的表层特征向量;采用句法特征提取模块提取任一对象的句法特征,输出任一对象的句法特征向量;采用语义特征提取模块提取任一对象的语义特征,输出任一对象的语义特征向量。进一步地,可以将三个向量组成该任一向量的特征矩阵。在一些实施例中,在采用特征提取模型对任一对象进行特征提取之前,还可以先根据模型的输入尺寸对任一对象的长度进行裁剪。
77.需要说明的是,本技术对于不同特征提取的顺序以及提取的特征的种类不作限定,上述图2中介绍的特征提取过程仅作为一种示例。一种可能实现的方式中,可以设置特征提取模型的1-4层用于提取表层特征,可以作为表层特征提取模块,5-8层用于提取句法特征,可以作为句法特征提取模块,9-12层用于提取语义特征,可以作为语义特征提取模块。
78.在一些实施例中,在对任一对象进行特征提取得到任一对象的特征矩阵后,可以对特征矩阵的进行特征增强,比如可以采用语义卷积(semantic convolutional neural network,scnn)方法实现特征的增强。以下,对采用scnn进行特征增强的过程进行具体介绍。可选地,可以对特征矩阵中的每一个列向量进行特征重提取,得到多通道的特征数据,再将多通道聚合为单通道的特征数据,从而实现特征的增强。在一种可能实现的方式中,在对特征矩阵的任一列向量进行特征重提取时,可以首先获取预先设置的多个卷积核,以此采用多个卷积核对该任一列向量进行卷积计算,得到该任一列向量对应的中间矩阵。其中不同的卷积核可以关注不同的特征空间。为了便于理解特征重提取的过程,参见图3,为本技术示例性地以一个列向量为例展示了该列向量通过多核卷积计算得到中间矩阵的过程,
图3中的(a)为原列向量,图3中的(b)为扩充后得到的中间矩阵,其中k为进行卷积计算的卷积核的数量。
79.进一步地,为了便于进行对象类型的预测,在特征重提取得到多通道的特征数据之后,还可以进一步对多通道的特征数据聚合为单通道的特征数据,从而得到每个中间矩阵对应的目标向量。一种可选的方式中,可以采用1*1的卷积核,对任一中间矩阵包括的多个行列向量进行卷积计算,将每个行向量对应的计算结果组合为该任一中间矩阵对应的目标向量,从而保证目标向量能够充分表达对象在多个维度上的特征。
80.可选地,可以将生成的多个目标向量组成目标矩阵,将目标矩阵输入到训练好的类型预测模型(比如可以采用bilstm-crf)中,输出用于表征对象所属类型的标签。
81.基于与上述方法的同一构思,参见图4,为本技术实施例提供的一种文本对象的识别装置400,装置400用于实现上述方法中的各个步骤,为了避免重复,此处不再进行赘述。装置400包括:特征处理单元401和类型预测单元402。
82.特征处理单元401,被配置为执行:
83.响应于识别指令,提取网络事件的描述文本中包括的多个对象;
84.分别对所述多个对象进行特征提取,确定每个对象的特征矩阵;其中,任一对象的特征矩阵中的每个行向量用于表征所述任一对象的一种特征;
85.对所述任一对象的特征矩阵的每个列向量进行特征重提取生成所述每个列向量对应的中间矩阵,并对每个中间矩阵进行特征增强生成所述每个中间矩阵对应的目标向量;
86.类型预测单元402,用于将生成的多个目标向量组成的目标矩阵输入到预先训练好的类型预测模型中,确定所述任一对象所属的类型。
87.在一些实施例中,所述特征处理单元401,具体用于:
88.获取预先设置的多个卷积核;
89.依次采用所述多个卷积核对任一列向量进行卷积计算,得到所述任一列向量对应的中间矩阵。
90.在一些实施例中,所述特征处理单元401,具体用于:
91.采用1*1的卷积核,依次对任一中间矩阵包括的多个行向量进行卷积计算;
92.将所述多个行向量分别对应的计算结果组合为所述任一中间矩阵对应的目标向量。
93.在一些实施例中,所述特征处理单元401,具体用于:
94.将所述任一对象输入到预先训练好的特征提取模型中,输出所述任一对象的特征矩阵。
95.在一些实施例中,所述特征提取模型包括表层特征提取模块、句法特征提取模块和语义特征提取模块;所述特征处理单元401,具体用于:
96.采用所述表层特征提取模块提取所述任一对象的表层特征,输出所述任一对象的表层特征向量;
97.采用所述句法特征提取模块提取所述任一对象的句法特征,输出所述任一对象的句法特征向量;
98.采用所述语义特征提取模块提取所述任一对象的语义特征,输出所述任一对象的
语义特征向量;
99.根据所述表层特征向量、所述句法特征向量和所述语义特征向量,确定所述任一对象的特征矩阵。
100.图5示出了本技术实施例提供的电子设备500结构示意图。本技术实施例中的电子设备500还可以包括通信接口503,该通信接口503例如是网口,电子设备可以通过该通信接口503传输数据。
101.在本技术实施例中,存储器502存储有可被至少一个控制器501执行的指令。至少一个控制器501通过执行存储器502存储的指令,可以用于执行上述方法中的各个步骤,例如,控制器501可以实现上述图4中的特征处理单元401和类型预测单元402的功能。
102.其中,控制器501是电子设备的控制中心,可以利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器502内的指令以及调用存储在存储器502内的数据。可选的,控制器501可包括一个或多个处理单元,控制器501可集成应用控制器和调制解调控制器,其中,应用控制器主要处理操作系统和应用程序等,调制解调控制器主要处理无线通信。可以理解的是,上述调制解调控制器也可以不集成到控制器501中。在一些实施例中,控制器501和存储器502可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
103.控制器501可以是通用控制器,例如中央控制器(英文:central processing unit,简称:cpu)、数字信号控制器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本技术实施例中公开的各方法、步骤及逻辑框图。通用控制器可以是微控制器或者任何常规的控制器等。结合本技术实施例所公开的数据统计平台所执行的步骤可以直接由硬件控制器执行完成,或者用控制器中的硬件及软件模块组合执行完成。
104.存储器502作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器502可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(英文:random access memory,简称:ram)、静态随机访问存储器(英文:static random access memory,简称:sram)、可编程只读存储器(英文:programmable read only memory,简称:prom)、只读存储器(英文:read only memory,简称:rom)、带电可擦除可编程只读存储器(英文:electrically erasable programmable read-only memory,简称:eeprom)、磁性存储器、磁盘、光盘等等。存储器502是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本技术实施例中的存储器502还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
105.通过对控制器501进行设计编程,例如,可以将前述实施例中介绍的神经网络模型的训练方法所对应的代码固化到芯片内,从而使芯片在运行时能够执行前述的神经网络模型训练方法的步骤,如何对控制器501进行设计编程为本领域技术人员所公知的技术,这里不再赘述。
106.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机
可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
107.本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的控制器以产生一个机器,使得通过计算机或其它可编程数据处理设备的控制器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
108.这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
109.这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
110.尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
111.显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。

技术特征:


1.一种文本对象的识别方法,其特征在于,所述方法包括:响应于识别指令,提取网络事件的描述文本中包括的多个对象;分别对所述多个对象进行特征提取,确定每个对象的特征矩阵;其中,任一对象的特征矩阵中的每个行向量用于表征所述任一对象的一种特征;对所述任一对象的特征矩阵的每个列向量进行特征重提取生成所述每个列向量对应的中间矩阵,并对每个中间矩阵进行特征增强生成所述每个中间矩阵对应的目标向量;将生成的多个目标向量组成的目标矩阵输入到预先训练好的类型预测模型中,确定所述任一对象所属的类型。2.根据权利要求1所述的方法,其特征在于,所述对所述任一对象的特征矩阵的每个列向量进行特征重提取生成所述每个列向量对应的中间矩阵,包括:获取预先设置的多个卷积核;依次采用所述多个卷积核对任一列向量进行卷积计算,得到所述任一列向量对应的中间矩阵。3.根据权利要求1或2所述的方法,其特征在于,所述对每个中间矩阵进行特征增强生成所述每个中间矩阵对应的目标向量,包括:采用1*1的卷积核,依次对任一中间矩阵包括的多个行向量进行卷积计算;将所述多个行向量分别对应的计算结果组合为所述任一中间矩阵对应的目标向量。4.根据权利要求1或2所述的方法,其特征在于,所述分别对所述多个对象进行特征提取,确定每个对象的特征矩阵,包括:将所述任一对象输入到预先训练好的特征提取模型中,输出所述任一对象的特征矩阵。5.根据权利要求4所述的方法,其特征在于,所述特征提取模型包括表层特征提取模块、句法特征提取模块和语义特征提取模块;所述将所述任一对象输入到预先训练好的特征提取模型中,输出所述任一对象的特征矩阵,包括:采用所述表层特征提取模块提取所述任一对象的表层特征,输出所述任一对象的表层特征向量;采用所述句法特征提取模块提取所述任一对象的句法特征,输出所述任一对象的句法特征向量;采用所述语义特征提取模块提取所述任一对象的语义特征,输出所述任一对象的语义特征向量;根据所述表层特征向量、所述句法特征向量和所述语义特征向量,确定所述任一对象的特征矩阵。6.一种文本对象的识别装置,其特征在于,所述装置包括:特征处理单元,被配置为执行:响应于识别指令,提取网络事件的描述文本中包括的多个对象;分别对所述多个对象进行特征提取,确定每个对象的特征矩阵;其中,任一对象的特征矩阵中的每个行向量用于表征所述任一对象的一种特征;对所述任一对象的特征矩阵的每个列向量进行特征重提取生成所述每个列向量对应的中间矩阵,并对每个中间矩阵进行特征增强生成所述每个中间矩阵对应的目标向量;
类型预测单元,用于将生成的多个目标向量组成的目标矩阵输入到预先训练好的类型预测模型中,确定所述任一对象所属的类型。7.根据权利要求6所述的装置,其特征在于,所述特征处理单元,具体用于:获取预先设置的多个卷积核;依次采用所述多个卷积核对任一列向量进行卷积计算,得到所述任一列向量对应的中间矩阵。8.根据权利要求6或7所述的装置,其特征在于,所述特征处理单元,具体用于:采用1*1的卷积核,依次对任一中间矩阵包括的多个行向量进行卷积计算;将所述多个行向量分别对应的计算结果组合为所述任一中间矩阵对应的目标向量。9.根据权利要求6或7所述的装置,其特征在于,所述特征处理单元,具体用于:将所述任一对象输入到预先训练好的特征提取模型中,输出所述任一对象的特征矩阵。10.根据权利要求9所述的装置,其特征在于,所述特征提取模型包括表层特征提取模块、句法特征提取模块和语义特征提取模块;所述特征处理单元,具体用于:采用所述表层特征提取模块提取所述任一对象的表层特征,输出所述任一对象的表层特征向量;采用所述句法特征提取模块提取所述任一对象的句法特征,输出所述任一对象的句法特征向量;采用所述语义特征提取模块提取所述任一对象的语义特征,输出所述任一对象的语义特征向量;根据所述表层特征向量、所述句法特征向量和所述语义特征向量,确定所述任一对象的特征矩阵。11.一种电子设备,其特征在于,包括:存储器以及控制器;存储器,用于存储程序指令;控制器,用于调用所述存储器中存储的程序指令,按照获得的程序执行权利要求1-5中任一项所述的方法。12.一种计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行如权利要求1-5中任一所述的方法。

技术总结


本申请公开了一种文本对象的识别方法及装置,用以提升对于网络攻击事件或者动态事件中包括的对象进行类型识别的效率和准确率。该方法包括:响应于识别指令,提取网络事件的描述文本中包括的多个对象;分别对多个对象进行特征提取,确定每个对象的特征矩阵;其中,任一对象的特征矩阵中的每个行向量用于表征任一对象的一种特征;对任一对象的特征矩阵的每个列向量进行特征重提取生成每个列向量对应的中间矩阵,并对每个中间矩阵进行特征增强生成每个中间矩阵对应的目标向量;将生成的多个目标向量组成的目标矩阵输入到预先训练好的类型预测模型中,确定任一对象所属的类型。确定任一对象所属的类型。确定任一对象所属的类型。


技术研发人员:

苏卓 周涛 马尚荣 陈林 孙安吉

受保护的技术使用者:

天翼安全科技有限公司

技术研发日:

2022.12.23

技术公布日:

2023/3/10

本文发布于:2024-09-24 07:22:12,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/69860.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   所述   向量   对象
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议