基于BERT-BiGRU-ATT的社交媒体用户身份识别研究

中国人民公安大学学报(自然科学版)
2021年第1期No.12021Journal of People's Public Security University of China(Science and Technology)总第107期Sum107基于BERT-BiGRU-ATT的社交媒体用户身份识别研究
张翼翔,芦天亮,李默
(中国人民公安大学信息网络安全学院,北京100038)
摘要随着互联网井喷式发展,社交媒体发展迅猛,但是伴随网络匿名特性出现的失范现象时有发生,如何准确判定社交媒体用户从属问题亟待解决。目前社交媒体信息载体多以短文本为主,语法语义过于灵活,难以准确获得文本特征向量。传统短文作者识别多采用人工建模的方式对文本特征加以提取,设计纷繁复杂。结合深度学习的方法,提出BERT-BiGRU-ATT短文本作者身份识别模型。该模型对中文短文本使用BERT中文预训练模型生成字符向量,利用双向门控循环单元(BiGRU)结合注意力机制高效捕获序列上下文特征,最终通过A-softmax分类器实现文本作者的识别。在制作的中文微博短文本数据集上的实验结果表明,BERT-BiGRU-ATT模型与其他模型相比,在中文短文本作者识别的准确率上取得较好的成绩,其F1值达到93.6%的精度。
关键词BERT预训练模型;双向门控循环单元;作者识别;注意力机制;短文本
中图分类号D035.39文献标志码A
Research on Social Media User Identity Recognition Based on
BERT-BiGRU-ATT
ZHANG Yixiang,LU Tianliang,LI Mo
(School of Information Cyber Security,People's Public Security University of China,Beijing100038,China)
Abstract:With the blowout development of the Internet,social media has developed rapidly,but the an­omie phenomenon that accompanies the anonymity of the network has occurred from time to time.How to accurately determine the affiliation of social media users needs to be solved urgently.At present,social media information carriers are mostly short texts,and their syntax and semantics are too flexible,and it is difficult to accurately obtain text feature vectors.Traditional short text author recognition uses manual modeling to extract text features,and the design is complicated.Combined with deep learning methods,a BERT-BIGRU-ATT short text author identification model is proposed.This model uses BERT Chinese pre-training model to generate character vectors for Chine
se short texts,and uses Bi-Gated Recurrent Unit (BiGRU)combined with the attention mechanism to efficiently capture sequence context features,and fi­nally realizes the recognition of the text author through the A-softmax classifier.The experimental results on the produced Chinese Weibo short text data set show that compared with other models,the BERT-BIG-RU-ATT model has achieved better results in the accuracy of Chinese short text author recognition,with an F1value of93.6%.
Key words:BERT pre-training model;BiGRU;identity recognition;attention mechanism;short text
收稿日期基金项目作者简介通信作者2020-10-29
中国人民公安大学研究生科研项目(2020ssky008)。
张翼翔(1996—),男,江苏南京人,在读硕士研究生。研究方向为网络空间安全芦天亮(1985—),男,博士,副教授,E-mail:ltl135@126
-70-
0引言
近年来,伴随着互联网的兴起与飞速发展,人们的生活维度随之拓宽,社会活动轨迹不仅限于自然社会,网络空间逐渐演变成为人类社会的“第二类生存空间”。层见叠出的信息互联技术,譬如、即时通讯工具、论坛、社交媒体、博客等,带给人们更快、更加有效的方式进行信息交流交换。据Global Web Index(GWI)发布的2020年第一季度《社交媒体趋势报告》显示,全球网民中有63%的用户社交媒体持续在线,高于2019年的56%,这一趋势还将继续上升。由此可见,社交媒体已经成为人们日常生活中越来越重要的工具。
由于网络传播具有匿名性与高效性等特点,近些年互联网犯罪数量呈指数级别增长,网络空间失范现象时有发生。同时,社交媒体目前正在成为网民表达诉求、反映民意的重要节点,但也逐渐成为宣泄情绪、散播负面信息的场所,更有甚者成为各政治力量同台竞技的新舞台。
通过识别社交媒体用户,关联同一自然人的不同虚拟身份,有助于降低网络匿名性带来的风险,协助网络监管者的监管活动,保护公民合法权益。目前如微博,推特等主流社交媒体平台由于其及时性,碎片性特点,使得平台信息载体多为短文本。短文本的内容简短、主题多元化、语法表达具有随意性等特点导致已有长文本识别模式无法应用于短文本上,也同时导致短文本的特征提取更加困难。本文的方法将使用BERT[1]预训练模型,结合门控循环单元网络(GRU)并引入注意力机制,实现对短文本作者的分类。加以实验证明该方法在短文本作者识别问题上具有较高准确率。
1相关工作
关于文本作者身份分析的研究最初起源于语言学研究领域关于文体即文学风格[2]的归纳分析。由于社交网络的增长,越来越多关于作者识别的研究集中在网络文本的分析上。Mohtasseb等人[3]结合了心理学的工具语言探索与字词技术(LIWC)首次对博客作者进行识别。Pillay等人⑷针对网络论坛文本采用无监督与有监督学习相结合的方法训练出分类器实现了论坛发文作者的识。Cristani等人[5]基于二元聊天对话语料库,采用由会话提炼的特征值进行分析,从而识别出文本作者。Inches等人[6]首次使用统计数据研究会话文档完成在线即时聊天的作者归属问题研究。Hollingsworth[7]提出以一种基于最相邻词频排名的作者识别方法,使用DepWords代替原文标记单词以发掘单词间依赖关系对于作者识别的帮助,并在小说作者识别上得到较好反馈。但上述研究主要针对英文语料,不适用于处理中文文本。雨棚梁
国内学者针对中文文本开展了大量的研究,起初关于文本作者识别研究的主要对象偏向于长文本,如长篇文章或书籍作者的判定。王少康等人[8]以文章语句节奏控制角度为切入点,构建节奏特征矩阵,采用KL距离算法于点积法的结合衡量矩阵差异,提出最优区拟合的中轴线提取算法。李晓军等人⑼将复杂网络理论引入利用文本特征的作者识别研究领域,选取新闻报道文章做数据集,构造复杂网络模型提取文本特征,利用文本风格相似度识别作者身份。Tang等人[10]选择押韵,体裁,叠词等特征采取监督机器学习,实现小说作者与多位诗歌作家的同一作者认定。
但是,上述方法也存在弊端,在面对篇幅小、表述方式灵活的短文本时,以文体风格为主的研究便显
得捉襟见肘。由于社交媒体的蓬勃发展,其信息载体大多为短文本,于是针对短文本作者身份识别的研究应运而生。祈瑞华等人[11]面向短文本博客,抽取字符、词汇、句法等特征建立多层面文体风格特征的模型并验证了该方法的准确性。Yang等人[12]提出一种对时间信息及单词顺序较为敏感的主题漂移模型(TDM)从写作风格和主题方向入手来完成作者识别任务。Zhang等人[13]将文本中语句的语法解析树编码得到分布式表示,即为每个词构造与之唯一对应的嵌入向量,将路径编码置于该单词对应的语法树中,并将获得的向量输入CNN模型中完成文本作者的认定并取得较好成效。徐晓霖等人[14]采用深度学习的方法提出了CABLSTM模型,可高质量完成中文微博作者识别任务。冯勇等人[15]提出了融合中文FastText、融合词频-逆文本频率及隐含狄利克雷分布的短文本分类方法,在中文短文本分类上有较高精确率。
在以上针对短文本作者识别的研究中,文本特征提取起到至关重要的作用。在现有研究中,特征提取多以人工特征建模为主,需要复杂的设计处理。部分研究结合深度学习,使用词嵌入(word embed-ding)的方式取加权平均对短文本进行特征提取,但
在线检测仪表
-71-
该方法最大的弊端是无法处理多义词。结合近几年 兴起的采用神经网络识别作者的思路,本文提出了
采用BERT 模型提取短文本特征生成词向量,利用
带有注意力机制的双向GRU 网络进行训练,最终通
过 A-softmax  分类器进行分类的作者识别模型。
2社交媒体作者身份识别模型
本文提出的身份识别模型结构分为4层:文本
输入层、Bi-GRU 层、自注意力机制层以及A-softmax  分类层。BERT-BiGRU-ATT 短文本作者识别模型结
构如图 1 所示。| A-softmax
图1 BERT-BiGRU-ATT 模型结构
文本输入层中针对短文本作者识别中文本特征 提取难度较大的情况,为避免复杂的特征设计,针对 中文文本利用预训练的BERT 模型生成特征向量。
将上述高质量的向量输入下游模型。
在文本深层次信息提取中采用了 Bi-GRU 神经 网络作为下游模型,GRU 是目前较为流行的循环神 经网络(RNN)的一种,在LSTM 的基础上诞生,适用
于学习长期依赖。它相较LSTM 而言训练参数更 少,训练更快且需要更少的数据来泛化,十分贴合短
文本作者识别的特点,本文采用的Bi-GRU 由正向
GRU 和逆向GRU 组合而成,其优点在可很好地理燃油调压阀
解文本上下文信息,捕获文本语境特征。
注意力机制层对Bi-GRU 提取到的特征向量加
以优化,更好地为重要信息内容分配权重的同时获
得文本的更深层特征。
最后将得到的特征向量输入A-softmax 层进行
分类,完成短文本作者的识别。
2. 1 BERT  模型
BERT 模型是谷歌人工智能研究团队于2018
年提出的里程碑式无监督预训练语言模型,其英文
全称为 Bidirectional  Encoder  Representation  from  Transformers ,即来自Transformer 的双向编码器表
示。Transformer 由编码器与解码器组成,是一种使
用注意力机制搭建的序列到序列模型,能注意输入
序列的不同位置以计算该序列表示能力。而BERT
模型从名称上不难看出是一个用双向多层Trans ­former  编码器作为特征提取器的预训练模型,其结
构如图 2 所示。
图2 BERT 模型结构
◎.80
多媒体控制器Transformer
此前的语言训练模型(例如Word2Vec)都是单
向的,只能从左至右或从右至左,无法得到整个文本
的综合特征信息,这导致面对单词多义情况时容易
出错,而BERT 能很好解决这一问题。BERT 在预
训练方法上采用两个非监督训练任务,分别为遮盖
语言建模(Masked  LM)与下一句预测(Next  sentence
prediction) 。
2. 1. 1 遮盖语言建模
该任务可以简单概括为随机屏蔽部分输入的单
词,然后根据未被屏蔽的内容对已屏蔽的单词实现
-72
-管式直线电机
预测。在训练过程中随机屏蔽15%的单词,考虑到屏蔽标记对模型的影响,在这15%的单词中随机挑选十分之一替换成其他单词,五分之四被替换为“[MASK]”字符,剩下的维持原状。
2-1.2下一句预测
该任务可以概括成判断连续的两句话中的第二句话是否紧随前句。其目的在于让模型更好理解两个句子之间的联系,提高上下文把控能力。
2.2双向门控循环单元网络
GRU是循环神经网络的一种[16],是对LSTM的改进产物。GRU对LSTM的结构进行精简,将LSTM中的输入门与遗忘门合并为更新门,并与重置门共同组成GRU单元。故相较LSTM,GRU在同等算力下训练时间大大减少,GRU单元结构如图3所示。
图3GRU单元结构
图中的更新门表示为,r,代表重置门。更新门的作用在于控制上一时刻带至当前时刻的状态信息量,更新门的值大小与状态信息带入量成正相关。重置门的作用在于控制前一状态写入到当前的候选
集h t量的多少,即h t_1对寛的重要性,重置门大小与前一状态的信息写入量同样成正比。GRU单元状态的计算公式如下:
z t=滓(叫[h t_1,%t]+b z)(1)
r t=滓(w r[h t_1,%t]+b r)(2)
h t=tanh(w h[r t h t_1]+b h)(3)
h t=(1-z t)h t_1+z t h t(4)
上述式中滓为sigmod函数,通过这个函数将数据转化为0~1区间的值以当门控信号。w z、w r、w h
均为权重矩阵。h t表示当前单元中需要更新的信息。t时刻的输入向量为%t,h t为输出向量,包含了t 时刻前的所有有效信息。
由于GRU网络中信息的传递是单向的,本文采用的BiGRU网络由一对方向相反的GRU单元组成,系双向传递的网络,弥补了普通GRU网络的单向传递缺陷,可以更充分捕获语句序列的文本特征。
式(5)、(6)分别表示t时刻前向、后向GRU单元隐含层输出,对输出拼接可得到BiGRU在该时刻的最终输出,如式(7)所示。
—寅—寅
h t=GRU(%t,h t_1)(5)
h t=GRU(%t,h t_1)(6)
-—饮-
h t=[ h t,h t](7)
2.3注意力机制
(8)
(9)
(10)
注意力机制在2014年被Mnih等人[17]首次提出,是一种用来提升基于循环神经网络中encoder+ decoder模型效果的机制,在自然语言处理等领域有着广泛应用。在自然语言处理中,注意力机制可以赋予句子中的每个词不同权重,能够更好地为重要信息分配权重,从而更加准确理解序列语义。首先利用激活函数形成对齐模型,随后获取注意力概率分布,最后将得到的权重矩阵与输入向量相乘得到最终输出结果。注意力机制公式如下:
m t=tanh(巴九+b”)
exp(k”)
琢t=
移exp(m T k”)
t
C=移琢:ht
t
上述式中仏为BiGRU网络层的输出,W”是注意力模型可调节权重,b"为偏置项,式(9)计算结果琢,系注意力权重矩阵,其中权重值用惣表示,C为经过注意力模型计算后的特征向量。
2.4A-softmax
A-softmax可以看作softmax的增强版本,在较小的数据集合上有着良好的效果且具有不错的可解释性。与softmax相比,A-softmax算法使得决策边界更加严格与分离,对更具区分性的特征学习有更大
驱动力。关于A-softmax的损失函数定义如下:1吕e椰%"椰准(兹(?)
移动视频监控系统n n移og©椰椰准(a(n))+^移©椰x(n)”cos0n)
j屹y”
(11)其中N为训练样本的总数。%(”)和y(”)分别表示第”个训练样本的特征向量和作者标签。j为%(n)与wj的夹角,兹(”)为%(”)与权向量W y n之间的夹角。
-73
-
3实验与分析
3.1实验环境及配置
为验证本文所提出模型的有效性,在如表1软硬件环境中进行实验。
表1实验环境及配置表
实验环境详细信息
操作系统Windows10
处理器Intel(R)Core(TM)i7-8750H
显卡NVIDIA GeForce GTX1060
内存大小16G
硬盘1TB
语言Python
深度学习框架Keras
框架后端TensorFlow
3.2数据集
本文数据集,分为微调BERT预训练模型所需的大量短文本博文与实验数据两部分,语料均来自微博。采用python的scrapy框架结合账号池与IP 池基于weibo站点进行微博信息爬取,共收集了26.8G微博用户数据,经过清洗后的数据构成为用户名与该用户所有发文内容,从中挑选发文量超过2000条的共20名用户制作测试集用作最后的模型准确率测试,共对应51249条短文本,将上述20人的用户名作为该用户发文内容标签。剩余数据中的短文本内容用作训练语料,本文使用的是哈尔滨工业大学发布的基于全词遮罩(Whole Word Masking)技术的中文预训练模型BERT-wwm,其语料为通用的中文维基,采用了哈尔滨工业大学LTP作为分词工具,对于微博这类灵活的短文本敏感度会稍差,故加以使用微博语料训练集进一步预训练。
3.3评价指标
本文使用在作者识别中普遍使用的精确率(Precision)、召回率(Recall)以及调和平均数(F1 Score)3项指
标来测量各个模型的有效性。精确率表示所有预测正例样本的准确率,召回率用来度量有多少正例样本被分为正例,F1则对精确率与召回率进行调和,得出整体评价。各指标定义公式如下:
精确率=Tp r p FP(⑵
Tp
召回率二(13)
TP+FN()
调和平均数2伊精确率伊召回率(14)
调和干均数-精确率+召回率(⑷其中,TP表示正确预测正例样本的数量,被误判为正例样本的负例样本的数量用FP表示,FN代表被误判成负例样本的正例样本数。
3.4实验结果及分析
接下来将进行两组实验分别对本文提出的BERT-BiGRU-ATT模型进行作者识别有效性验证。一个实验将比较BERT预训练模型与Word2Vec、fastText与GPT3种不同词向量表示工具在对于短文本词向量提
取方面效果的优劣,实验结果如表2所示;另一个实验将BERT-BiGRU-ATT模型作者识别效果结果同SVM、TextCNN与BERT-BiGRU3种模型进行对比,实验结果如表3所示。
表2不同词向量提取效果对比实验结果
模型精确率召回率F1值Word2Vec-BiGRU-ATT0.8460.8390.842
fastText-BiGRU-ATT0.8510.8490.850
GPT-BiGRU-ATT0.9190.9070.913
BERT-BiGRU-ATT0.9470.9260.936
表3不同模型效果对比实验结果
模型精确率召回率F1值
SVM0.7440.7380.741
TextCNN0.8410.8320.836 BERT-BiLSTM0.9180.9220.920
BERT-BiGRU-ATT0.9470.9260.936
最终结果表明,BERT在词向量提取效果方面均优于其他3种方式。在模型效果上,相较其他3种模型,BERT-BiGRU-ATT模型在精确率、召回率、F1值上的表现均处于领先地位。
由第一个实验的结果发现,采用不同词向量提取方式对模型的效果存在不同程度的影响。fast-Text方法优于Word2Vec,是因为fastText在训练词向量时将subword纳入考虑范围,且引入了字符级n-gra m,使之更好地处理长词与低频词汇,在面对训练语料库以外的单词时也完成了词向量构建工作。GPT是一个生成式预训练模型,其特征抽取器采用了多层Transformer解码器构成,与fastText方法相比GPT能够捕捉语义信息以及识别多义词,所以采用GPT作为词向量工具的模型各方面效果均优于采用fastText的模型,F1值提升了6.3%。虽然BERT 与GPT均采用transformer, 但BERT使用的是双向编
-74-

本文发布于:2024-09-22 23:25:01,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/253208.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模型   作者   识别   文本   短文   信息   特征
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议