国内命名实体识别研究的热点和趋势——基于CNKI的知识图谱分析

Statistics and Application 统计学与应用, 2020, 9(3), 458-466
Published Online June 2020 in Hans. /journal/sa
/10.12677/sa.2020.93049
Research Hotspot and Trend of Named
Entity Recognition in China
—Analysis of Knowledge Map Based on CNKI
Jiangnan Xu1, Jiangming Shen2, Xin Wang1, Zhiyong Zeng3*
1Yunnan University Data Operation and Management Engineering Research Center, School of Statistics and
Mathematics, Yunnan University of Finance and Economics, Kunming Yunnan
2Enterprise Information Department of China Telecom Corporation Limited Yunnan Branch, Kunming Yunnan 3Yunnan University Data Operation and Management Engineering Research Center, School of Information,
Yunnan University of Finance and Economics, Kunming Yunnan
Received: Jun. 1st, 2020; accepted: Jun. 15th, 2020; published: Jun. 23rd, 2020
棉黑蚜
Abstract
Named entity recognition has made great achievements in China after decades of development. In this paper, CiteSpace is used as an analysis tool to visually analyze the papers on the topic of named entity recognition in CNKI. Through author analysis, research organization analysis, and keyword analysis, this paper discusses the research path and research focus of named entity rec-ognition in China. The results show that a number of influential authors and research institutions have emerged in China. The research path of our country has gone through three stages. At present,
the research hotspot in our country is the deep learning method of named entity recogni-tion.
Keywords
Named Entity Recognition, Visual Analysis, CiteSpace
国内命名实体识别研究的热点和趋势
——基于CNKI的知识图谱分析
徐江南1,沈江明2,王鑫1,曾志勇3*
阿普尔1云南财经大学统计与数学学院、云南省高校数据化运营管理工程研究中心,云南昆明
*通讯作者
徐江南 等
2中国电信股份有限公司云南分公司企业信息化部,云南 昆明
3
张佩纶云南财经大学信息学院,云南省高校数据化运营管理工程研究中心,云南 昆明
收稿日期:2020年6月1日;录用日期:2020年6月15日;发布日期:2020年6月23日
命名实体识别经过几十年的发展在我国已经取得了丰厚的成果。本文使用CiteSpace 作为分析工具,对中国知网学术期刊库中的以命名实体识别为主题的论文进行可视化分析。通过作者分析、研究机构分析、和关键词分析对我国命名实体识别的研究路径和研究热点进行探讨。研究结果发现,我国已经
出现了一批有影响力的作者和研究机构。我国的研究路径经历了三个阶段,目前国内的研究热点是命名实体识别的深度学习方法。
关键词
命名实体识别,可视化分析,CiteSpace
Copyright © 2020 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0). /licenses/by/4.0/
1. 引言
命名实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)。正确率(Precision)、召回率(Recall)和F1值(F1 score)常被用来作为命名实体识别的评价指标。1996年,命名实体评测作为信息抽取的一个子任务被引入MUC-6 [1]。不仅MUC 会议,ACE 项目和CoNLL 会议都进一步推动了命名实体识别的发展[2]。命名实体识别研究的主要方法也经历了从基于规则的方法,到基于统计机器学习的方法,再到基于深度学习的方法
的发展路径。我国对于命名实体识别的研究又有自身的特点。汉语的命名实体识别比英语要复杂得多,英语的命名实体往往是首字母大写的并且汉语文本没有类似英语文本中空格之类的显式标示词边界的标示符,分词和命名实体识别互相影响[3]。对我国以往的命名实体识别研究进行分析,有助于总结经验和展望未来的发展方向,更有利于命名实体识别在我国的发展。
2. 数据来源
本文数据来源于中国知网(CNKI)学术期刊库,以命名实体识别为主题对1996年至2019年的文献进行检索,得到631篇中文参考文献,对文献进行筛选、去重最终获取到628篇参考文献。
3. 研究方法
CiteSpace 是应用Java 语言开发的一款信息可视化软件,它可以对特定领域文献进行计量,以探寻出
徐江南 等
学科领域演化的关键路径及其知识拐点,并通过一系列可视化图谱的绘制来形成对学科演化潜在动力机制的分析和学科发展前沿的探测[4]。本文采用Citespace5.5R2版本对获取到的文献进行研究作者和研究机构进行合作共现分析,对关键词进行关键词共现、关键词突显和关键词聚类的时间线分析。
4. 数据结果及分析
4.1. 总发文量分析
利用Excel 2016对1996年至2019年参与分析的数据进行统计得出图1。
从总体趋势可以看出国内以命名实体为主题的发文量大致可以分为三个阶段:1) 1996年至2005年为萌芽阶段。发文量较少,还一度出现0篇发文量的情况,因为真正将汉语命名实体识别研究作为重要的研究领域,并组织较大规模评测会议,是从SIGHAN Bakeoff-2006开始的[1]。2) 2006年至2013年为稳定发展阶段。该阶段每年论文的产出量比较稳定维持在23篇左右。该阶段的研究主要集中在统计的机器学习方法。3) 2014年至2019年为快速发展阶段。该阶段论文的发文量出现爆发式增长。近年来源于神经网络模型的深度学习技术成为机器学习领域新的热潮,对于命名实体识别的发展带来强大的发展动力[2]。
Figure 1. Time distribution of named entity recognition volume in 1998~2019 图1. 1998~2019年命名实体识别发文量的时间分布图
4.2. 作者分析
4.2.1. 核心作者分析
使用CNKI 计量可视化分析中的作者分布并结合CiteSpace 中的合作共现分析对发文量较多的作者进行统计分析。然而高产作者并不一定是该领域的核心作者[5]。表1将利用普赖斯[6]公式确定出的34位
作者作为核心作者候选人,根据作者的发文量以及CAJD 的被引频次并用Excel 计算出每个作者的综合指数[7]。
Table 1. Distribution volume and comprehensive index of core author candidates 表1. 核心作者候选人发文量及综合指数
排名 作者 发文量 被引频次 综合指数 1 余正涛 13 186 237 2
吕学强
10
470
401
徐江南等
Continued
3 郭剑毅10 18
4 210
4 林鸿飞9 56 116
5 艾山·吾买尔9 23 93
6 吐尔根·依布拉音8 23 85
7 卡哈尔江·阿比的热西提7 23 76
8 朱艳辉7    6 65
9 周国栋7 70 108
10 刘挺7 213 203
11 买合木提·买买提  6 23 67
12 姬东鸿  6 42 80
13 线岩团  6 68 98
14 赵铁军  6 84 108
15 王东波  6 58 91
黄铜矿16 王路路  6 14 61
17 徐啸  6    4 55
18 关毅  5 237 202
19 于江德  5 26 61
20 杨志豪  5 34 66
21 施水才  5 455 348
22 何云琪  4    2 36
23 崔雷  4 20 48
跨国新娘24 艾斯卡尔·艾木都拉  4 50 68
25 邢富坤  4    1 35
26 雷树杰  4    1 35
27 李飞  4    6 39
28 于洪志  4    1 35
29 程学旗  4 57 73
30 严馨  3 9 32
31 顾佼佼  3 36 50
32 姜文志  3 36 50
33 王健  3 22 41
34 王闻慧  3 0 26
根据综合指数法表1中核心作者候选人的综合指数大于或等于100的为核心作者,可以确定9位核心作
者:吕学强、施水才、余正涛、郭剑毅、关毅等人。北京信息科技大学的吕学强和施水才《基于层叠隐马尔可夫模型的中文命名实体识别》[8]在CNKI上有365次的被引次数并且吕学强还注重搜索日志和查询日志中命名实体的识别研究;昆明理工大学的余正涛和郭剑毅不仅尝试使用各种统计机器学习方
徐江南等塔式锅炉
法:条件随机场、层叠条件随机场、隐马尔可夫模型,余正涛还对英语、越南语、柬埔寨语不同语种的命名实体识别都有研究;哈尔滨工业大学的关毅一直侧重于电子病历的命名实体研究。
4.2.2. 作者合作共现分析
利用CiteSpace进行作者合作共现分析,节点的大小可以看出作者发文量的多少,节点的连线和粗细可以反映在命名实体识别的研究领域作者之间的合作关系和合作强度。
Figure 2. Cooperation and co-occurrence of authors
图2. 作者合作和共现图谱
由图2可见,形成了以吕学强、施水才和余正涛、郭剑毅为核心的两个作者。也形成了分别以林鸿飞和周国栋为核心的两个作者,其他核心作者并没有形成合作强度较强的作者合作。
4.3. 研究机构分析
由图3可见命名实体识别的研究主要是学校和研究所,云南省计算机技术应用重点实验室智能信息处理研究所与昆明理工大学信息工程与自动化学院、新疆大学新疆多语种信息技术实验室与新疆大学信息与工程学院存在较强的合作关系,没有形成大规模的合作机构。
4.4. 关键词分析
4.4.1. 关键词共现分析
关键词共现分析可以看到各个关键词之间的联系,从而可以看到各主题之间的联系。在CiteSpace 软件中进行如下参数设置:Time Slicing From 1998 To 2019 Years Per Slice=1,Node Types=Keyword,TopN=50,Pruning选择Pathfinder、Pruning sliced networks和Pruning the merged
network。并根据关键词共现图谱,把相同意义的关键词进行合并。由图4可见条件随机场、深度学习、自然语言处理和信息抽取是高频关键词,也是命名实体识别研究的热点。与命名实体识别相连的最大熵模型、深度学习、条件随机场和隐马尔科夫模型是研究命名实体识别的方法。自然语言处理、文本挖掘、问答系统和知识图谱
是命名实体识别被应用到的领域。

本文发布于:2024-09-21 21:59:01,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/137533.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:实体   命名   识别   研究   作者   分析   进行   合作
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议