基于证据理论的中文微博可信度评估方法

著录项
  • CN201410149429.7
  • 20140413
  • CN103927297A
  • 20140716
  • 北京工业大学
  • 高明霞
  • G06F17/27
  • G06F17/27

  • 北京市朝阳区平乐园100号
  • 北京(11)
  • 北京思海天达知识产权代理有限公司
  • 张慧
摘要
本发明属于信息检索与评估领域,具体涉及基于证据理论的中文微博可信度评估方法。本发明从中文微博的固有特点入手,兼顾了这些特点的可测量性和实际任务,系统地梳理了中文微博信息的可信度测量指标,并将其归属为文本信息、信息来源与信息传播三个高层维度。考虑到人类认知的模糊性本质,提出一个基于多维证据的微博可信度评估方法用于融合上述三个异构维度。与现有的仅针对网络文本或互连关系的单一特征评估方法比较,基于证据理论的中文微博可信度评估方法考虑更全面、合理,在同样的查询条件下,可以优选哪些来源可靠,传播广泛的信息。
权利要求

1.基于证据理论的中文微博可信度评估方法,其特征在于步骤如下:

步骤1:预处理,将从各微博平台获取的Json格式微博,通过格式解析形成有效数据, 然后借助现有的自然语言处理工具,对有效数据中的微博文本进行分词、词性标注、图标 检测、错误词检测、重复标点检测等预处理工作,并统计相关数据;

步骤2:文本信息的可信度测量,信息本身的可信度可以从客观和主观两个方面入手 考察,客观因素主要包括句法、语法、语气和语义四个层面,前两个层面,考虑了文本长 度S length和拼写错误S spelling两个指标,具体计算方法如表1所示,表1同时列出了本发明考 虑的和语气相关的三个因素分别是:图标S emoticons、重复标点S punc以及正性词/负性词 S posi/neg,本发明将语义因素归结到任务相关领域,信息本身的可信度测量不涉及;影响文 本信息可信度的主观因素反映的是其他用户对该文本质量的主观看法,通过分析主流中文 微博平台数据,发现针对单个文本的可直接测量的主观因素有直接转贴数S reposts和用户评 论数S comments,具体计算方法如表1所示;

本发明采用均值模式来分别融合客观因素和主观因素,然后再通过一个介于[0,1]之 间的权重λ来控制客观和主观因素的相对权重,将各个影响因素的得分进行min-max标准 化,计算方法如下:

v = v - min max - min × ( max - min )

其中v是需要标准化的值,min与max是某一影响因素得分的最小值与最大值,min'与 max'是标准化区间的最小最大值;

所述主观和客观综合可信度值的加权融合计算方法如下:

C post = λ [ 1 n Σ i = 1 n S i ext ( post ) ] + ( 1 - λ ) [ 1 n Σ i = 1 n S i sub ( post ) ]

由于客观因素更重要,本发明设定λ=0.7, 分别表示表1中各 客观影响因素和各主观影响因素的标准化取值;

表1文本质量影响因素的计算方法

步骤3:信息来源的可信度测量,任何微博最初都是由人产生的,因此信息来源就是 文本信息作者,微博用户可信度由他的客观日常行为和主观外部评价累积形成,可测量客 观日常行为包括是否做过实名认证Φ,发布的文本信息总数S posts,以及发布的高可信文本 信息总数S Hposts,而微博用户可测量外部评价包括追随者数目S fellows,文本信息反馈情况 S comments,上述指标中,对作者影响最大的是是否实名认证,本发明将实名认证这一指标定 义为一个二值函数[0,1],信息总数和高可信信息总数是两个关联指标,表2列出了这些 指标的具体计算方法,作者可信度的加权综合融合方式计算方法如下:

C author = w aut × Φ + w ext × S Hposts S posts + w sub × [ 1 n Σ i = 1 n S i sub ( author ) ]

其中 是表2中主观影响因素的min-max标准化取值,w aut、w ext和w sub分 别是认证因素、客观因素和主观因素的权重,为突出认证的重要性本发明权重比例设定 w aut:w ext:w sub=5:3:2;

表2作者影响因素的计算方法

步骤4:信息传播的可信度测量,影响信息传播可信度的因素包括两项,一是时效, 二是传播媒介,本发明将时效因素也归结到了任务相关领域,传播媒介对文本信息可信度 的影响方式通过两种情况递增:一种是传播媒价中包含可信度高的名人;另外一种是传播 媒介中节点数目庞大,这种提升趋向于一个确定的阈值,依据可信度递增规律,本发明定 义了用于具体计算传播媒介对微博文本可信度的影响,计算方法如下:

C ptree = Σ i = 1 n μ i × C author

其中C authoir是用户根据可信度值递减排序后得到的第i个传播者的可信度,μ<1是递 减因子;

步骤5:基于多维证据理论的可信度融合评估,本发明对三个维度可信度检测结果进 行合成,得到综合微博可信度的过程将采用改进的D-S证据理论方法对多个维度的基本概 率分配函数进行合成,计算方法如下:

m ( φ ) = 0 m ( h ) = Π i = 1 n m i ( h ) + kq ( h ) m ( h ) = 1 - m ( h ) m ( Θ ) = 0

其中,辨识框架 Θ = { h , h } , 幂集 2 Θ = { φ , { h } , { h } , Θ } , φ表示不可能事件“微博信 息既可信又不可信”,h表示“微博信息可信”, 表示“微博信息不可信”,Θ表示“微 博信息可信度无法评估”, k = 1 - Π i = 1 n m i ( h ) - Π i = 1 n m i ( h ) , q ( h ) = 1 n Σ i = 1 n m i ( h ) .

说明书
技术领域

基于证据理论的中文微博可信度评估方法属于信息检索与评估领域。

最近几年,社会媒体得到迅猛发展,特别是微博,如美国的推特(Twitter)、 中国的新浪微博、腾讯微博等,已发展成为互联网上的巨擘。中国互联网络信息 中心(CNNIC)于2012年7月发布的《第30次中国互联网络发展状况统计报告》 显示,截至2012年6月底,我国微博用户数达到2.74亿,微博的渗透率已经过 半,而且微博在手机端的增长幅度仍然明显,增速达到24.2%。根据中国互联 网调查社区(http://hnicresearch/sv/result/sid/22253)2013年1月13日完 成的关于“社会化媒体使用率的调查”结果显示,微博(73.46%)已经取代“即 时聊天工具”(66.93%)、搜索引擎(61.64%)、(56.64%)成为大众接 触最多的社会媒体。

随着微博的蓬勃发展而带来的一大隐患,就是用户对微博内容的真实性和价 值越来越难以判断。这主要是由微博内容的固有特点造成的。和其他社会媒体相 似,微博的最大特点依然是媒体内容产生于用户(UGC,用户创造内容)和消费 者(CGM,消费者产生媒体)。而且比起强调版面布置的博客来说,微博内容更 简短、零碎,微博书写更随意、自由。正是由于微博内容的创造者自由度很大, 没有编辑条款限制,使得微博上的信息质量差异很大。而且,由于信息的随便发 布,体的话语暴力,不负责任的非理性表达,也使得微博成为了众多网络谣言 的发源地。因此,针对微博在信息书写、信息传播、社会网络分析等方面的固有 特点,分析、评估微博内容、微博用户,并将其应用于微博信息综合或垂直搜索、 微博知识发现等领域的研究,已经引起了国内外计算机科学、信息科学、传媒科 学领域研究人员的关注和重视,成为微博研究领域的重要内容之一。

由于时间因素,目前对微博质量的研究实例大多集中于推特(Twitter)分析, 这些研究可以分为两类,一类是利用传统分类技术的定性分析,这类研究需要大 量样本,获取的是非数值结论,无法用于定量评估;另一类是针对不同性能指标 的一些定量算法,只是现有质量评估函数多数只关注信息本身或某一侧面,缺少 系统、全面地分析和评估,更没有从模糊认知的角度进行度量。目前针对中文微 博质量分析的研究多数集中于内容分析和特定主题提取,缺少专门针对质量进行 定量评估的系统方法。

本发明从中文微博的固有特点入手,兼顾了这些特点的可测量性和实际任 务,系统地梳理了中文微博信息的可信度测量指标,并将其归属为文本信息、信 息来源与信息传播三个高层维度,考虑到人类认知的模糊性本质,提出一个基于 多维证据的微博可信度评估方法用于融合上述三个异构维度,具体流程如图1 所示。与现有的仅针对网络文本或互连关系的单一特征评估方法比较,基于证据 理论的中文微博可信度评估方法考虑更全面、合理,在同样的查询条件下,可以 优选哪些来源可靠,传播广泛的信息。本发明提供的中文微博可信度评估方法, 具体步骤如下:

步骤1:预处理,将从各微博平台获取的Json格式微博,通过格式解析形 成有效数据,然后借助现有的自然语言处理工具,对有效数据中的微博文本进行 分词、词性标注、图标检测、错误词检测、重复标点检测等预处理工作,并统计 相关数据;

步骤2:文本信息的可信度测量,信息本身的可信度可以从客观和主观两个 方面入手考察,客观因素主要包括句法、语法、语气和语义四个层面,前两个层 面,考虑了文本长度Slength和拼写错误Sspelling两个指标,具体计算方法如表1所 示,表1同时列出了本发明考虑的和语气相关的三个因素分别是:图标Semoticons、 重复标点Spunc以及正性词/负性词Sposi/neg,本发明将语义因素归结到任务相关领 域,信息本身的可信度测量不涉及,影响文本信息可信度的主观因素反映的是其 他用户对该文本质量的主观看法,通过分析主流中文微博平台数据,发现针对单 个文本的可直接测量的主观因素有直接转贴数Sreposts和用户评论数Scomments,具体 计算方法如表1所示;

本发明采用均值模式来分别融合客观因素和主观因素,然后再通过一个介于 [0,1]之间的权重λ来控制客观和主观因素的相对权重,将各个影响因素的得分 进行min-max标准化,计算方法如下:

v = v - min max - min × ( max - min ) - - - ( 1 )

其中v是需要标准化的值,min与max是某一影响因素得分的最小值与最大 值,min'与max'是标准化区间的最小最大值;

所述主观和客观综合可信度值的加权融合计算方法如下:

C post = λ [ 1 n Σ i = 1 n S i ext ( post ) ] + ( 1 - λ ) [ 1 n Σ i = 1 n S i sub ( post ) ] - - - ( 2 )

由于客观因素更重要,本发明设定λ=0.7,分别表
示表1中各客观影响因素和各主观影响因素的标准化取值;

表1文本质量影响因素的计算方法



步骤3:信息来源的可信度测量,任何微博最初都是由人产生的,因此信息 来源就是文本信息作者,微博用户可信度由他的客观日常行为和主观外部评价累 积形成,可测量客观日常行为包括是否做过实名认证Φ,发布的文本信息总数 Sposts,以及发布的高可信文本信息总数SHposts,而微博用户可测量外部评价包括 追随者数目Sfellows,文本信息反馈情况Scomments,上述指标中,对作者影响最大的 是是否实名认证,本发明将实名认证这一指标定义为一个二值函数[0,1],信息 总数和高可信信息总数是两个关联指标,表2列出了这些指标的具体计算方法, 作者可信度的加权综合融合方式计算方法如下:

C author = w aut × Φ + w ext × S Hposts S posts + w sub × [ 1 n Σ i = 1 n S i sub ( author ) ] - - - ( 3 )

其中是表2中主观影响因素的min-max标准化取值,waut、wext
和wsub分别是认证因素、客观因素和主观因素的权重,为突出认证的重要性本发
明权重比例设定waut:wext:wsub=5:3:2;

表2作者影响因素的计算方法


步骤4:信息传播的可信度测量,影响信息传播可信度的因素包括两项,一 是时效,二是传播媒介,本发明将时效因素也归结到了任务相关领域,传播媒介 对文本信息可信度的影响方式通过两种情况递增:一种是传播媒价中包含可信度 高的名人;另外一种是传播媒介中节点数目庞大,这种提升趋向于一个确定的阈 值。依据可信度递增规律,本发明定义了用于具体计算传播媒介对微博文本可信 度的影响,计算方法如下:

C ptree = Σ i = 1 n μ i × C author - - - ( 4 )

其中Cauthoir是用户根据可信度值递减排序后得到的第i个传播者的可信度, μ<1是递减因子;

步骤5:基于多维证据理论的可信度融合评估,本发明对三个维度可信度检 测结果进行合成,得到综合微博可信度的过程将采用改进的D-S证据理论方法 对多个维度的基本概率分配函数进行合成,计算方法如下:

m ( φ ) = 0 m ( h ) = Π i = 1 n m i ( h ) + kq ( h ) m ( h ) = 1 - m ( h ) m ( Θ ) = 0 - - - ( 5 )

其中,辨识框架 <math> <mrow> <mi>&Theta;</mi> <mo>=</mo> <mo>{</mo> <mi>h</mi> <mo>,</mo> <mo>&Not;</mo> <mi>h</mi> <mo>}</mo> <mo>,</mo> </mrow> </math> 幂集 <math> <mrow> <msup> <mn>2</mn> <mi>&Theta;</mi> </msup> <mo>=</mo> <mo>{</mo> <mi>&phi;</mi> <mo>,</mo> <mo>{</mo> <mi>h</mi> <mo>}</mo> <mo>,</mo> <mo>{</mo> <mo>&Not;</mo> <mi>h</mi> <mo>}</mo> <mo>,</mo> <mi>&Theta;</mi> <mo>}</mo> <mo>,</mo> </mrow> </math> φ表示不可能事件
“微博信息既可信又不可信”,h表示“微博信息可信”,表示“微博信息不
可信”,Θ表示“微博信息可信度无法评估”,
<math> <mrow> <mi>q</mi> <mrow> <mo>(</mo> <mi>h</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>m</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>h</mi> <mo>)</mo> </mrow> <mo>.</mo> </mrow> </math>

图1中文微博可信度评估流程;

图2传播媒介的树形结构;

图3-(a)Json格式的新浪微博样本片段;

图3-(b)解析后获取的有效数据;

图4自然语言预处理后获取的文本信息相关值;

图5特定时间点收集到的样本微博的作者数据;

图6A的单层传播树。

下面将结合附图和具体实施例对本发明进行详细说明。以下实施例中的微博 是新浪微博中的个体样本。计算中文微博可信度的具体处理流程如下:

步骤1:预处理,依据图3-(a)所示是一个从新浪微博平台获取的Json格式 微博样例A,图3-(b)是通过Json解析得到的A中对应有效数据。图4是通过自 然语言处理工具和相关统计后获取的A的对应值。

步骤2:为待处理的微博文本计算可信度,有了A需要的统计数据,然后根 据实际情况确定出各影响因子可能的最大/最小值后,表3中列出了A的具体计 算值和对应的区间为[0,1]的标准化值。

表3A的影响因素值


最后根据公式(2)可以得到:

C post = 0.7 × [ 1 5 × ( 0.6 + 1 + 1 + 1 + 1 ) ] + 0.3 × [ 1 2 × ( 0.1561 + 0.159 ) ] = 0.6912

步骤3:计算微博来源可信度,微博来源也即微博作者,为了计算来源的影 响因素,需要收集微博作者的相关信息,图5是特定时间点收集到的样本微博A 的作者数据,其中标注为“统计:”的数据是需要计算后才能统计获取的,本例 为了计算方便采用了人为设置。表4是计算值和标准化值。

表4A作者的影响因素值


最后根据公式(3)可以得到:

C author = 0.5 × 1 + 0.3 × 0.6734 + 0.2 × [ 1 2 × ( 0.4 + 0.176 ) ] = 0.7576

步骤4:计算信息传播的可信度,由于选取的微博样本A是最平常的信息, 因此传播树高度只有一层如图6所示,使用和上一步骤同样的方式计算传播树中 所有传播者的可信度,并根据可信度排序后,使用公式(4)就可以计算该传播 树的可信度。假设7个作者的可信度值排序为:{0.85,0.78,0.7576,0.73, 0.68,0.40,0.30},且μ=0.6,则A的传播可信度值为:

Cptree=0.6×0.85+0.62×0.78+0.63×0.7576+0.64×0.73+0.65×0.68 +0.66×0.4+0.67×0.3≈1.14

假设min=0,max=2,则传播可信度值的标准化取值为:0.57。

步骤5:基于多维证据理论的可信度融合,有了上述文本、作者和传播分量 后,获取的可信值可以直接作为概率值,因此根据多维证据合成公式可得到参数 k和q(h),分别为:k=1-0.7576×0.6912×0.57-0.2424×0.3088×0.43=0.6693, q(h)=0.6729。

则:m(h)=0.7576×0.6912×0.57+0.6693×0.6729=0.7489

最后应说明的是:以上示例仅用以说明本发明而并非限制本发明所描述的技 术方案;因此,尽管本说明书参照上述的示例对本发明已进行了详细的说明,但 是,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换; 而一切不脱离发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权 利要求范围当中。

本文发布于:2024-09-23 16:23:09,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/73060.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议