基于深度学习的互联网舆情监测分析系统的实现

 基于深度学习的互联网舆情监测分析系统的实现
柳州市大数据智能处理与安全重点实验室, 广西省柳州市  545006
广西教育系统网络安全监测中心, 广西省柳州市  545006
摘要:与传统媒体相比,互联网这一新兴媒体的低门槛性、交互性、匿名性等独有的特点已导致舆论信息量爆炸性增长。从如此数量级的数据中获取准确的舆情报告不是靠人力可以完成的。此外网络舆情也会有一个成型期、高涨期、波动期、消退期这几个不同阶段,对于一些个人恶意的大肆炒作的网络舆论,我们认为应该在舆情成型期及时对它们进行加以管控。
本系统通过主题爬虫与FishSearch算法实时筛选并爬取网络舆情数据。通过Fasttext快速文本分类技术、CNN文本情感分类技术获取舆情有效信息。利用Flask框架与Vue等技术完成了数据可视化操作。成型后的系统可提供数据的采集与挖掘、信息展示、舆情趋势预测等功能,能够高效的获取互联网舆情情况,为制定舆情管控计划提共数据支撑。
关键词:舆情监测;舆情分析;深度学习; CNN文本情感分类
1 前言
随着互联网的不断发展,网络已经融入人们的生活。截至2020年12月,我国网民规模达9.89亿,互联网普及率已高达70.4[1],网络已经成为社会舆情的主要传播载体。依靠网络的便捷性高速性和庞大的互联网使用人数再加之互联网具有虚拟及隐蔽的特点[2],舆情传播速度变得更快、舆情的数量变得更多,形成了不可估量的舆论力量。积极的深入管理互联网舆情,做好我国互联网舆情管控相关工作显然是至关重要的。对于各级政府来说,网络公众舆情传播是政府倾听众民情表达民意的重要表达方式。对于每个企业来说,正确引导企业网络社会舆情发展方向无疑是确保企业健康稳定持续发展的重要环节。
本系统可以快速准确的获取舆情信息。系统通过爬虫实时爬取新浪微博、百度贴吧、、知乎等舆论诞生的主要网站上的舆论信息。通过大量数据处理操作获得简洁有效的数据并结合深度学习等一系列技术完成对数据的分析处理,从而实现数据的整合与舆情趋势的预测,经过统计分析后通过web可视化平台展示出来。
2 互联网舆情监测分析系统的需求
2.1 监测目标分析电视制作
某件事的网络舆情应是是在所有网络论坛平台上关于这件事的所有评议的总和统计。因此监测网络舆情时,应保证数据来源于多平台并且需要获取足够多的数量。仅此才可避免平台理念、受众所带来的局限性。只有这样获取到的舆情数据才是可靠可用的数据。
截止目前为止,互联网上的舆论的载体平台数量已经非常的多了。然而系统资源是有限的,我们做不到统计所有平台的数据。但是在众多平台中,新浪微博、百度贴吧、、知乎等平台的用户量已经占据了舆论载体论坛的大多数。因此从这几个平台获取的舆情数据,足以代表网络整体舆情,具有足够高的准确性。因此本系统主要对这几个主流网站进行监测。
2.2系统功能性需求分析
2.2.1舆情主题管理功能
确定舆情信息内容,是舆情监测系统获取数据的必要条件。系统提供舆情主题管理功能用于明确应该获取的信息特征。该功能包括企业信息管理、舆情信息管理、站点信息管理 。用户在窗口填写并提交监测内容、监测关键词和信息获取站点等信息后,可以实时的对这些配置信息进行修改和删除等操作。系统会根据用户录入的舆情描述进行舆情信息搜集。
2.2.2舆情事件分析功能
系统在配置好舆情主题后根据配置开始执行舆情事件分析功能,即根据配置执行舆情内容的获取工作并清洗数据,得到可用数据。获取数据后主要通过快速文本分类和卷积神经网络情感分类这两项技术提炼数据中的地点、时间、关键词、情感等标签信息并统计。苯并芘结构式
2.2.3舆情分析结果管理功能
在舆情事件分析功能结束后,数据交付给舆情分析结果管理功能处理。该功能会将舆情的详细信息及情感偏向等数据经整理分析后用于可视化界面的展示。
可视化界面展示数据及展示方式具体为:
(1)舆情热度:展示系统中建立好的舆情事件在不同时间段中各平台关注度及总体关注度。通过折线图的方式展示热度与时间的变化走势。
(2)感情发展趋势:展示系统中建立好的舆情事件在不同时间段的情感变化。通过折线图的方式展示正面、中性、负面情感随时间的变化。
(3)媒体分析:舆情信息的来源分析。通过饼状图方式将站点名称及其所占比例。
(4)各城市热度分析:根据各网络平台的提供的地域信息,以城市为划分标准,通过颜深浅度表示该舆情在该城市的热度,并在中国地图上展示。
(5)热词分析:统计舆情信息中的关键词并以词云的方式将排名前100的信息展示出来。
在分析结果管理界面将默认展示最近时段的分析结果,用户可以通过条件筛选主动获取需要的分析结果,其中筛选条件有:信息爬取的开始/结束时间、信息获取平台。
2.2.4舆情报告导出功能
舆情分析结果以图像的方式在web界面中展示。当用户希望将分析结果导出时,点击报告导出按钮,即可生成舆情数据的报告文件。点击导出按钮后,用户可以对导出报告的格式和导出数据的部分进行选择。
具体子功能设计如下:
(1)数据选择:用户对导出的数据部分进行选择,可以导出全部分析结果,也可以导出部
充气按摩器分分析结果。
(2)导出格式选择:用户选择生成的报告格式,例如:jpg、pdf、excel。
(3)导出路径选择:选择一个本地路径,用于报告的存储。
3 技术架构设计
从整体来看,整个系统所用到的技术可以看为四个模块,即数据采集与处理、舆情分析、舆情分析结果展示、数据库。
首先为网络数据采集阶段,网络蜘蛛在舆论载体平台的站点行进并将数据交付给预处理模块,预处理模块对数据进行筛选后将数据交给分析模块,分析模块将对数据进行情感状态分类,趋势预测分析等过程,经过一系列操作后得到舆情的分析结果的原始数据集后,最终通过可视化技术展现舆情结果。
为保证系统成品具有良好的可拓展性、易管理型,上述的模块通过技术分类可以再细分为几个逻辑层面,每个层面的具有独立的数据处理能力,能对输入的数据进行处理并传输给下一层面。
(1)数据源层
舆情的数据来源于各网站用户在该网站的讨论,因此在必须在系统设计的初始阶段将后续需要爬取的网络站点罗列出来。
(2)数据采集层
确定好了数据采集目标的站点后,便可以使用网络蜘蛛对这些站点进行数据爬取。网络蜘蛛的种类众多[3],不同种类有不同的功能,其中主题蜘蛛能够对页面进行主题相关度判断,满足系统对于舆情的实时跟进需求。因此系统使用的是主题蜘蛛。网络蜘蛛采集数据后,通过HITS算法和FishSearch算法提取被爬取页面的网络特征,随后对网页进行相似度计算判断关联页面是否需要爬取。
(3)计算存储层
采集的数据中存在两种数据,即结构化数据和非结构化数据。为了更好的存储两种数据,需要将采集的数据以分布式存储方式存入HBase数据库。但在存入数据库前还需要对采集的数据进行数据清洗和数据校核工作,避免出现过现过多冗余数据。
(4)数据挖掘层
在计算存储层已经得到了较为完整的、可用于分析使用的数据。但是系统仍然无法理解数据的含义。因此,本层通过深度自学习的方式理解、分析数据。具体技术为:
1)文本分词技术:使用Fasttext快速文本分类技术和TF-IDF算法。
2)情感分析技术:主要技术为CNN模型。
4 功能模块设计
经过对需求分析的整合划分,将系统分为了5个功能模块,分别是:用户信息管理、主题管理、舆情事件分析、分析结果管理、舆情报告导出。
4.1主题管理模块
主题管理模块由管理模块和检索模块构成。
ad8009管理模块主要功能是对主题信息的录入与配置。用户新建主题后,填写相应的主题信息,
这些信息将被存入数据库。舆情事件分析功能模块根据输入的数据确定监测的对象,具体信息为:主题名称、关键词和监测站点等。
检索模块用于从数据库中查询舆情主题的详细信息,并允许用户对信息进行修改。
4.2舆情事件分析模块
舆情事件分析模块由爬虫收集模块和情感分析模块两部分构成。该模块从各大平台中收集舆情信息并分析其中情感后得到一个由系统生成的舆情数据,生成供分析结果管理模块使用的数据池。其中爬虫收集到的每一条信息都会被分析并且其分析后的数据应该存储入数据库。
热镀锌合金4.3舆情分析结果管理模块火锅餐具
该模块是最重要的模块,这里包含了最终的分析结果的数据信息,是整个舆情监测系统的最重要的需求。在此之前,通过舆情事件分析模块,系统中已经有了舆情信息和舆情分析的结果。但这些数据无法直接用于可视化界面,因此需要将舆情事件的分析结果数据进行深度逻辑优化处理,并且生成可供前端页面直接使用的数据,用于可视化的图表展示工作。
4.4舆情报告导出模块

本文发布于:2024-09-23 03:28:22,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/169022.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:舆情   数据   分析   信息   网络   模块   系统
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议