XX学院全球信息采集与大数据分析科研平台采购需求

XX学院全球信息采集与大数据分析科研平台采购需求
一、采购清单
采购标的名称
数量
具体内容
数量
单位
全球信息采集与大数据分析科研平台
1套
多语种文献资料库
8
外文网站的数据抓取、清洗和文本分析端口,全网搜索
1
4
计算机辅助翻译软件系统
1
微调电容
二、采购内容
(一)多语种文献资料库
1.英语、德语、法语、阿拉伯语、西班牙语、俄语、日语、韩语8个语种文献资料库,包括数据汇入、数据共享、数据查询、小语种翻译、账号权限管理等主要模块,各模块功能如下:
2.数据汇入:采集数据汇入、用户资料编辑、上传;
3.数据共享:数据展示、查看、取用;
4.数据查询:搜索功能、主题分类;
5.账号权限管理:账号管理、角权限、用户分组管理、登录控制、账号注册。
(二)外文网站的数据抓取、清洗和文本分析端口,全网搜索
共1项,服务期2年。
1.采集内容
使用爬虫技术,采集范围包括800个外文网站(外文网站目录由采购人提供),采集内容包括文章标题、时间、作者、正文、链接,采集频率为每天采集一次,数据每24小时更新,数据存储在本地,数据接入资料库。中标方须根据数据采集要求,在定向800个网站进行数据收集,使用语言包括英语、德语、法语、阿拉伯语、西班牙语、俄语、日语、韩语,并将所采集数据进行数字化转化,同时确保数据的真实性、完整性和合法性。
chdtv
2.词语分析
根据抓取的数据进行每周关键词、热词分析提示。
3.海外内容搜索
接入全网搜索入口、800个外文网站全部内容搜索入口,提供线路供搜索海外内容,外文网站域名由后台限定。
4.数据抓取要求
(1)反爬机制要求
为确保网络爬虫系统能够高效稳定地采集所需信息,需要满足以下反爬机制:
1)使用代理IP
网络爬虫应具备代理IP功能,代理IP应用于规避目标网站的IP封锁等限制,确保顺利进行数据采集。
2)模拟登录
网络爬虫系统应支持模拟登录功能,实现自动化登录操作,并保证账号和密码的安全传输和存储。
3)分析网页源码
实现网页源码分析功能,通过使用浏览器自带的开发者工具等技术,提取难以采集的页面中的所需信息。
双片糊箱机
4)使用API接口
在可能的情况下,应优先使用目标网站提供的API接口来获取所需信息。
(2)数据去重和增量更新要求
为保证数据的准确性和避免不必要的资源浪费,网络爬虫系统需要实现数据去重和增量更新功能。
将爬取过程中产生的URL进行存储,并确保URL的唯一性,免重复请求。网络爬虫系统应对爬取到的每条数据进行唯一标识的制定,确保爬取的数据在持久化存储前进行去重,避免重复存储相同的数据。
(3)分布式等问题要求
网络爬虫系统需要支持分布式部署,以提高爬虫的效率、速度和可靠性。采用分布式爬虫技术,将爬虫任务划分成多个子任务,提高爬虫的效率和稳定性。
(三)性能先进的翻译机
共4台。
台卡制作
拥有离线翻译、拍照翻译、语音速记、扬声器等功能,支持英语、德语、法语、阿拉伯语、西班牙语、俄语、日语、韩语8个语种,网络支持WiFi、蜂窝数据等方式。
(四)计算机辅助翻译软件系统
女性快乐器共1项。
押花材料1.支持语言数量
在线翻译定向外文网站搜集到的内容,支持英语、德语、法语、阿拉伯语、西班牙语、俄语、日语、韩语等70种语言。
2.文件格式
支持 pdf\doc\docx\xls\xlsx\txt\ppt\pptx共8种文件格式。
3.文档翻译
支持文本、文档翻译,自动识别源语言语种,支持OFFICE系列/PDF等多种文档格式翻译,翻译结果原格式、原译导出,支持30M以上文档大小。
4.翻译历史
用户翻译历史记录留存、自主管理,支持通过语言方向、文档名称等条件检索。
5.用户管理
授权用户登录后才可以使用翻译功能,翻译调用情况可以实时查看。
6.翻译页数
20万页(无时间周期限制,直至 20 万页用完为止)。
7.账号数量
1个主账号+100个子帐号+3条vip专属通道+5条普通通道。
(五)培训和售后服务
提供相关用户培训文档,培训形式、时间等根据招标人要求确定。提供自终验合格之日起 2年的质保,人员5*12小时响应。
三、安全服务要求
系统安全防护建设要按照国家关于信息系统安全管理有关要求及国家有关安全策略、法规、标准和管理要求进行,以风险评估和需求分析为基础,坚持适度安全、技术与管理并
重、分级与多层保护和动态发展等原则,保证网络与信息安全和政府监管与服务的有效性。安全系统建设内容包括信息安全管理规章制度、资源安全、应用安全、系统安全、网络安全等方面。

本文发布于:2024-09-22 13:24:06,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/327894.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   翻译   爬虫   采集   管理   网站   支持
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议