基于网络爬虫和智能推荐的大学生精准就业服务系统研究

基于网络爬虫和智能推荐的大学生
静电纺丝装置
精准就业服务系统研究
陈荣征陈景涛林泽铭
(广东职业技术学院信息工程系,广东佛山528041)
[摘要]为适应新时代国家关于大学生就业服务的要求,在LeanCloud云服务平台下,基于Scrapy网络爬虫技术和智能推荐算法,研究并设计了一个大学生精准就业服务系统。该系统可根据毕业生的求职意向,实现职位的智能推荐。实验证明,该系统能有效满足毕业生个性化就业需求,提高企业的招聘效率,提升学校精准就业服务的水平。
[关键词]Scrapy网络爬虫;智能推荐;就业服务
中图分类号:TP391文献标识码:A文章编号:1008-6609(2019)01-0039-05
1引言
为深入贯彻落实《教育部办公厅关于开展全国普通高校毕业生精准就业服务工作的通知》精神,更好
地满足大学毕业生更充分和更高质量就业的现实需要,要求各高校、教育主管部门充分利用“互联网+”就业新模式,通过就业信息网、手机短信、就业APP、等渠道,搭建供需精准对接服务平台,建立健全精准推送就业服务机制,科学比对毕业生求职意愿信息数据库与用人单位岗位需求信息数据库,智能匹配学历、专业、地域等关键信息,为毕业生与用人单位双向精准推送有效的供需信息,从而为高校毕业生提供政策、指导和岗位信息精准对接服务[1]。
为主动适应上述国家关于大学生就业服务的政策要求,开发了大学生精准就业服务系统,目的是拓宽用人单位和大学生的信息获取途径,最大可能满足大学生个性化需求,提高就业服务质量。
2系统架构及功能
2.1系统架构
系统由移动客户端和云服务器端两个部分组成,系统架构如图1所示。
(1)移动客户端:通过调用云服务端功能向用户提供服务,鉴于Android平台的普遍性和开源性,开发环境选择Google公司的Android移动平台,后期也可以修改完善至更多移动平台上[2]。
(2)云服务器端:开发部署选择LeanCloud云服务平台,主要实现“数据采集数据处理存储智能推荐”这一系统核心流程:
①数据采集:包括用户提交的数据、网站爬取的数据、历届毕业生学生信息及其就业信息。用户提交的数据包含两类:一类是毕业生的专业、专长、实习实践经历、成绩等个人基本信息及其就业地区、薪酬、岗位要求等就业意向;另一类是招聘企业发布的就业单位信息及岗位要求。Scrapy爬虫定期从指定的网站中爬取就业信息,转换为指定的格式后保存到LeanCloud云服务器中。依据历届毕业及就业数据,采用优化后的关联规则挖掘算法,建立各类毕业生的就业模型,从而为精准就业服务提供智能化基础[3]。
②数据处理与存储:系统对数据进行了相关约定,并对数据进行清洗和归整,然后存储到LeanCloud云服务器。
③智能推荐:利用用户求职意向信息,计算用户之间的欧式距离和相似度,根据用户之间的相似度,选择与当前用户最为相似的用户,并将他们感兴趣的前top N招聘信息推荐给当前用户。
2.2系统功能
系统在设计过程中充分考虑学生、高校和企业三类用户的不同角功能,通过共享数据库信息,充分协调发挥各类用
作者简介:陈荣征(1979-),男,山东临沂人,硕士,讲师,研究方向为软件开发技术与智能算法研究。
基金项目:2018年度广东大学生科技创新培育专项,项目编号:pdjhb0728;2017年广东职业技术学院科研项目,项目编号:K201707。
户在系统中的作用,从而为大学生精准就业服务的有效开展提供保障。系统分为学生、高校和企业三个子系统(如图2所示):
(1)学生子系统主要功能:①首页模块:搜索、公告、职业潜能测试、就业指导文章阅览;②招聘会模块:浏览招聘会信息,查看招聘会状态;③求职意向模块:主要是学生设置期望求职的单位性质、工作地点、从事行业、岗位、月薪、福利,同时,将学生的学历、工作经验结合起来,作为用户求职意向参数;④推荐职位模块:学生端的核心功能,利用用户求职意向信息,
分火头
计算用户之间的欧式距离和相似度,根据用户之间的相似度,
选择与当前用户最为相似的用户,并将他们感兴趣的前topN 招聘信息推荐给当前用户。⑤我的模块:投递记录、被浏览记录、面试邀请消息、我的简历、就业状态、招聘会订阅、招聘收藏和设置等功能。
(2)高校子系统主要功能:①首页模块:采用饼状图对学生用户就业情况进行分析与统计,
筛选不同的就业情况统计;②文章模块:包含浏览所有文章与自己发表的文章信息、发表文章的功能。
通过教师端发表文章能被学生端的用户所浏览,正确引导学生就业;③招聘会模块:招聘会模块包含浏览校内外招聘会场与用户自己发布的招聘会信息、发布招聘会信息功能;④我的模块:我的模块包含教师信息资料与设置功能。
(3)
企业子系统主要功能:①人才市场模块:人才市场模块是App 的首页,首页利用XRecycleView 显示使用本平台的学生用户的简历资料供企业用户查看,企业用户也可以通过搜索或者条件筛选进行精准的定位,到所需要的人才;②招聘会模块:招聘会展览各个地区或者学校开展的招聘会信息,
企业可以根据自身需求联系相关单位加入招聘会,实现面对面与学生进行交流和人才招聘;③企业信息模块:企业资料完善,招聘管理,发布招聘,查看公司招聘情况
(投递我的和面试邀请),设置模块几个主要功能。所有企业注册登录后必须先完善企业资料,包括填写公司详细地址,法人姓名和提交公司注册的证件照进行认证,只有认证通过的企业才能完整使用App 的功能,包括的发布招聘查询人才等等。
图2系统主要功能
3系统关键技术
3.1网络爬取框架Scrapy
Scrapy 是一个高层次的、
快速开源的网络爬取框架,用于爬取网站并从页面中提取结构化的数据。网络爬取系统Scrapy 的工作流程如图3所示:
①首先爬虫(Spiders )将需要发送请求的url 经引擎(ScrapyEngine )交给调度器(Scheduler )。
②经调度器(Scheduler )排序,入队处理后,将url 封装成请求(request ),经引擎(ScrapyEngine )交给下载器(Down-loader )。
③下载器(Downloader )向互联网发送请求,并接收下载资源,然后将其封装成应答包(response ),经引擎(ScrapyEngine )交给爬虫(Spiders )。
④爬虫(Spiders )解析应答包(response )。若解析出的数据为实体(items ),则将其交给实体管道(ItemPipeline )保存;若解析的数据为url ,
则重新将其交给调度器(Scheduler )等待抓取。如此循环,
直到无url 为止。图3Scrapy 的工
作流程图
图1系统架构
3.2LeanCloud云服务
传统的服务端系统部署在单位内部的服务器上,响应性和安全性均无法保证,并且后期维护和升级难度大,成本高。考虑到云平台可以提供高效、安全、稳定的运行环境,具有很好的扩展性,丰富的云服务支持和良好的负载平衡功能,因此服务端系统选择LeanCloud云平台进行开发和部署。充分利用云平台的架构和功能,使系统具有自动扩展收缩、负载均衡、安全性高、运维成本低等优势。
3.3智能推荐算法
由于前期已经对收集的大量历届毕业生学生信息数据及就业数据进行了大数据处理,建立了各类毕业
生的就业模型。系统采用基于用户的协同过滤推荐算法对用户进行智能推荐,该算法简单易用,主要分为2步骤:
①利用用户求职意向信息,采用欧氏距离计算当前用户与其他用户之间的相似度;
②根据用户之间的相似度,选择与当前用户最为相似的用户,并根据他们的兴趣爱好向当前用户推荐其可能会感兴趣的top N职位。
4技术实现及结果
4.1Scrapy爬虫实现及结果
(1)Scrapy爬虫实现
①定义一个类class MySpider(scrapy.spiders.Spider),并继承scrapy.spiders.Spider,设置其初始爬取网址和允许爬取的网址列表。
②定义并实现parse函数def parse(self,response),将获取到的项目内容写入LeanCloud云数据库,将获取到的链接URL写入到爬取队列中。
③定义并实现MyItem类class MyItem(scrapy.Item),解析爬取的项目内容,读取公司名称、职位、专业方向、薪资待遇、工作地点等关键信息,并进行数据清洗和标签化处理,将结果存放至LeanCloud云数据库[4]。采用Python编写的关键代码如下:
class MySpider(scrapy.spiders.Spider):
name='zhaopin'#爬虫名,执行的时候使用这个名字
allowed_domains=['xxx']#爬虫作用范围
url='hr.xxx/position.php?&start='#创建url
defparse(self,response):#定义并实现parse函数
for each in response.xpath('//tr[@class="even"]|//tr[@c lass="odd"]'):
item=TencentItem()#初始化对象
item['positionname']=each.xpath('./td[1]/a/text()').extrac t()[0]#职位名称
……
yield item#将数据交给管道文件处理
(2)实验结果
通过运行爬虫程序对典型人才招聘服务平台发布的招聘职位数据进行爬取,清洗规整,共获得近3000条有效职位数据。
表1典型人才招聘服务平台爬取数据统计
4.2智能推荐算法实现及结果
(1)智能推荐算法实现
利用用户求职意向信息,计算用户之间的欧式距离和相似度,根据用户之间的相似度,选择与当前用户最为相似的用户,并将他们感兴趣的top N招聘信息推荐给当前用户。采用Python编写的部分代码如下:
#定义函数:计算两个人的相似度:基于欧几里得距离
def sim_Euclid(prefs,person1,person2):
#1.取共同的评分项
shared_items=getSameItem(prefs,person1,person2)
#2.如果返回的共同项为0,则相似度为0
if len(shared_items)==0:
return0;
#3.计算欧式距离
distance=sqrt(sum([pow(prefs[person1][item]-prefs [person2][item],2)
for itemin prefs[person1]if itemin prefs[person2]]))
#4.计算相似度
return1/(1+distance)
智能推荐算法执行流程如图4所示,假设用户1喜欢岗位1,岗位2和岗位3,新用户3喜欢岗位3,经过相似度计算,如果新用户3与用户1相似度高,系统将自动向用户3推荐岗位1和岗位2。
(2)算法评价指标
为了验证算法的有效性,本文选取准确率(Precision)、召回率(Recall)和综合评价指标(F1)衡量算法的性能[5]。现将有关参数定义如下:
定义:将应届毕业生集合U中任意一个应届毕业生u有
意向的职位列表,记为R(u),将系统推荐给应届毕业生的职位集合记为S(u)。
Precision=
u ∈U
R(u)∩S(u)u ∈U
复方川羚定喘胶囊∑
R(u)
(1)
Recall=
u ∈U
R(u)∩S(u)u ∈U
颗粒冷却塔
S(u)
(2)
F1=2×Precision ×Recall Precision +Recall (3)
(3)实验结果分析
通过计算推荐不同数量职位给应届毕业生时的准确率、召回率以及综合评价指标,结果如图5,图6和图7所示。实验结果表明,随着系统推荐职位数量的增加,三项指标均出现先上升再下降的趋势,当推荐职位的数量为15时,推荐效果最好。因此,基于用户的协同过滤推荐算法,充分利用毕业生就业模型,招聘岗位信息和用户求职意向信息进行智能推荐,最大程度匹配了毕业生的真实需求,从而实现较为精准的就业个性化服务。
5结语
为贯彻落实教育部精神,满足大学毕业生更高质量就业的迫切需要,在LeanCloud 云服务平台下,实现了一个大学生精准就业服务系统。系统利用Scrapy 网络爬虫技术获取当前企业招聘数据,根据毕业生的求职意向,采用基于用户的协同过滤算法实现职位的智能化推荐。
实验证明,该系统能有效满足毕业生个性化就业需求,提升企业的招聘效率,提高学校服
务就业的水平。
参考文献:
[1]教育部办公厅.教育部办公厅关于开展全国普通高校毕业生精准就业服务工作的通知[EB/OL].2016-03-18.v/srcsite/A15/s3265/201604/t20160401_236231.html.
[2]张婷婷,卜天然,汪峰坤,等.云平台下高校毕业生就业推荐反馈系统的设计[J].通化师范学院学报,2017,38(06):1-3.
[3]邓广彪,主战河.基于Hadoop 平台的智能化就业推荐系统研究与设计[J].广西民族师范学院学报,2017,34(03):137-140.
[4]张海华,杨秀波,张聪.基于大数据和Mahout 架构的毕图4智能推荐算法示意
图5算法准确率
图6算法召回率
图7算法综合评价指
外墙保温用锚栓
Research on Precise Employment Service System of College Students Based on Web
Crawler and Intelligent Recommendation
CHENRong-zheng CHENJing-tao LINZe-ming (GuangdongPolytechnic,Foshan 528041,
Guangdong)
In order to adapt to the requirements of college students'employment service in the new era,under the LeanCloud cloud
service platform,a college student precise employment service system is researched and designed based on Scrapy web crawler tech-nologyand intelligent recommendation algorithm.The systemcan realize the intelligent recommendation of jobs accordingto the job search intention of graduates.Experiments show that the system can effectively meet the personalized employment needs of gradu-ates,improve the recruitment efficiencyof enterprises,and promote the level of precision employment service in
schools.
Scrapyweb crawler;intelligent recommendation;employment service
业生就业智能推荐平台研究[J].电脑编程技巧与维护,2019(01):83-86.
[5]金连旭,王洪国,丁艳辉,等.基于兴趣敏感度的高校毕业
生就业推荐算法[J].计算机与数字工程,2017,45(02):201-205,253.
Research on Security Baseline Configuration Verification Based on Cloud Computing
Virtualization Platform
LIUJin YANCong YUANXi
(China Mobile Information TechnologyCo.Ltd.,Shenzhen 518000,
Guangdong)
墨水生产Cloud computing is a huge system,and its size and complexity determine the difficulty degree to solve cloud computing
security problems.Security management of cloud platforms is a complex combination of technology,regulations and behavior.The overall connectivity of the cloud computing environment and the integrity of the data at all levels need to take into account the typical characteristics of the network,systems,applications,users and other factors,and the solutions can be combined and integrated to pro-tect the security of the cloud platform.This paper focuses on the cloud computing virtualization platform,researches on the security baseline configuration and verification method based on cloud computing virtualization platform,and designs the cloud platform se-curity baseline automatic verification technology.On this basis,the security management method for cloud platform component se-curity baseline configuration is proposed to reduce the security risks caused by improper configuration of components in the cloud computingvirtualization platformand ensure the safe and stable operation of the cloud
platformsystem.
safetybaseline;configuration check;cloud platform;safetymanagement method;VMWware
(上接第34页)

本文发布于:2024-09-23 22:27:53,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/201983.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:就业   用户   信息   推荐   系统   毕业生   数据   招聘
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议