基于大数据的区域人才供需平衡量化分析方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201710381505.0
(22)申请日 2017.05.26
(71)申请人 山东省科学院情报研究所
地址 250014 山东省济南市历下区科院路
19号
(72)发明人 王蕾 魏墨济 朱世伟 李晨 
李宪毅 杨爱芹 于俊凤 李思思 
徐蓓蓓 刘翠琴 张明君 董婷 
王彦 
(51)Int.Cl.
G06Q  10/06(2012.01)
G06Q  10/10(2012.01)
(54)发明名称
基于大数据的区域人才供需平衡量化分析
方法
(57)摘要
本发明的区域人才供需量化分析方法,首先
利用爬虫从招聘网站、组织招聘板块和编制招考
信息上获取区域人才需求相关数据,然后利用爬
虫从各类学校的招生信息上获取指定区域的人
才供给相关数据,最后通过对人才需求数据和人
才供给数据的处理,可从多角度多层面对指定区
域的人才供需量做出有效分析,全面量化剖析指
定区域人才的情况,明确区域人才构成,实现量
化“知己”,以及折射不同阶段不同人才政策对区
域人才供需的影响情况,总结不同人才政策中的
优势和弊端,为更好的制定人才政策提供数据支
持。权利要求书9页  说明书23页  附图1页CN 107239892 A 2017.10.10
C N  107239892
A
1.一种基于大数据的区域人才供需平衡量化分析方法,包括区域内人才需求相关数据采集、区域内人才供给相关数据采集和区域人才供需平衡量化分析步骤,其特征在于:所述区域内人才需求相关数据采集通过以下方法来实现:
a).确定人才需求目标数据源和采集范围,优质可量化且能够实时反映区域人才需求的数据是做好分析的
前提,因此选取的目标数据源为:招聘网站,大型组织、大学、人社局网站的招聘板块,以及编制招考信息;
由于单独一个区域的分析不能体现本区域的优势及不足,需要对多个同级区域对比分析才能到问题,为政策的制定提供依据;因此除了采集指定区域外,也将同一行政区下所有与指定区域同级的区域也纳入到采集的范围;
b).采集人才需求目标源数据,大型组织、大学、人社局网站的招聘模块和编制招考信息的更新频率不高,直接采用现有分布式爬虫的抓取策略采集信息;
由于招聘网站同时服务器于诸多实体组织,承载着诸多组织的招聘信息更新频率极高,需要实时获取招聘网站的信息;同时受目标数据源服务器的限制,同一IP地址的爬虫在一定时间内只能采集同一目标服务器限定的数据,故采用将同一招聘网站平均分配到多个爬取节点的方法进行目标数据源的信息采集;
c).人才需求信息提取,由于所采集的人才需求数据是原始的非结构化网页,其中杂陈广告、友情链接、同类推荐无关信息,首先采用DOM树的方法和基于行块分布函数方法抽取目标网页中的数据;然后从非结构化的网页数据中提取包括组织名称、岗位、职位、月薪、学历、工作年限、组织规模、所属行业、组织性质、招聘人数、提供福利、岗位职责、岗位要求、年龄要求、工作地点、发布时间在内的招聘信息,形成结构化数据,每个招聘信息定义一个人才需求指标维度,所有的指标维度组成人才需求指标维
度列表;
d).人才需求数据清洗,首先将各指标维度所采用指标体系进行标准化、将各指标维度值进行标准化,以实现指标维度的标准化处理;
然后,将同一媒体、多个媒体中重复发布的招聘信息进行去重处理,以过滤重复发布的信息;
e).人才需求数据存储,所提取的每一个指标维度使用结构化数据库中一列存储,为方便招聘信息的归类统计将网页URL、招聘信息媒体来源、所属区域也作为一个人才需求指标维度存储于数据库一列;为方便时间跨度方面的统计分析,将招聘信息的有效持续结束时间也作为一个人才需求指标维度存储于数据库一列;同时若指标维度是区间标度属性,则在存储过程中将其分成区间起始值和区间终止值分别存储指标维度的首尾值;
所述区域内人才供给相关数据采集通过以下方法来实现:
1).确定人才供给目标数据源和采集范围,人才供给分析的基础是数据,优质可量化,且能够实时反映区域人才供给的数据是做好分析的前提,因此选取的目标数据源为:各类学校的招生信息,并通过比例计算获取不同学历、不同专业人才的供给情况;
由于单独一个区域的分析并不能体现本区域的优势及不足,只有在多个同级区域对比分析中才能到问
题;根据人才流动情况,人们更倾向于就近相邻区域的流动;因此,本系统将同一行政区下所有与指定区域同级的区域也都纳入到采集的范围;
2).采集人才供给目标源数据,采用分布式爬虫采集指定范围内的目标数据源;
3).人才供给信息提取,由于所采集的人才供给数据是原始的非结构化网页,其中杂陈
广告、友情链接、同类推荐无关信息,首先采用DOM树的方法和基于行块分布函数方法抽取目标网页中的数据;然后从非结构化的网页数据中提取包括学校名称、专业及招生人数在内的信息,每个信息定义为一个指标维度,同时也将学校所属区域、学校招生批次、学校招生学历列为人才供给指标维度,与提取的指标维度共同构建人才供给指标维度列表;
4).人才供给数据清洗,采用教育部制定的普通高等学校本科专业目录中的专业名称统一不同学校专业名目,实现专业指标维度的标准化处理;
学校每年均会发布招生信息,且每年各学校发布招生信息的时间略有不同,需多次重复扫描含有招生信息的网页;为防止多次采集相同招生信息后重复存储,在采集到招生信息后需要进行清洗,过滤重复发布的信息;
5).人才供给数据存储,所提取的每一个指标维度使用结构化数据库中一列存储,为方便招聘信息的归类
统计将网页URL、招生信息媒体来源也作为一个人才供给指标维度存储于数据库一列;区分相同学校不同时间的招生信息以及确定学校供给人才的时间,将招生时间和学制也分别作为人才供给指标维度存储于数据库一列;
所述区域人才供需平衡量化分析步骤通过以下方法来实现:
A).人才供需数据映射,人才需求指标维度中的职位与人才供给指标维度中的专业是人才供需联系的纽带,通过将指标维度职位的取值与指标维度专业的取值映射到相同的空间,以便将人才需求量与人才供给量联系在一起;
B).指标维度分类,指标维度根据其功用分为四类:区域维度、动态维度、目标维度和限定维度,区域维度用于指定分析的目标区域,区域维度的分析可以分成两类:本区域人才供需分析和多区域人才供需对比分析;动态维度的分析可以分成两类:一定时间段的整体宏观分析和时间演化分析;人才供给分析的主要目标在于向用户展示本区域人才的供需量,目标维度定为供给量和需求量;限定维度用于指定分析的限定条件,主要是学历和职位两个指标维度;
C).分析分类,为使结果条理清晰更易于被用户所理解,采用区域维度和动态维度相组合的方式对分析进行大类划分,分析可分为四型分析:Ⅰ型分析、Ⅱ型分析、Ⅲ型分析和Ⅳ型分析;
其中,Ⅰ型分析为本区域一定时间段内整体宏观人才供需分析;Ⅱ型分析为本区域随时间演化人才供需趋势分析;Ⅲ型分析为多区域一定时间段整体宏观人才供需对比分析;Ⅳ型分析为多区域随时间演化人才供需变化趋势对比分析;
D).分析方法,目标维度需求量和供给量的分析结果属于数值型数据,按照分析分类对其进行量化分析;
E).分析结果可视化,通过柱形图直观展现人才需求量和人才供给量的平衡情况及其缺口。
2.根据权利要求1所述的基于大数据的区域人才供需平衡量化分析方法,其特征在于:步骤b)中所述的招聘网站的数据采集具体通过以下步骤来实现:
b-1).将所有目标招聘网站的域名分配到全部爬取节点;
b-2).在将域名分给所有爬取节点的同时,为不同的爬取节点分配互不相交的职位类别及标识该职位类别的参数,以此将招聘网站划分成互不相交的子集分配给各爬取节点,每个爬取节点负责一个子集的采集;
b-3).各爬取节点通过招聘网站加所分配职位类别参数的方式,向招聘网站发送请求,获取工作岗位列表,此列表即是需要采集的目标数据源列表URL_Init_List;
b-4).为避免同一时间过于集中地采集同一域名的招聘网站,在得到URL_Init_List后不即刻采集网页,而是将URL_Init_List中的URL地址进行混排生成最终采集目标数据源列表URL_Final_List,混排方法如下:
首先将URL_Init_List中的URL地址按照主机分组划分成若干子列表;然后采用随机方法随机挑选一个子列表,并在该子列表中随机选择一个未被选中过的URL地址放入URL_ Final_List;迭代子列表和URL地址的选择过程直至选完所有子列表的所有URL地址;
b-5).爬取节点在得到URL_Final_List后,采集网页数据。
3.根据权利要求1或2所述的基于大数据的区域人才供需平衡量化分析方法,其特征在于:步骤c)中所述的招聘信息的提取通过以下步骤来实现:
c-1).由于每个招聘网站的格式都较为固定,因此首先为每个招聘网站设计模板,然后利用正则表达式提取所需信息,并将从非结构化页面中提取的各个指标维度的值存储于结构化数据库中;
c-2).由于大型组织、大学、人社局网站的招聘板块以及编制招考信息在发布招聘信息时较为随意,没有固定的格式,并会在详情页面中使用表格展示招聘信息,故直接从表格中提取指标维度值,方法如下:
c-2-1).获取表格,在详情页面中由于页面布局的原因可能会存在多个表格的情形,所以首先通过能够标
识表格的属性在多个表格中抽取记录招聘信息的表格;
c-2-2).表格去噪,在处理表格时首先去除控制页面显示格式的DIV、CSS及与表格无关的HTML标签,只保留与表格显示和控制相关的table、tr、td、colspan标签;
c-2-3).表格标准化,因为表格无规定格式,在处理过程中分割多行多列的单元格,将表格转化成简单表格,使表格中的每个单元格只占一行一列且只有一个值;
c-2-4).判断表格横竖,判断记录招聘信息的表格是横表还是纵表,取表格的第一行表格的单元格值和第一列表格的单元格值,分别与各个指标维度进行匹配,比较第一行和第一列单元格值的命中率,若第一行单元格值的命中率高则为横表,否则为纵表;
c-2-5).提取键值序列,若表格为横表,则将第一行单元格的值映射到相应的指标维度,相应列单元格的值即为指标维度的值,形成键值对将无结构的HTML表格转化成结构化的键值对,进而存储到结构化数据库;
纵表与横表类似,将第一列单元格的值映射到指标维度,相应行单元格的值即为指标维度的值,提取键值对存储到结构化数据库。
4.根据权利要求1或2所述的基于大数据的区域人才供需平衡量化分析方法,其特征在于:步骤d)中,各
指标维度所采用指标体系的标准化方法为:首先,将指标维度使用最广泛的指标体系作为标准指标体系;其次,抽取标准指标体系中的指标作为概念构建本体,将各级指标体系映射到本体概念层次结构的类和子类;再次,抽取指标维度使用的其他指标体系中的指标;最后依据其他指标体系中指标与本体中概念的功能相似性,将其他指标体系中的指标作为概念的实例引入本体,通过本体概念与本体实例之间的关系,建立标准指标体系与其他指标体系之间的映射关系,将指标体系统一到标准指标体系,实现多指标体系指标维度的标准化;
各指标维度值的标准化方法为:针对指标维度值不一致的情形,采用量化表或公式的方式统一指标维度的赋值;首先规定一种赋值为标准值;然后利用量化表或公式,为指标维度的各种不同赋值建立映射关系,将不同的赋值转化为标准值;
同一媒体中重复发布的招聘信息去重方法为:URL是互联网资源的唯一标识,因此判断同一媒体发布的信息是否存在重复的URL,同一URL地址的信息只采集一次即可实现去重;
多个媒体中重复发布的招聘信息去重方法为:同一招聘信息发布于不同媒体其URL地址不同,需要对比不同媒体招聘内容中提取的各个指标维度是否相似,通过以下方法来实现:
d-1).首先对比从不同媒体获取的招聘信息中组织名称是否相同,若相同则对比招聘职位是否相同,若相同执行步骤d-2);
d-2).对比岗位职责和岗位要求的相似度,通过文本相似度算法,若岗位职责和岗位要求的相似度均超过75%,则执行步骤d-3);
d-3).对比不同媒体招聘信息的发布时间,若发布时间差小于7天转入步骤d-4);
d-4).对比结果判定为重复信息,统一不同媒体中各指标维度值;对于序数属性类的指标维度取较低的值作为统一值;对于标称属性类的指标维度取各指标维度值的合集作为统一值;对于区间数值属性类的指标维度取各指标维度值的最小和最大值,按照加权平均的方法求取平均数作为统一值;
d-5).确定非重复招聘信息,若步骤d-1)、d-2)和d-3)中有任意一条不满足,则认为是非重复招聘信息,提取信息后直接存储于结构化数据库中。
5.根据权利要求1或2所述的基于大数据的区域人才供需平衡量化分析方法,其特征在于:步骤2)中所述目标源数据的采集通过以下步骤来实现:
2-1).收集指定区域所处行政区下所有区域的学校列表及其网站URL;
2-2).出学校网站中与招生信息相关版块的采集入口;
2-3).采集招生版块下的所有网页,通过关键词匹配的方式定位招生信息所处网页;
2-4).采集所定位网页的招生信息。
6.根据权利要求1或2所述的基于大数据的区域人才供需平衡量化分析方法,其特征在于:步骤3)中所述的信息提取中,大多数学校的招生信息一般会采用表格展示招生信息,然而学校在发布招生信息时并无固定格式较为随意,表格中所出现的指标维度也会较为随意,此种情形很难采用固定的正则表达式来提取数据;本发明直接处理表格从中提取指标维度的值,具体方法如下:
3-1).获取表格,在招生信息页面中由于页面布局的原因可能会存在多个表格的情形,所以首先通过能够标识表格的属性在多个表格中抽取记录招聘信息的表格;
3-2).表格去噪,去除网页中表格中控制页面显示格式的DIV、CSS及与表格无关的HTML 标签,只保留与表格显示和控制相关的诸如table、tr、td、colspan标签;
3-3).表格标准化,将表格转化成简单表格,使得表格中的每个单元格只占一行一列且只有一个值;
3-4).判断表格横竖,发布招生信息时既可采用横表,也可采用纵表;因此需要判断记录招生信息的表格是横表还是纵表;取表格的第一行表格的单元格值和第一列表格的单元格值,分别与各个指标维度进行匹配,比较第一行和第一列单元格值的命中率,若第一行单

本文发布于:2024-09-23 10:30:03,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/470864.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:维度   信息   人才
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议