基于网络招聘的数据分析和算法岗位的薪资分析及预测

机麻基于网络招聘的数据分析和算法岗位的薪资分析及预测

摘要：通过爬虫技术采集到BOSS直聘网站上数据分析和算法两类岗位的招聘信息，经过文本清洗、分词和向量化后，使用随机森林算法分别对两类岗位进行建模调参，选出最佳的模型参数后对模型特征分析。随机森林算法对岗位薪资预测，不仅能帮助求职者基于自身禀赋查询合理的薪资范围，而且提供影响薪资变化的关键因子，帮助其能更有目标和针对性的提升技能，助力更长远的发展晋升。

关键词：文本向量化；Word2Vec；薪资预测；随机森林算法

人民检察院民事行政抗诉案件办案规则Salary Analysis and Prediction of Jobs Based on Data Analysis and Algorithm of Online Recruitment

Gao Jingjing

(School of Statistics, Renmin University of China, Beijing 100000)

【Abstract】The recruitment information of data analysis and algorithm positions on the BO

SS direct recruitment website is collected through crawler technology. After text cleaning, word segmentation and vectorization, the random forest algorithm is used to model the two positions and adjust the parameters, and select the best one. After the model parameters, the model characteristics are analyzed. The random forest algorithm's job salary prediction can not only help job seekers to query a reasonable salary range based on their own endowments, but also provide key factors that affect salary changes, help them to improve their skills more targeted and targeted, and facilitate longer-term development and promotion .

【Key words】Text Vectorization；Word2Vec；Salary Prediction；Random Forest Algorithm

0引言

1998年国土资源部部长

人才市场的渠道不畅通和信息不对称是供需问题的关键，企业的招聘信息不能及时、有效、完整的传递给求职者，求职者很难根据实际情况提升自身的技能以适应需求市场的变化，提升匹配率。网络招聘平台成本低、时效性强、覆盖面广、信息反馈及时、经济便捷，

中国市场经济地位

已经成为招聘市场的主流方式。但网络招聘信息的数量级非常大，一般求职者只能通过关键字搜索或平台相似度推荐的方法，关注居住地城市的少量的招聘信息，存在严重的信息茧房问题，无法从宏观整体上把控市场行情，难以确定合理的薪资范围、匹配适宜的技能工具，后续的学习提升难以聚焦落地。薪资分析预测关键在于对非结构化文本数据处理，常用的方法有清人工编码、独热编码、TF-IDF、Word2Vec[10-11]等方法。国内也有不少对薪资预测的研究，刘睿伦、章胤等人[1-2]都使用K-means算法对对数据类岗位进行聚类分析，发现企业偏好有经验的求职者，职位技能要求整体高于计算类岗位。黄山等人[3]用Apriori算法挖掘岗位招聘信息，得出城市、学历、经验和薪资都有较高的相关性。朱婷婷[5]对比不同类型岗位在学历、经验和技能等方面的差异，在多个模型对比出随机森林效果最佳。宋倩楠[8]通过随机森林分析了运营物流行业的薪资影响因此，随机森林算法在高纬矩阵上表现较好。彭义春等人[9]使用随机森林、SVM等算法对招聘网站IT类岗位的薪资进行了回归预测。本文通过爬取BOSS直聘的数据分析和算法岗位的招聘信息，使用Word2Vec对结巴中文分词的岗位详情进行特征抽取和向量化，使用随机森林算法对数据分析和算法岗位进行建模预测，帮助求职者到合理的薪资范围、影响薪资变化的关键因子，帮助其能更有目标和针对性的提升技能，助力更长远的发展晋升。

朱溶的个人简历

1数据采集及文本向量化

1.1 BOSS直聘数据采集

本文于2022年6-8月两个月的时间，通过爬取了BOSS直聘网站的数据分析和算法两类岗位10个主要城市的1.75万条有效数据，主要包括结构化文本、非结构化文本（招聘详情）和薪资数。包括数据分析7013条，算法10453条，建模之前会使用重采样技术使得样本均衡。从城市来看，相比于传统岗位，数据类岗位火热起来的时间不长，数据类岗位主要集中在大城市，北京、上海、深圳最多，其次是杭州、广州，其余的5个城市均不足1000条。

图 1 BOSS直聘招聘网站采集的数据

Fig.1 Data collected by BOSS direct recruitment website

1.2 文本向量化处理

采集到招聘数据分为结构化数据和非结构化数据两大类，其中结构化数据包括：结构化的文本、数值；非结构化的文本是岗位关键技能和岗位详情。其中，结构化的文本使用One-Hot独热编码方法进行向量化，而非结构化文本在使用结巴分词后，用Word2Vec稠密向量化。

One-Hot编码是对于每一个特征，如果它有m个可能值，那么经过独热编码后，就变成了m个二元特征，并且这些特征互斥，每次只有一个激活，因此数据会变成稀疏的。Word2Vec是把每个词语转成50-300维的向量，Goole官方提供的一般是用300维（本文也使用300维），有了词向量就可以进行各种计算，如词语相似度计算、近义词等；也可以通过求均值或其他方法降维后用于各种算法。Word2Vec通过Embedding层将One-Hot编码转化为低维度的连续值（稠密向量），并且其中意思相近的词映射到向量空间中相近的位置。从而解决了One-Hot词汇鸿沟和维度灾难的问题。

2 使用随机森林分类算法进行薪资预测

2.1中控系统建模思路及算法简介

对岗位详情文本信息，通过清洗处理、中文分词和Word2Vec向量化后，与One-Hot编码的结构化特征合并拼接成完整特征。基于网络招聘岗位薪资的千位数是整数的特性，通过薪资标签分组把回归预测转化成更贴近实际情况的多分类问题。由于两类岗位薪资组间差异性较大，因此对数据分析和算法分别建立了薪资预测的随机森林模型，探索薪资的影响因素。

本文发布于:2024-09-20 16:29:27，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/471959.html

上一篇：基于CS架构的系统监控软件计与实现

下一篇：基于深度学习的飞机故障诊断系统关键技术研究

标签：薪资岗位算法招聘预测

留言与评论（共有 0 条评论）