基于K-means文本聚类的中国大数据岗位需求分析

(整期优先)网络出版时间:2022-04-19
/ 2

基于 K-means文本聚类的中国大数据岗位需求分析

邹启宇 李康 唐晨曦

山东英才学院 250104

摘要:本文旨在通过k-means文本聚类了解国内大数据岗位需求特点,帮助企业和员工识别大数据人才,推动大数据相关研究的进一步发展。首先利用爬虫软件对招聘网“大数据”的招聘信息进行爬招聘网站。然后利用解霸分词和K-means文本聚类对大数据招聘岗位进行聚类,聚类数由组内平均平方和确定。最后,将大数据岗位划分为10类,从整体数据集和聚类结果的角度对大数据岗位的城市分布、薪资水平、学历要求、经验要求等进行讨论和分析,明确大数据岗位的特点。大数据工作需求。分析结果表明,大数据的工作需求主要分布在一线城市和新一线城市。企业更倾向于大专或本科学历及一年以上相关工作经验的求职者。不同类型的工作之间存在工资差异。职位越高,对学历和经验的要求就越高。

关键词:大数据;K-means技术;岗位需求分析

一、中国大数据岗位需求分析探究

现代社会已进入大数据时代,数据已被普遍认为是目前最具竞争力和价值的资产,已成为世界各国的重要战略资源之一。世界各国纷纷制定大数据战略,抢占大数据发展战略制高点。中国高度重视大数据在促进经济社会发展中的地位和作用。2014年,大数据首次写入政府工作报告。大数据逐渐成为各级政府的热门话题。政府数据开放共享、数据流通交易、用大数据保障和改善民生的理念已经深入人心。此后,国家有关部门出台了一系列鼓励大数据产业发展的政策。在国家的高度重视和政策支持下,大数据产业迅速兴起和发展,大量与大数据相关的工作应运而生。因此,企业对数据人才的需求大大增加。根据《2016-2020年中国大数据产业全景调查及发展趋势预测报告》,2013年,中国大数据市场需求规模为11.2亿元,是上年2014年和2015年的两倍多, 2016年超过100亿元,预计2020年中国大数据市场需求规模有望达到1070亿元,可以推测未来几年大数据市场规模将呈指数级增长。然而,中国大数据技术的发展和兴起时间不长,大数据人才的培养并没有跟上企业的需求。根据Datalink Search发布的大数据人才报告,目前中国只有46万大数据人才。未来3-5年大数据人才缺口将达到150万人。其中,数据分析人才需求旺盛,但分析人才的数据供给指数偏低,仅为0.05,高度稀缺。据来自中国商业联合会数据分析专业委员会的统计,中国的基本数据人才缺口将在未来达到1400万,中国的互联网行业招聘岗位的60%以上,正在招募大数据人才。那么公司目前有哪些数据岗位,这些岗位对人才有哪些具体要求?本文通过对我国大数据人才网招聘信息的收集和统计分析,梳理出大数据相关岗位的人才需求、薪酬、地域分布、工作类别等,进而分析我国大数据工作的需求。本文深入分析大数据人才需求,为数据人才培养和求职者知识能力建设提供参考,帮助企业快速定位人才,科学有效地推进大数据人才培养,明确大数据人才定位,提升大数据人才水平具有重要意义。

  1. 研究方法

(一)数据收集

智联招聘网站是中国大型招聘网站之一,发布大量与大数据相关的招聘信息。本文以“大数据”为关键词,利用网络爬虫软件从职称、经验要求、学历要求、工作地点、工作地点等五个维度,抓取各行各业大数据相关岗位的招聘信息、薪水范围。数据共采集自 25 个城市,其中,一线城市为北京、上海、广州、深圳,新增12个一线城市为成都、合肥、杭州,除一线和信心城市外,还有9个城市为大连、福州、哈尔滨。这些招聘信息是在 2020 年 8 月至 2020 年 10 月之间的三个月内发布的,共有 16,551 个在线招聘信息。

(二)数据处理

为了提高非结构化文本数据的质量,需要对数据进行预处理。本文首先对采集到的数据进行重新处理,删除无效和不完整数据后得到14496条有效数据。然后,使用口吃分割将作业名称数据划分为单词。由于数据集包含技术术语,本文在预处理阶段增加了自定义词典,其中包含大数据技术相关术语,如SPARK、SQL、HADOOP、数据分析、数据挖掘等专业术语. 为了保证分词的准确性,增加了正则表达式规则来匹配字符串。最后,使用停用词列表自动过滤掉辅助词、情绪词和其他无意义的词[1]

(三)数据分析

K-means 文本聚类广泛应用于文本分析的许多领域。该算法效率高,可用于大规模数据的聚类。本文采用k-means文本聚类对处理后的作业名称数据进行文本聚类分析。通过结合自然语言处理和聚类算法,提高簇内的相似度,降低簇间的相似度。划分大数据位置,识别不同的大数据位置。在聚类过程中,计算每次聚类后组内的平方和,确定最佳聚类簇数。最后,文本选择了10个聚类,这个聚类数下的组内平方和为0.6[2]

(四)分析结果

有大量的大数据职位和职称,经过聚类分析,将大数据位置分为10个类别,按照词频统计类别中的前5个位置。但是类别6的样本数量较多,所以选取了10个高频位置,有大量的大数据职位和职称。经过聚类分析,将大数据位置分为10个类别,按照词频统计类别中的前5个位置。但是类别6的样本数量较多,所以选取了10个高频位置,聚类关键词和高频帖子的相关性和一致性比较高。1类主要是开发工程师岗位,2类工程师,主要从事数据类3类是数据操作岗位,4类主要从事基础数据录入和管理岗位,5类是对数据分析专员的需求较大,6类是数据统计、数据标注、数据挖掘等职位的最大需求,7类代表数据分析师职位,包括助理、初级、中级和高级其他职位,8类高频是数据分析师和数据分析工程师,第9类主要是与数据销售相关的职位,级别更高,比如销售经理,第10类是与大数据相关的产品经理职位

[3]

  1. 研究结论

本文利用网络爬虫获取大量大数据职位招聘信息,结合口吃分词和正则表达式,利用K-means文本聚类将大数据职位划分为10个不同类别,探索大数据职位需求。通过对数据集和聚类结果的分析,得出以下结论。大数据相关岗位需求集中在一线城市和新一线城市。学历门槛较低,以本科、专科为主,博士、硕士占比很小。一方面,这是因为受过高等教育的人口基数小;另一方面,国内很多高校还没有开设大数据相关的博士、硕士项目。其次,从大数据行业整体来看,企业更倾向于招聘一年以上工作经验的求职者。在一些基础性工作类别中,对经验的要求会降低,而对于高级管理和开发职位,对经验的要求会更高。大数据岗位的薪资水平与其所在的城市类型和职位有关。一方面,一个城市的经济发展影响着工资水平;另一方面,职位的职级和工作内容决定了该职位的薪资水平。聚类结果中,经理级岗位需求低,平均工资高,并且对他们的学历和经验要求比较高。与经理职位相比,对发展岗位的要求较高,薪资水平较其他类别较高,但对经验要求较高,有一定的学历门槛。但数据处理、分析、管理、研究、运营等岗位对学历和经验要求相对较低,因此薪资水平相对较低。

国内对文本挖掘相关的大数据岗位需求的研究较少。本文利用文本挖掘从城市、薪资、教育背景、经历等方面分析大数据的工作需求特征,厘清大数据行业的工作需求现状,为企业和求职者提供大数据需求市场的信息,为各领域文本挖掘的引文研究提供支持。然而,本研究仍存在一些不足。首先,由于招聘网站信息发布形式不均,在采集过程中会遗漏部分数据,在数据预处理过程中会造成诸多困难,对后续聚类效果产生一定影响。其次,聚类结果中存在工作定义非常不明确的类别。本文不对这些类别进行进一步的划分和挖掘,可能会忽略大数据岗位需求中的一些其他需求特征。未来,我们将结合更多文本挖掘技术,如LDA模型、Word2Vec模型等,进一步挖掘大数据职位招聘信息,分析不同职位类别下所需的技术、技能和知识。

参考文献:

  1. 贾永娟. 基于密度的改进K-Means文本聚类算法研究[D]. 山西师范大学.

  2. 毛嘉莉. Text Clustering Algorithm Based on K-Means基于K—means的文本聚类算法[M]. 材料与冶金工程学院, 2009.

  3. 刘睿伦, 叶文豪, 高瑞卿,等. 基于大数据岗位需求的文本聚类研究[J]. 现代图书情报技术.