基于K-means文本聚类的中国大数据岗位需求分析-中国期刊网

首页 > 《教育学文摘》 > 2022年1期 > 基于K-means文本聚类的中国大数据岗位需求分析

（整期优先）网络出版时间：2022-04-19

作者: 邹启宇李康唐晨曦

文化科学 >教育学

打印

同系列资源

/ 2

基于 K-means文本聚类的中国大数据岗位需求分析

邹启宇李康唐晨曦

山东英才学院 250104

摘要：本文旨在通过k-means文本聚类了解国内大数据岗位需求特点，帮助企业和员工识别大数据人才，推动大数据相关研究的进一步发展。首先利用爬虫软件对招聘网“大数据”的招聘信息进行爬取招聘网站。然后利用解霸分词和K-means文本聚类对大数据招聘岗位进行聚类，聚类数由组内平均平方和确定。最后，将大数据岗位划分为10类，从整体数据集和聚类结果的角度对大数据岗位的城市分布、薪资水平、学历要求、经验要求等进行讨论和分析，明确大数据岗位的特点。大数据工作需求。分析结果表明，大数据的工作需求主要分布在一线城市和新一线城市。企业更倾向于大专或本科学历及一年以上相关工作经验的求职者。不同类型的工作之间存在工资差异。职位越高，对学历和经验的要求就越高。

关键词：大数据；K-means技术；岗位需求分析

一、中国大数据岗位需求分析探究

现代社会已进入大数据时代，数据已被普遍认为是目前最具竞争力和价值的资产，已成为世界各国的重要战略资源之一。世界各国纷纷制定大数据战略，抢占大数据发展战略制高点。中国高度重视大数据在促进经济社会发展中的地位和作用。2014年，大数据首次写入政府工作报告。大数据逐渐成为各级政府的热门话题。政府数据开放共享、数据流通交易、用大数据保障和改善民生的理念已经深入人心。此后，国家有关部门出台了一系列鼓励大数据产业发展的政策。在国家的高度重视和政策支持下，大数据产业迅速兴起和发展，大量与大数据相关的工作应运而生。因此，企业对数据人才的需求大大增加。根据《2016-2020年中国大数据产业全景调查及发展趋势预测报告》，2013年，中国大数据市场需求规模为11.2亿元，是上年2014年和2015年的两倍多， 2016年超过100亿元，预计2020年中国大数据市场需求规模有望达到1070亿元，可以推测未来几年大数据市场规模将呈指数级增长。然而，中国大数据技术的发展和兴起时间不长，大数据人才的培养并没有跟上企业的需求。根据Datalink Search发布的大数据人才报告，目前中国只有46万大数据人才。未来3-5年大数据人才缺口将达到150万人。其中，数据分析人才需求旺盛，但分析人才的数据供给指数偏低，仅为0.05，高度稀缺。据来自中国商业联合会数据分析专业委员会的统计，中国的基本数据人才缺口将在未来达到1400万，中国的互联网行业招聘岗位的60％以上，正在招募大数据人才。那么公司目前有哪些数据岗位，这些岗位对人才有哪些具体要求？本文通过对我国大数据人才网招聘信息的收集和统计分析，梳理出大数据相关岗位的人才需求、薪酬、地域分布、工作类别等，进而分析我国大数据工作的需求。本文深入分析大数据人才需求，为数据人才培养和求职者知识能力建设提供参考，帮助企业快速定位人才，科学有效地推进大数据人才培养，明确大数据人才定位，提升大数据人才水平具有重要意义。

研究方法

（一）数据收集

智联招聘网站是中国大型招聘网站之一，发布大量与大数据相关的招聘信息。本文以“大数据”为关键词，利用网络爬虫软件从职称、经验要求、学历要求、工作地点、工作地点等五个维度，抓取各行各业大数据相关岗位的招聘信息、薪水范围。数据共采集自 25 个城市，其中，一线城市为北京、上海、广州、深圳，新增12个一线城市为成都、合肥、杭州，除一线和信心城市外，还有9个城市为大连、福州、哈尔滨。这些招聘信息是在 2020 年 8 月至 2020 年 10 月之间的三个月内发布的，共有 16,551 个在线招聘信息。

（二）数据处理

为了提高非结构化文本数据的质量，需要对数据进行预处理。本文首先对采集到的数据进行重新处理，删除无效和不完整数据后得到14496条有效数据。然后，使用口吃分割将作业名称数据划分为单词。由于数据集包含技术术语，本文在预处理阶段增加了自定义词典，其中包含大数据技术相关术语，如SPARK、SQL、HADOOP、数据分析、数据挖掘等专业术语. 为了保证分词的准确性，增加了正则表达式规则来匹配字符串。最后，使用停用词列表自动过滤掉辅助词、情绪词和其他无意义的词^[1]。

（三）数据分析

K-means 文本聚类广泛应用于文本分析的许多领域。该算法效率高，可用于大规模数据的聚类。本文采用k-means文本聚类对处理后的作业名称数据进行文本聚类分析。通过结合自然语言处理和聚类算法，提高簇内的相似度，降低簇间的相似度。划分大数据位置，识别不同的大数据位置。在聚类过程中，计算每次聚类后组内的平方和，确定最佳聚类簇数。最后，文本选择了10个聚类，这个聚类数下的组内平方和为0.6^[2]。

（四）分析结果

有大量的大数据职位和职称，经过聚类分析，将大数据位置分为10个类别，按照词频统计类别中的前5个位置。但是类别6的样本数量较多，所以选取了10个高频位置，有大量的大数据职位和职称。经过聚类分析，将大数据位置分为10个类别，按照词频统计类别中的前5个位置。但是类别6的样本数量较多，所以选取了10个高频位置，聚类关键词和高频帖子的相关性和一致性比较高。1类主要是开发工程师岗位，2类工程师，主要从事数据类3类是数据操作岗位，4类主要从事基础数据录入和管理岗位，5类是对数据分析专员的需求较大，6类是数据统计、数据标注、数据挖掘等职位的最大需求，7类代表数据分析师职位，包括助理、初级、中级和高级其他职位，8类高频是数据分析师和数据分析工程师，第9类主要是与数据销售相关的职位，级别更高，比如销售经理，第10类是与大数据相关的产品经理职位

^[3]。

研究结论

本文利用网络爬虫获取大量大数据职位招聘信息，结合口吃分词和正则表达式，利用K-means文本聚类将大数据职位划分为10个不同类别，探索大数据职位需求。通过对数据集和聚类结果的分析，得出以下结论。大数据相关岗位需求集中在一线城市和新一线城市。学历门槛较低，以本科、专科为主，博士、硕士占比很小。一方面，这是因为受过高等教育的人口基数小；另一方面，国内很多高校还没有开设大数据相关的博士、硕士项目。其次，从大数据行业整体来看，企业更倾向于招聘一年以上工作经验的求职者。在一些基础性工作类别中，对经验的要求会降低，而对于高级管理和开发职位，对经验的要求会更高。大数据岗位的薪资水平与其所在的城市类型和职位有关。一方面，一个城市的经济发展影响着工资水平；另一方面，职位的职级和工作内容决定了该职位的薪资水平。聚类结果中，经理级岗位需求低，平均工资高，并且对他们的学历和经验要求比较高。与经理职位相比，对发展岗位的要求较高，薪资水平较其他类别较高，但对经验要求较高，有一定的学历门槛。但数据处理、分析、管理、研究、运营等岗位对学历和经验要求相对较低，因此薪资水平相对较低。

国内对文本挖掘相关的大数据岗位需求的研究较少。本文利用文本挖掘从城市、薪资、教育背景、经历等方面分析大数据的工作需求特征，厘清大数据行业的工作需求现状，为企业和求职者提供大数据需求市场的信息，为各领域文本挖掘的引文研究提供支持。然而，本研究仍存在一些不足。首先，由于招聘网站信息发布形式不均，在采集过程中会遗漏部分数据，在数据预处理过程中会造成诸多困难，对后续聚类效果产生一定影响。其次，聚类结果中存在工作定义非常不明确的类别。本文不对这些类别进行进一步的划分和挖掘，可能会忽略大数据岗位需求中的一些其他需求特征。未来，我们将结合更多文本挖掘技术，如LDA模型、Word2Vec模型等，进一步挖掘大数据职位招聘信息，分析不同职位类别下所需的技术、技能和知识。

参考文献：

贾永娟. 基于密度的改进K-Means文本聚类算法研究[D]. 山西师范大学.
毛嘉莉. Text Clustering Algorithm Based on K-Means基于K—means的文本聚类算法[M]. 材料与冶金工程学院, 2009.
刘睿伦, 叶文豪, 高瑞卿,等. 基于大数据岗位需求的文本聚类研究[J]. 现代图书情报技术.

来源期刊

教育学文摘

2022年1期

基于K-means文本聚类的中国大数据岗位需求分析

基于 K-means文本聚类的中国大数据岗位需求分析

（一）数据收集

（二）数据处理

（三）数据分析

来源期刊

相关推荐

同分类资源更多

相关关键词

基于K-means文本聚类的中国大数据岗位需求分析

基于 K-means文本聚类的中国大数据岗位需求分析

（一）数据收集

（二）数据处理

（三）数据分析

来源期刊

相关推荐

同分类资源 更多

相关关键词

同分类资源更多