读取“招聘信息.xlsx”,词云方式展现样本涉及专业技术、工具,分析各个技术、工具名词占比,尝试给出行业领域、技术栈 与薪资之间的关系。最终总结出3个最值得学习的技术栈代码
时间: 2023-08-18 08:08:41 浏览: 154
好的,让我逐步解答您的问题:
1. 读取“招聘信息.xlsx”,词云方式展现样本涉及专业技术、工具;
首先,我们需要安装相应的库,比如 `pandas` 用于读取 excel 文件,`jieba` 用于中文分词,以及 `wordcloud` 用于生成词云。然后,我们可以先读取 excel 文件,获取其中的文本内容,并进行中文分词和数据清洗,最后使用 `wordcloud` 库生成词云。下面是一个示例代码:
```python
import pandas as pd
import jieba
from wordcloud import WordCloud
# 读取 excel 文件
df = pd.read_excel('招聘信息.xlsx')
# 获取文本内容
text = ''.join(df['职位描述'])
# 中文分词和数据清洗
words = jieba.lcut(text)
stopwords = ['任职', '岗位', '职责', '要求', '相关', '工作', '熟悉', '技术', '经验', '优先', '具备', '以上', '能力', '熟练', '良好', '进行', '深入', '掌握', '具有', '研究', '完成', '负责', '参与', '项目', '能够', '编写', '了解', '实现', '设计', '分析', '熟知', '熟悉掌握', '熟悉使用', '熟练掌握', '熟练使用']
filtered_words = [word for word in words if word not in stopwords]
# 生成词云
wordcloud = WordCloud(width=800, height=600, background_color='white', font_path='simhei.ttf').generate(' '.join(filtered_words))
wordcloud.to_file('wordcloud.png')
```
2. 分析各个技术、工具名词占比,尝试给出行业领域、技术栈与薪资之间的关系;
为了分析各个技术、工具名词的占比,我们可以使用 Python 的数据分析库 `pandas` 和文本处理库 `jieba`。具体地,我们可以统计每个名词在文本中出现的次数,并计算其占比。然后,我们可以根据关键词的出现情况,分析行业领域、技术栈与薪资之间的关系。下面是一个示例代码:
```python
import pandas as pd
import jieba
# 读取 excel 文件
df = pd.read_excel('招聘信息.xlsx')
# 获取文本内容
text = ''.join(df['职位描述'])
# 中文分词和数据清洗
words = jieba.lcut(text)
stopwords = ['任职', '岗位', '职责', '要求', '相关', '工作', '熟悉', '技术', '经验', '优先', '具备', '以上', '能力', '熟练', '良好', '进行', '深入', '掌握', '具有', '研究', '完成', '负责', '参与', '项目', '能够', '编写', '了解', '实现', '设计', '分析', '熟知', '熟悉掌握', '熟悉使用', '熟练掌握', '熟练使用']
filtered_words = [word for word in words if word not in stopwords]
# 统计词频并计算占比
word_count = {}
for word in filtered_words:
if word not in word_count:
word_count[word] = 0
word_count[word] += 1
total_count = sum(word_count.values())
word_freq = {word: count / total_count for word, count in word_count.items()}
# 输出关键词的占比
for word, freq in sorted(word_freq.items(), key=lambda x: x[1], reverse=True):
print(word, freq)
```
3. 最终总结出3个最值得学习的技术栈代码;
根据前面的分析结果,我们可以选择占比较高的技术栈作为学习的方向。比如,如果我们发现占比较高的关键词是 Python、机器学习、深度学习、数据挖掘、数据分析等,那么我们可以考虑学习这些方面的知识。下面是一个示例代码,用于输出占比最高的前 3 个技术栈:
```python
import pandas as pd
import jieba
# 读取 excel 文件
df = pd.read_excel('招聘信息.xlsx')
# 获取文本内容
text = ''.join(df['职位描述'])
# 中文分词和数据清洗
words = jieba.lcut(text)
stopwords = ['任职', '岗位', '职责', '要求', '相关', '工作', '熟悉', '技术', '经验', '优先', '具备', '以上', '能力', '熟练', '良好', '进行', '深入', '掌握', '具有', '研究', '完成', '负责', '参与', '项目', '能够', '编写', '了解', '实现', '设计', '分析', '熟知', '熟悉掌握', '熟悉使用', '熟练掌握', '熟练使用']
filtered_words = [word for word in words if word not in stopwords]
# 统计词频并计算占比
word_count = {}
for word in filtered_words:
if word not in word_count:
word_count[word] = 0
word_count[word] += 1
total_count = sum(word_count.values())
word_freq = {word: count / total_count for word, count in word_count.items()}
# 输出占比最高的前 3 个技术栈
tech_stacks = sorted(word_freq.items(), key=lambda x: x[1], reverse=True)[:3]
for tech_stack in tech_stacks:
print(tech_stack[0])
```
以上就是对您提出的问题的解答,希望能对您有所帮助。
阅读全文