使用pycharm爬取文本
时间: 2023-12-15 18:33:05 浏览: 156
以下是使用PyCharm爬取文本的步骤:
1.导入所需库
```python
import requests
from bs4 import BeautifulSoup
```
2.获取网页内容
```python
url = 'https://www.example.com' # 将example.com替换为你要爬取的网页链接
response = requests.get(url)
html = response.content
```
3.解析网页内容
```python
soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text()
```
4.处理文本内容
```python
# 去除文本中的空格和换行符
text = text.replace('\n', '').replace('\r', '').replace('\t', '').strip()
# 将文本按照空格分割成单词列表
words = text.split(' ')
# 统计每个单词出现的次数
word_count = {}
for word in words:
if word in word_count:
word_count[word] += 1
else:
word_count[word] = 1
# 按照单词出现次数从大到小排序
sorted_word_count = sorted(word_count.items(), key=lambda x: x[1], reverse=True)
# 输出前10个出现次数最多的单词
for i in range(10):
print(sorted_word_count[i][0], sorted_word_count[i][1])
```
阅读全文