用python写一个爬虫,爬取csdn
时间: 2024-05-14 20:14:33 浏览: 128
学不会python多线程爬虫的函数调用,也就是面对方法爬虫,求解(csdn)————程序.pdf
的文章标题和链接
```python
import requests
from bs4 import BeautifulSoup
url = 'https://blog.csdn.net/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
for article in soup.select('.article-list .title h2 a'):
print(article.text)
print(article['href'])
```
解释:
1. 首先导入`requests`和`BeautifulSoup`模块。
2. 定义要爬取的网址。
3. 发送请求并获取响应。
4. 使用`BeautifulSoup`解析响应文本。
5. 遍历文章列表中的每一篇文章,并输出标题和链接。其中,`soup.select('.article-list .title h2 a')`表示选择所有class为`article-list`和`title`的元素下的`h2`标签下的`a`标签。
阅读全文