用Python写一个小爬虫
时间: 2023-05-28 08:05:10 浏览: 55
以下是一个简单的Python爬虫,用于获取豆瓣电影的电影名和评分:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
res = requests.get(url)
soup = BeautifulSoup(res.text, 'html.parser')
movies = soup.select('.hd')
ratings = soup.select('.rating_num')
for i in range(len(movies)):
print(movies[i].a.span.text, ratings[i].text)
```
解释:
1. 首先导入所需的库:requests用于获取网页内容,BeautifulSoup用于解析HTML文档。
2. 指定要爬取的网址,并使用requests库获取网页内容。
3. 使用BeautifulSoup将HTML文档解析为一个BeautifulSoup对象,便于后续操作。
4. 使用CSS选择器获取电影名和评分,分别存储在movies和ratings变量中。
5. 使用循环遍历movies和ratings,输出每个电影的名字和评分。
相关问题
使用Python写一个小爬虫
好的,我可以为您提供一些关于使用Python写小爬虫的基本知识和建议。您可以选择使用Python的第三方库如 Beautiful Soup、Scrapy、requests 等来进行网页爬取和数据提取。您需要学习一些基本的 HTML 和 CSS 知识,以便您更好地理解和定位您想要的信息。同时请注意要遵循网站的 robots 协议,不要过度请求服务器,以免造成不必要的压力。希望这些信息对您有所帮助!
用python写一个爬虫小程序
好的,我可以为你写一个 Python 爬虫小程序的示例。
首先,我们需要安装一些库,包括 `requests` 和 `BeautifulSoup`。你可以使用以下命令进行安装:
```
pip install requests
pip install beautifulsoup4
```
然后,我们可以使用 `requests` 库发起一个 HTTP 请求来获取网页的源代码。例如,我们可以使用以下代码来获取百度首页的源代码:
```python
import requests
url = "http://www.baidu.com"
response = requests.get(url)
html = response.text
print(html)
```
接下来,我们可以使用 `BeautifulSoup` 库来解析网页源代码,并提取我们感兴趣的信息。例如,我们可以使用以下代码来提取百度首页上的所有链接:
```python
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
links = soup.find_all("a")
for link in links:
print(link.get("href"))
```
最后,我们可以将这些代码结合起来,并加上一些循环和判断逻辑,就可以写出一个简单的爬虫程序了。例如,我们可以写一个爬虫程序来抓取百度首页上的所有链接,并递归地访问这些链接所对应的页面,直到所有页面都被访问过为止。
希望这个示例能帮到你