写完整的python爬虫代码
时间: 2024-10-06 13:01:10 浏览: 26
python爬虫代码源码.rar
Python编写完整爬虫代码通常涉及到使用一些库,如requests、BeautifulSoup或Scrapy等。下面是一个基本的Python网络爬虫使用`requests`和`BeautifulSoup`来抓取HTML内容的例子,假设我们要从一个网站抓取标题:
```python
# 导入需要的库
import requests
from bs4 import BeautifulSoup
def simple_web_scraper(url):
# 发送HTTP GET请求获取网页内容
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 找到所有title标签并提取文本
titles = [title.text for title in soup.find_all('title')]
return titles
else:
print(f"Failed to fetch the page. Status code: {response.status_code}")
return []
# 使用函数并打印结果
url_to_crawl = "https://www.example.com"
titles = simple_web_scraper(url_to_crawl)
print("Titles:", titles)
阅读全文