用python 爬取某个网页的150行源代码
时间: 2024-12-16 18:25:11 浏览: 1
Python爬虫爬取一个网页上的图片地址实例代码
在Python中,我们可以使用`requests`库获取网页内容,然后使用`BeautifulSoup`库解析HTML并提取特定部分。这里是一个简单的例子,展示如何爬取前150行HTML源代码:
```python
import requests
from bs4 import BeautifulSoup
# 定义目标URL
url = "https://www.example.com" # 替换为你想抓取的网址
# 使用requests获取网页内容
response = requests.get(url)
html_content = response.text
# 创建BeautifulSoup对象,并设置解析器(比如lxml)
soup = BeautifulSoup(html_content, 'lxml')
# 获取前150行HTML源代码
first_150_lines = soup.prettify()[:150] # 使用prettify美化输出
print(first_150_lines)
```
请注意,这只是一个基本示例,实际操作时可能需要处理异常、分页请求以及遵守网站的robots.txt规则。另外,如果你只对特定标签内的内容感兴趣,可以调整BeautifulSoup的选择器。
阅读全文