python爬虫获取url地址脚本
时间: 2023-12-04 18:02:44 浏览: 26
你可以使用Python的requests库来编写一个简单的爬虫脚本来获取URL地址。以下是一个示例代码:
```python
import requests
def get_url_content(url):
try:
response = requests.get(url)
response.raise_for_status()
return response.text
except requests.exceptions.RequestException as e:
print('请求出错:', e)
return None
# 在这里传入你想要获取内容的URL
url = 'https://www.example.com'
content = get_url_content(url)
if content:
print(content)
```
在这个示例中,我们定义了一个`get_url_content`函数,它接受一个URL作为参数,并使用requests库发送GET请求来获取该URL的内容。如果请求成功,它将返回页面的文本内容;如果请求出错,它将打印错误信息并返回None。
你可以将你想要获取内容的URL传递给`get_url_content`函数,然后获取到的内容可以用于进一步处理或保存。
相关问题
Python 爬虫知乎浏览量脚本
以下是一个 Python 爬虫脚本,可以用于获取知乎某个问题的浏览量:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.zhihu.com/question/XXXXXXXXX' # 将 XXXXXXXXX 替换为对应问题的 ID
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
r = requests.get(url, headers=headers)
soup = BeautifulSoup(r.text, 'lxml')
view_num = soup.find('strong', class_='NumberBoard-itemValue').text
print('问题浏览量:' + view_num)
```
需要注意的是,上述代码中的 `XXXXXXXXX` 部分需要替换为对应问题的 ID。具体方法是进入对应问题页面,在浏览器地址栏中可以看到类似 `https://www.zhihu.com/question/XXXXXXXXX` 的地址,其中的 `XXXXXXXXX` 就是该问题的 ID。
python爬虫爬取图片脚本
Python爬虫是一种利用Python语言编写的程序,通过模拟人的浏览器行为获取网页数据,进而提取所需信息的技术。如果您想爬取图片,可以使用Python的requests库和beautifulsoup库进行实现。
以下是一个简单的爬取图片脚本示例:
```python
import requests
from bs4 import BeautifulSoup
# 请求页面
url = "https://www.example.com"
html = requests.get(url).text
# 解析页面
soup = BeautifulSoup(html, "html.parser")
img_tags = soup.find_all("img")
# 下载图片
for img in img_tags:
try:
img_url = img["src"]
img_data = requests.get(img_url).content
with open("image/" + img_url.split("/")[-1], "wb") as f:
f.write(img_data)
print("下载成功:" + img_url)
except Exception as e:
print("下载失败:" + img_url + ",错误信息:" + str(e))
```
以上脚本通过requests库请求页面,使用beautifulsoup库解析页面,并通过循环遍历每一个img标签来获取图片地址。接着,使用requests库下载每一个图片,并将其保存到本地。