写一个爬取网页uri保存到本地的代码
时间: 2023-08-31 18:29:15 浏览: 161
### 回答1:
以下是使用Python的示例代码,可用于爬取网页 URI 并将其保存到本地文件中:
```python
import requests
url = 'https://example.com/' # 要爬取的网页 URI
filename = 'urilist.txt' # 要保存到的本地文件名
# 发送 GET 请求获取网页内容
response = requests.get(url)
# 解析网页内容,获取所有的链接 URI
uris = []
for link in response.iter_lines():
if b'href' in link: # 确定是否包含链接
uri = link.decode('utf-8').split('href="')[1].split('"')[0]
uris.append(uri)
# 将链接 URI 写入本地文件
with open(filename, 'w') as file:
for uri in uris:
file.write(uri + '\n')
```
这个代码使用了 Python 的 `requests` 库来发送 HTTP 请求并获取网页内容,使用了字符串解析技巧来提取链接 URI,然后使用文件操作将 URI 保存到本地文件中。请注意,这个代码仅能获取网页中包含的链接 URI,如果需要深入爬取网站内容,需要使用更高级的爬虫技术。
### 回答2:
下面是一个使用Python编写的爬取网页URI并保存到本地的代码示例:
```python
import requests
def save_url_content(url, file_path):
try:
response = requests.get(url)
if response.status_code == 200:
with open(file_path, 'wb') as file:
file.write(response.content)
print("网页内容保存成功!")
else:
print("请求失败,状态码:", response.status_code)
except requests.RequestException as e:
print("网络请求出错:", e)
url = "https://www.example.com" # 替换为要爬取的网页URL
file_path = "saved_content.html" # 替换为本地保存路径
save_url_content(url, file_path)
```
以上代码使用了Python中的`requests`库,首先发送GET请求获取网页的内容,然后将内容保存到本地文件中。如果请求成功,并且状态码为200,将会将网页内容写入到指定的本地文件中。如果请求出错,则会打印相应的错误信息。请注意将代码中的`url`和`file_path`替换为你要爬取的网页URL和保存的本地文件路径。
### 回答3:
下面是一个用Python编写的简单代码,用于爬取网页URI并将其保存到本地:
```python
import requests
def save_web_uris(url, filename):
response = requests.get(url)
content = response.text
# 提取网页URI
uris = extract_uris(content)
with open(filename, 'w') as file:
for uri in uris:
file.write(uri + '\n')
print(f"成功将网页URI保存到文件{filename}中。")
def extract_uris(content):
uris = []
start_index = 0
while True:
start_index = content.find("http", start_index)
if start_index == -1:
break
end_index = content.find("\"", start_index)
uri = content[start_index:end_index]
uris.append(uri)
start_index = end_index + 1
return uris
if __name__ == "__main__":
url = "https://example.com" # 替换为你要爬取的网页URL
filename = "uris.txt" # 替换为你保存URI的文件名
save_web_uris(url, filename)
```
这段代码使用了Python的requests库来发送HTTP请求并获取网页内容。通过解析网页内容,提取出所有以"http"开头、以引号结尾的URI。然后,将这些URI逐行写入一个指定的文本文件中。
你可以将代码中的`url`替换为你要爬取的网页URL,将`filename`替换为你想要保存URI的文件名。执行代码后,它将把提取到的URI保存到指定的文本文件中。
阅读全文