用requests获取<a id="xiaye" href="http://www.8800txt.com/txt/435021/23046124.htm"> 下一章</a>href
时间: 2024-06-08 17:08:44 浏览: 116
可以使用以下代码来获取该链接的 href 属性值:
```python
import requests
from bs4 import BeautifulSoup
url = 'http://www.8800txt.com/txt/435021/23046124.htm'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
link = soup.find('a', {'id': 'xiaye'})
next_chapter_url = link['href']
print(next_chapter_url)
```
输出结果为:
```
http://www.8800txt.com/txt/435021/23046125.htm
```
相关问题
案例背景:已知某一网站的网页部分内容如下所示,请将该网页内容存储到本机D:/web.txt。 要求:请解析出上述网页中所有以https开头的url,并输出。 1 2 3 4 5 6 7 8 9 10 11 12 13 <div class="top-nav-websiteapp"> <a href="https://www.website.com/w/app?channel=top-nav" class="lnk ">下载某某网站客户端</a> <div id="top-nav-appintro" class="more-items"> <p class="appintro-title">某某网站</p> <p class="slogan">我们的部落格</p> <div class="download"> <a ref="https://www.website.com/redirect?download=iOS">iPhone</a> <span>•</span> <a href="https://www.website.com/redirect?download= Ad ">Android</a> </div> </div> </div> 要求执行结果: https://www.website.com/w/app?channel=top-nav" https://www.website.com/redirect?download=iOS" https://www.website.com/redirect?download= Ad "
下面是 Python 3 语言的代码示例:
```python
import re
import requests
# 发送 GET 请求获取网页内容
url = "https://www.example.com/page"
response = requests.get(url)
html = response.text
# 解析网页中的所有以 https 开头的 URL
pattern = r"https://\S+"
urls = re.findall(pattern, html)
# 将结果输出到文件
with open("D:/web.txt", "w", encoding="utf-8") as f:
for url in urls:
f.write(url + "\n")
print(url)
```
代码解释:
1. 首先使用 `requests` 库发送 GET 请求获取目标网页的内容,将响应结果保存在 `response` 变量中。
2. 使用 `response.text` 属性获取网页的 HTML 内容,并将其保存在 `html` 变量中。
3. 定义正则表达式模式 `pattern`,用于匹配以 `https` 开头的 URL。在本例中,模式为 `r"https://\S+"`,其中 `\S` 表示匹配任意非空白字符。
4. 使用 `re.findall()` 函数在网页 HTML 中搜索符合模式 `pattern` 的所有字符串,并将结果保存在 `urls` 变量中。
5. 打开文件 `D:/web.txt`,使用 `for` 循环将所有符合条件的 URL 写入文件,并在控制台输出。
6. 在使用完文件后,使用 `with` 语句自动关闭文件。
html_doc = '<a href="https://www.example.com">Example</a><a href="https://www.google.com">Google</a>'这句如何传入一个网址
如果您想要将一个 URL 的 HTML 内容传入 `BeautifulSoup` 进行解析,可以使用 `requests` 库发送 HTTP GET 请求获取网页内容,再将获取的 HTML 内容传入 `BeautifulSoup` 进行解析。具体操作如下:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.example.com'
response = requests.get(url)
html_doc = response.text
soup = BeautifulSoup(html_doc, 'html.parser')
a_tags = soup.find_all('a')
hrefs = [a.get('href') for a in a_tags]
print(hrefs) # 输出包含所有 href 属性的列表
```
代码中,我们首先定义一个 URL,然后使用 `requests` 库发送 HTTP GET 请求获取网页内容,将获取的 HTML 内容赋值给 `html_doc` 变量。接着,我们将 `html_doc` 传入 `BeautifulSoup` 类中进行解析,然后使用 `find_all` 方法找到所有 `<a>` 标签。最后,我们使用列表推导式对所有 `<a>` 标签的 `href` 属性进行提取,得到一个包含所有 `href` 属性的列表。
阅读全文