在data_url=tr.find_all('td')[5] 下获取 <a href="//2022.cctv.com/data/cross_country_skiing04/index.shtml?documentCode=CCSWSKIATHLN----------FNL-000100--" target="_blank">成绩公报</a> 的href的内容,怎么在代码后面添加
时间: 2024-03-16 19:44:13 浏览: 8
你可以在获取到 `data_url=tr.find_all('td')[5]` 后,使用以下代码获取到 `href` 的内容:
```
href = data_url.find('a')['href']
```
完整代码示例如下:
```
data_url = tr.find_all('td')[5]
href = data_url.find('a')['href']
```
这样就可以获取到对应的链接了。
相关问题
优化代码def parse_data(contents): contents = contents.lower() title_start = contents.find('<title>') title_end = contents.find('</title>') title = contents[title_start+len('<title>'):title_end] text_start = contents.find('<text>') text_end = contents.find('</text>') text = contents[text_start+len('<text>'):text_end] return title+" "+text
可以将代码进行如下优化:
def parse_data(contents):
contents = contents.lower()
title_start = contents.find('<title>')
title_end = contents.find('</title>')
title = contents[title_start + len('<title>'):title_end]
text_start = contents.find('<text>')
text_end = contents.find('</text>')
text = contents[text_start + len('<text>'):text_end]
return title + " " + text
selector = parsel.Selector(html_data) lis = selector.css('.list_item h2 a::attr(href)').getall() details = [] for li in lis: detail_url = 'https://travel.qunar.com'+ li detail_html = requests.get(detail_url).text只能输出最后一个域名的网站
根据您提供的代码,您将多个域名与一个网站合并的方式是将多个 detail_url 存储在一个列表中,然后对列表进行循环遍历,依次发送请求获取每个网站的 html 数据。
在循环中,您使用 `detail_url = 'https://travel.qunar.com'+ li` 将当前遍历到的 li 和 'https://travel.qunar.com' 进行拼接,从而获取完整的 detail_url。但是,您没有将获取到的每个网站的 html 数据存储在一个列表中,而是每次都将获取到的 html 数据赋值给了 detail_html 变量,因此最终 detail_html 只会保存最后一个网站的 html 数据。
为了解决这个问题,您可以将每个网站的 html 数据存储在一个列表中,然后在循环结束后对列表进行处理。修改后的代码如下:
```python
selector = parsel.Selector(html_data)
lis = selector.css('.list_item h2 a::attr(href)').getall()
details = []
for li in lis:
detail_url = 'https://travel.qunar.com' + li
detail_html = requests.get(detail_url).text
details.append(detail_html)
# 对获取到的每个网站的 html 数据进行处理
for detail_html in details:
# 处理代码
pass
```
这样,每次获取到的网站的 html 数据都会被存储在 details 列表中,循环结束后可以对列表中的数据进行处理。