import requests_html from requests_html import HTMLSession session=HTMLSession() url='https://www.dxsbb.com/news/7566.html' r=session.get(url) table=r.html.find('tbody>tr') for row in table[:41]: l=row.text.split() s='' for i in l: s=s+'{0:^14}'.format(i) print(s) 分析上面的代码实现过程步骤
时间: 2024-03-31 21:36:17 浏览: 146
TAIEX数据:可从https://www.twse.com.tw获取Json原始数据
这段代码实现的步骤如下:
1. 导入 requests_html 库及其子模块 HTMLSession。
2. 创建了一个 HTMLSession 对象。
3. 指定了要访问的 URL。
4. 通过 session 对象的 get 方法获取了该 URL 对应的网页。
5. 使用 r.html.find 方法查找网页中 tbody 标签下的所有 tr 标签,并将它们存储在一个列表对象 table 中。
6. 遍历 table 中的前 41 个 tr 标签,对每个 tr 标签进行如下操作:
a. 将该行文本内容按空格分割,存储在一个列表对象 l 中。
b. 创建一个空字符串 s,依次将 l 中的每个元素按照居中对齐的格式添加到 s 中。
c. 输出字符串 s,即该行居中对齐的文本内容。
总的来说,这段代码实现了对指定网页中的表格数据进行抓取,并将其格式化输出。
阅读全文