import re import urllib from bs4 import BeautifulSoup def weixinData(self, name: str) -> str: # 从此处开始编写代码 curns = 'YES' findname = re.compile(r'<td>(.*?)</td>', re.S) findind = re.compile(r'<span><span.*>(.*?)</span><em>.*</span>') urldate = [] url = "http://72.itmc.org.cn:80/JS001/open/show/weixindata.html" head = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36' } text = urllib.request.Request(url, headers=head) html = '' texts = urllib.request.urlopen(text) html = texts.read().decode('utf-8') shem = BeautifulSoup(html, 'html.parser') for tr in shem.find_all('tr'): tr = str(tr) bate = [] ind = re.findall(findind, tr) bate.append(ind) names = re.findall(findname, tr) bate.append(names) urldate.append(bate) # print(urldate) left, right = 1, (len(urldate)) - 1 # print(right) while left <= right: # print(left) tabe = urldate[left] # print(tabe) # print (tabe[0][0]) if tabe[0][0] == name: # print(4) if tabe[1][2][-1] != '+': # print(1) # print(tabe[1][2]) if float(tabe[1][2]) < 90000: curns = 'NO' if str(tabe[1][5])[-1] != '+': # print(2) if int(tabe[1][5]) < 80000: curns = 'NO' if float(tabe[1][1].replace('万', '')) > 300: # print(3) curns = 'NO' left += 1 return curns print(weixinData('占豪'))
时间: 2024-01-16 17:04:38 浏览: 37
这段代码中的问题在于函数weixinData(self, name: str)的定义中使用了self,但是在函数的调用中没有传递任何参数给self。因此,在调用weixinData()函数时,你需要将类的实例作为第一个参数传递给它。如果你只需要调用这个函数而不是在类中使用它,可以将self从函数定义中删除。此外,你还需要给weixinData()函数传递一个字符串参数name,例如weixinData('占豪')。
相关问题
import requests from bs4 import BeautifulSoup import xlwt import time import urllib3 import requests import json
这段代码主要是导入了requests库、BeautifulSoup库、xlwt库、urllib3库和json库。其中requests库是一个基于HTTP协议的Python库,可以用来发送HTTP请求和处理HTTP响应;BeautifulSoup库是一个HTML/XML的解析器,可以用来解析HTML/XML文档;xlwt库是一个Python库,可以用来写Excel文件;urllib3库是一个Python库,可以用来处理HTTP请求和响应;json库是一个Python库,可以用来处理JSON数据。这些库在爬虫开发中非常常用。
另外,这段代码中有重复导入requests库,可以将其中一个删除。
以下是修改后的代码:
```python
import requests
from bs4 import BeautifulSoup
import xlwt
import time
import urllib3
import json
```
from bs4 import BeautifulSoup from bs4 import UnicodeDammit import urllib.request
这是 Python 中用于爬取网页的库和模块。
- `bs4` 库是 BeautifulSoup4,用于解析 HTML 和 XML 文档。
- `UnicodeDammit` 模块是用于将文本转换为 Unicode 编码的模块。
- `urllib.request` 模块是 Python 内置的用于发送 HTTP 请求的库,可以用于获取网页的内容。
通常在爬取网页的时候,需要使用 `urllib.request` 发送请求获取网页内容,然后用 `BeautifulSoup` 解析 HTML 或 XML 文档,最后用 `UnicodeDammit` 将文本内容转换为 Unicode 编码。