python http://www.paiming365.com/ 删除 深处//前面的 之后在删除 /后面的
时间: 2023-10-06 13:10:00 浏览: 41
你可以使用 Python 的字符串操作来完成这个需求。可以使用 split() 方法来通过 // 对字符串进行分割,然后使用 split() 方法再次对结果进行分割获取需要的字符串。具体的实现可以如下所示:
```python
url = "http://www.paiming365.com//info/index.html"
split_url = url.split("//")[1].split("/")
result = "http://" + split_url[0] + "/" + split_url[-1]
print(result)
```
最终的输出结果是 http://www.paiming365.com/index.html。这段代码将原始的 URL 通过 // 进行分割得到类似于 ["http:", "www.paiming365.com", "info", "index.html"] 的结果,然后再次对该结果通过 / 进行分割,得到 ["www.paiming365.com", "info", "index.html"],我们只需要保留第一个和最后一个字符串,即 ["www.paiming365.com", "index.html"]。最后将这两个字符串组合起来,得到所需的结果。
相关问题
爬取网站http://www.jdxzz.com/paiming/2022/0407/3965772.html
好的,你需要爬取的是中国机床在线网站的一个排名页面,网址为http://www.jdxzz.com/paiming/2022/0407/3965772.html。同样,你可以使用Python中的requests和beautifulsoup库来实现爬虫。下面是一个简单的示例代码:
```python
import requests
from bs4 import BeautifulSoup
url = "http://www.jdxzz.com/paiming/2022/0407/3965772.html"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
# 提取需要的数据
table = soup.find("table", class_="tablesorter")
data = []
for tr in table.find_all("tr"):
row = []
for td in tr.find_all("td"):
row.append(td.text.strip())
if row:
data.append(row)
print(data)
```
这段代码会爬取排名页面中的表格数据,并将其存储在一个二维列表中。你可以根据自己的需求进行修改和扩展。需要注意的是,有些网站可能会对爬虫进行限制,因此在爬取之前需要先了解网站的爬虫规则。
爬取网站http://www.jdxzz.com/paiming/2022/0407/3965772.html完整代码
好的,以下是完整的Python代码,可以实现爬取中国机床在线网站排名页面http://www.jdxzz.com/paiming/2022/0407/3965772.html的功能:
```python
import requests
from bs4 import BeautifulSoup
url = "http://www.jdxzz.com/paiming/2022/0407/3965772.html"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
# 提取需要的数据
table = soup.find("table", class_="tablesorter")
data = []
for tr in table.find_all("tr"):
row = []
for td in tr.find_all("td"):
row.append(td.text.strip())
if row:
data.append(row)
# 输出结果
for row in data:
print(row)
```
这段代码会输出排名页面中的表格数据,每行数据以列表形式输出。你可以根据自己的需求对数据进行处理和保存。需要注意的是,有些网站可能会对爬虫进行限制,因此在爬取之前需要先了解网站的爬虫规则。另外,爬取页面的速度也应该适当控制,不要给网站带来过大的负担。