beautifulsoup .text.strip
时间: 2023-09-16 22:09:57 浏览: 150
在BeautifulSoup中,.text.strip()是用于获取标签内的文本内容并去除前后的空格和换行符的方法。这个方法可以应用在某个特定的标签上,比如说<div>标签,它会返回该标签内所有的文本内容,并且去除前后的空格和换行符。这样做可以方便我们提取出所需的文本数据,而不受额外的空格和换行符的干扰。举个例子,如果一个<div>标签内包含了以下文本内容:1、some text 2、 3、more text 4、even more text,那么使用.text.strip()方法会返回"1、some text 2、 3、more text 4、even more text",即去除了前后的空格和换行符的文本内容。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
相关问题
beautifulsoup中find.text.strip()
在BeautifulSoup中,find()是用来查找第一个匹配指定标签的元素的方法。而text属性则用来获取该元素的文本内容。strip()方法则用来去除文本内容中的空格和换行符等空白字符。因此,find.text.strip()的作用是在找到的第一个匹配标签元素中获取其文本内容,并去除其中的空白字符。
你可以帮我把以下元素的索引更新到这里面么soup = BeautifulSoup(response.text, "html.parser") for row in soup.select(".table-row"): departure_port = row.select_one(".departure-port").text.strip() departure_time = row.select_one(".departure-time").text.strip() arrival_port = row.select_one(".arrival-port").text.strip() arrival_time = row.select_one(".arrival-time").text.strip() vessel_name = row.select_one(".vessel-name").text.strip()
当然可以,以下是您所需要的所有元素的索引:
```python
soup = BeautifulSoup(response.text, "html.parser")
for row in soup.select(".table-row"):
departure_port = row.select_one(".departure-port").text.strip()
departure_time = row.select_one(".departure-time").text.strip()
arrival_port = row.select_one(".arrival-port").text.strip()
arrival_time = row.select_one(".arrival-time").text.strip()
vessel_name = row.select_one(".vessel-name").text.strip()
terminal = row.select_one('div[class="mds-text--medium-bold"]').text.strip()
voyage_number = row.select('td')[5].text.strip()
transit_time = row.select('td')[6].text.strip()
service_name = row.select('td')[7].text.strip()
service_type = row.select('td')[8].text.strip()
price = row.select('td')[9].text.strip()
print(departure_port, departure_time, arrival_port, arrival_time, vessel_name, terminal, voyage_number, transit_time, service_name, service_type, price)
```
这里增加了以下元素的索引:
- `terminal`:使用了之前提到的 CSS 选择器来查找具有 `class="mds-text--medium-bold"` 属性的 `div` 元素;
- `voyage_number`:使用了 `row.select('td')[5]` 来获取行中第 6 个 `td` 元素,并使用 `text` 属性来获取元素的文本内容;
- `transit_time`:使用了 `row.select('td')[6]` 来获取行中第 7 个 `td` 元素,并使用 `text` 属性来获取元素的文本内容;
- `service_name`:使用了 `row.select('td')[7]` 来获取行中第 8 个 `td` 元素,并使用 `text` 属性来获取元素的文本内容;
- `service_type`:使用了 `row.select('td')[8]` 来获取行中第 9 个 `td` 元素,并使用 `text` 属性来获取元素的文本内容;
- `price`:使用了 `row.select('td')[9]` 来获取行中第 10 个 `td` 元素,并使用 `text` 属性来获取元素的文本内容。
这些元素的索引可以通过观察网页的 HTML 代码和属性来确定。
阅读全文