python用xpath百度爬取xpath
时间: 2023-11-08 13:14:58 浏览: 100
您好!要使用Python和XPath来爬取百度的内容,您可以按照以下步骤进行操作:
首先,您需要安装所需的Python库。请使用以下命令安装`requests`和`lxml`库:
```python
pip install requests lxml
```
接下来,请使用以下代码段来爬取百度搜索结果的标题和链接:
```python
import requests
from lxml import etree
def search_baidu(query):
url = f"https://www.baidu.com/s?wd={query}"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}
response = requests.get(url, headers=headers)
html = response.text
tree = etree.HTML(html)
titles = tree.xpath('//h3[@class="t"]/a')
for title in titles:
print("标题:", title.text)
print("链接:", title.get("href"))
query = "XPath"
search_baidu(query)
```
这个代码会输出百度搜索结果的标题和链接。您可以将`query`变量设置为您要搜索的关键字。在这个例子中,我们搜索的是"XPath"。
请注意,为了避免被反爬虫机制阻止,我们添加了一个伪装头部信息。
希望这能帮到您!如有任何问题,请随时向我提问。
阅读全文