用python写一个这个https://www.qcc.com/firm/f1c5372005e04ba99175d5fd3db7b8fc.html网址的爬虫要求获取名称和地址
时间: 2023-06-04 13:05:17 浏览: 71
好的,我可以为您编写一个Python爬虫来获取指定网址上的公司名称和地址。以下是代码示例:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.qcc.com/firm/f1c5372005e04ba99175d5fd3db7b8fc.html'
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
company_name = soup.find('a', attrs={'class': 'ma_h1'}).text.strip()
company_address = soup.find('td', attrs={'data-header': '所在地'}).text.strip()
print('公司名称:{}'.format(company_name))
print('公司地址:{}'.format(company_address))
```
请注意,这个爬虫只适用于特定的URL,如果您需要获取其他网站的信息,需要对代码进行相应的修改。
相关问题
帮我用python写一个这个网址https://www.qcc.com/在输入框内输入任意企业名称可以获得企业名称和地址的爬虫
很高兴为您服务!以下是Python爬虫程序,可以输入任意企业名称并获取企业名称和地址:
```python
import requests
from bs4 import BeautifulSoup
# 输入你想查询的企业名称
company_name = input("请输入你想查询的企业名称:")
# 构建URL
url = "https://www.qcc.com/search?key=" + company_name
# 请求网页并获取html内容
html = requests.get(url).content
# 解析html内容
soup = BeautifulSoup(html, 'html.parser')
company_list = soup.find_all(class_='list-group-item clearfix')
# 遍历企业列表并输出企业名称和地址
for company in company_list:
company_info = company.find(class_='text-primary').get_text().strip() + " " + company.find(class_='text-muted').get_text().strip()
print(company_info)
```
请注意,此爬虫程序具有一定的局限性,如果你搜索的企业名称不够准确,可能无法得到相应的结果。
from selenium import webdriver import time def take_screenshot(url, save_fn="capture.png"): browser = webdriver.Firefox() # Get local session of firefox browser.set_window_size(1200, 900) browser.get(url) # Load page browser.execute_script(""" (function () { var y = 0; var step = 100; window.scroll(0, 0); function f() { if (y < document.body.scrollHeight) { y += step; window.scroll(0, y); setTimeout(f, 100); } else { window.scroll(0, 0); document.title += "scroll-done"; } } setTimeout(f, 1000); })(); """) for i in xrange(30): if "scroll-done" in browser.title: break time.sleep(10) browser.save_screenshot(save_fn) browser.close() if __name__ == "__main__": take_screenshot("https://www.qcc.com/firm/75ea1cf905f30cf36b02e84d7ad46fcd.html")
这段代码使用了 Selenium 自动化测试工具,通过 Python 脚本打开 Firefox 浏览器,加载指定的网页,然后执行 JavaScript 代码模拟鼠标滚动操作,以便将页面所有内容全部加载完毕,最后截取整个页面的屏幕截图并保存。具体来说,这段代码实现了一个函数 take_screenshot,它接收两个参数,一个是要截取屏幕截图的网页 URL,另一个是保存屏幕截图的文件名。在函数内部,首先创建了一个 Firefox 浏览器的实例,设置了浏览器窗口大小为 1200x900,然后通过 browser.get() 方法加载指定的网页,接着通过 browser.execute_script() 方法执行了一段 JavaScript 代码,该代码模拟了鼠标滚动操作以便将页面所有内容全部加载完毕。在循环中,每隔 10 秒钟检查一次页面是否已经加载完毕,如果加载完毕则跳出循环,否则继续等待。最后通过 browser.save_screenshot() 方法将整个页面的屏幕截图保存到指定的文件名中。在代码的最后,通过 if __name__ == "__main__": 判断是否在主程序中运行,如果是的话则直接调用 take_screenshot() 函数来执行截图操作。