Scrapy,Selenium
时间: 2024-04-25 20:07:36 浏览: 109
当然!以下是一个使用Scrapy框架编写的简单爬虫案例,用于爬取CSDN博客的文章标题和链接:
```python
import scrapy
class CSDNSpider(scrapy.Spider):
name = "csdn_spider"
start_urls = ["https://blog.csdn.net/"]
def parse(self, response):
for article in response.css("div.article-list div.title a"):
yield {
"title": article.css("::text").get(),
"link": article.attrib["href"]
}
next_page = response.css("div.page-nav a:contains('下一页')::attr(href)").get()
if next_page:
yield response.follow(next_page, self.parse)
```
在以上代码中,我们定义了一个名为`CSDNSpider`的Spider类,指定了爬虫的名称为"csdn_spider"。然后,我们设置了起始URL为CSDN博客首页。
在`parse`方法中,我们使用CSS选择器来提取每篇文章的标题和链接,并通过`yield`语句将结果生成为字典。然后,我们使用CSS选择器找到下一页的链接,并使用`response.follow`方法跟踪下一页的链接,继续解析下一页。
要运行这个爬虫,可以在命令行中使用以下命令:
```shell
scrapy runspider spider_name.py -o output.json
```
其中,`spider_name.py`是你保存上述代码的文件名,`output.json`是保存爬取结果的文件名。执行完成后,你将在`output.json`中看到爬取的文章标题和链接。记得在相应的目录下执行该命令。
希望这个案例可以帮助到你!如有任何问题,请随时提问。
阅读全文