DEBUG: Crawled (401) <GET http://localhost:8080/list/index.html> (referer: None)
时间: 2024-06-07 10:12:04 浏览: 170
这个错误提示意味着你的爬虫试图访问 `http://localhost:8080/list/index.html`,但是服务器返回了 401 错误,表示未经授权的访问。你需要检查一下爬虫的请求头和 cookies 是否正确设置,并确保你有权限访问该页面。另外,你也需要检查一下该页面是否存在或者 URL 是否正确。
相关问题
['MOOCSpider.pipelines.TextPipeline', 'MOOCSpider.pipelines.MongoPipeline'] 2023-05-16 22:37:59 [scrapy.core.engine] INFO: Spider opened 2023-05-16 22:37:59 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 2023-05-16 22:37:59 [course] INFO: Spider opened: course 2023-05-16 22:37:59 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023 2023-05-16 22:37:59 [scrapy.core.engine] DEBUG: Crawled (200) <POST https://www.icourse163.org/web/j/mocSearchBean.searchCourse.rpc?csrfKey=e3e6d578b16f42e7afe506ddae0ddd7b> (referer : None)
这是Scrapy爬虫框架输出的日志信息,它告诉我们爬虫程序已经启动并打开了一些管道(pipelines),包括文本管道(TextPipeline)和MongoDB管道(MongoPipeline),同时还监听了一个Telnet控制台。接着它向一个网站发送了一个POST请求,并收到了200的响应码。这个POST请求的目的可能是搜索相关的课程信息。
debug: crawled (200) <get http
这是爬虫程序输出的一条信息,意思是程序已经成功爬取了一个URL地址的网页内容,并且返回了200状态码,即页面正常响应。其中的"debug"意味着这是一个调试信息,而"(200)"则是指状态码。"<get http"是请求的网址,具体内容则不详。
阅读全文