Python爬虫系统测试与分析

需积分: 0 54 浏览量更新于2024-08-04 收藏 774KB DOCX 举报

"基于Python的当当网商品信息爬虫系统的测试主要采用了黑盒测试方法，通过对程序的直接运行和结果对比来评估其性能。测试过程中，通过运行run.py文件来启动爬虫，若要禁用Scrapy的日志输出，可以修改命令行参数。爬取的数据存储在MySQL数据库中，并可导出为Excel文件‘products.xlsx’。测试发现，由于网站文本格式复杂，爬虫无法完全抓取所有信息，存在优化空间。" 本文档详细介绍了对一个基于Python编写的当当网商品信息爬虫系统的测试过程和发现的问题。测试的目的是找出程序的不足之处并记录下来，以便后续开发人员了解项目的改进历史。首先，测试方法选择了黑盒测试策略。这种方法不关注程序内部的实现，而是通过观察程序的输入和输出来评估其功能是否符合预期。测试者直接运行了run.py文件，这是一个控制爬虫运行的入口。在run.py中，如果需要关闭Scrapy的日志输出，只需将执行命令行的语句由`cmdline.execute('scrapycrawldd'.split())`更改为`cmdline.execute('scrapycrawldd--nolog'.split())`。这表明，该项目使用Scrapy框架作为爬虫的基础，且支持通过命令行参数来调整其行为。爬取到的商品信息被存储在MySQL数据库中，并能够导出为Excel文件，便于数据分析和查看。具体来说，数据导出的文件名为“products.xlsx”，位于dangdang文件夹内。通过修改dd.py文件中的变量i的取值范围，可以控制爬虫抓取的数据条数，显示了程序的灵活性。测试结果表明，尽管爬虫设计得较为全面，能够处理大部分文本格式，但由于网站的文本结构复杂，仍然存在一些信息无法被成功抓取，这可能会影响数据的完整性和准确性。此外，测试者也指出代码还有优化的空间，表示在未来会继续对程序进行改进，以提高爬取效率和覆盖率。这个测试文档提供了关于Python爬虫系统实际运行情况的宝贵信息，包括如何运行、如何调整日志输出以及存在的问题。这些信息对于项目维护和后续开发具有重要的参考价值。

基于 Python 的当当网商品信息爬虫系统测试文档

测试目的：

测试出程序依旧存在的不足之处，并以文档的形式记录下来，方便接下来的开发者了解

项目历史。

测试方法：

因为没有找到关于爬虫程序的测试工具，所以这次的测试是以黑盒测试的方法，也就是

直接运行爬虫程序，对比结果来测试的。

直接打开 run.py 文件，按“Ctrl+B”运行即可。其中 run.py 文件中，如果不希望出

现 scrapy 日志文件，想要无日志输出，只需将语句：

cmdline.execute('scrapy crawl dd'.split())

修改为：

cmdline.execute('scrapy crawl dd --nolog'.split())

这里，本系统采用的显示日志文件的语句：cmdline.execute('scrapy crawl dd'.split())，

测试结果显示如下：

下载后可阅读完整内容，剩余3页未读，立即下载

李多田

粉丝: 709
资源: 333

Python爬虫系统测试与分析

"灵活通用的软件测试文档编写模板：适用于各类测试需求的模板"。

XX系统软件测试文档模板

IEEE829标准下的软件测试文档模板大全

软件测试文档模板

[17个软件测试文档]-12XX性能测试报告

[17个软件测试文档]-7存储转发机制优化系统测试方案及案例

完整的人事管理系统（需求分析，详细设计，测试文档））

软件测试各种文档模板

软件系统压力测试报告文档

测试过程Bug管理文档模板

最新资源