南开大学网络爬虫与信息提取期末复习要点

120 浏览量更新于2024-06-28 收藏 87KB DOCX 举报

南开大学的《网络爬虫与信息提取》课程期末复习资料涵盖了课程的核心概念和实践技能。该文档首先强调了客观部分的复习，包括判断题，旨在帮助学生巩固对基础知识的理解。 1. 通用搜索引擎虽然能够通过关键字检索信息，但它们并不擅长处理复杂的语义查询，因为它们主要依赖关键词匹配，这说明了搜索引擎在处理自然语言理解方面的局限性。 2. 搜索引擎的设计目标是尽可能覆盖互联网上的广泛内容，但并非所有服务器资源都与网络数据资源完全匹配，这涉及到了搜索引擎的优化策略和资源分配问题。 3. 通用网络爬虫的工作方式通常是并发而非串行，这样可以提高抓取速度和效率，这也是现代爬虫技术的一个重要进步。 4-5题涉及Python的基础语法，例如浮点数运算、列表和元组的动态性。Python中浮点数加法可能会出现精度问题，并非总是得到预期结果；列表可以增加和删除元素，而元组一旦创建，就不能修改内容。 6-8题着重于字符串操作和条件语句，如切片、逻辑运算符，以及函数返回值的数量和查找方法的选择，这些都是编程中常见的概念。 9-10题考察Python条件语句的短路特性，即在and和or连接的表达式中，只要满足其中一个条件，后续表达式就会被跳过。 11-12题涉及文件操作，尽管with语句能自动管理文件的关闭，但不是所有情况都需要显式调用close方法，而write方法的使用也有特定的要求，如writerows方法接受包含字典的列表。 13-15题则是关于列表和元组切片、字典操作以及Python对象的索引和切片，包括打印输出的具体例子。这些题目不仅测试了学生的理论知识，也考察了他们实际编程操作的能力，对于准备期末考试的学生来说，这些内容都是关键点，有助于他们更好地理解和掌握网络爬虫与信息提取的相关技术。

示请求资源重定向的HTTP状态码为BA. 200 B. 301 C. 404 D. 500121、python中可以用来

将图片中的文字转换为文本的第三方类库是DA. Ixml B. requests C. beautifulsoup D.

pytesseract122、可以通过(B)绕过网站登录。

A. session B. cookies C. moonpies D. local storage123> chrome默认打开开发者工具的

快捷是CA. F5 B.F11 C.F12 D. F2124、cookies 的缺点是 CD实现自动登录 B.跟踪用户状态

C. http中明文传输 D.增加http请求的流量125、HTTP常用状态码表明请求被正常处理

的有(AD)A. 200 B. 301 C. 302 D. 204答案：错误16、Python正则表达式中是贪婪模

式，获取最长的满足条件的字符串。

答案：正确17、Python正则表达式中是非贪婪模式，获取最短的能满足条件的字符

串。答案：正确18、一般来说在页面都通过GET将用户登录信息传递到服务器端。答

案：错误19、requests 中 get 请求方法的使用为 requests, get (

网址'，data=data)

答案：错误20、requests 中 post 请求方法的使用为 requests, post

网址'，data二

data) 答案：正确21、multiprocessing本身是Python的多线程库答案:错误22、在使用多

线程处理问题时，线程池设置越大越好答案：错误23、在对XPath返回的对象再次执

行XPath的时候，子XPath开头需要添加斜线答案：错误24、RoboMongo是MongoDB的管理

软件答案：正确25、Robo 3T与RoboMongo是完全不一样的软件答案：错误26、MongoDB是

一个基于分布式文件存储的数据库答案：正确27、MongoDB是一个关系数据库产品答

案：错误28、运行MongoDB以后，不会在终端打印任何Log答案：错误29、数据在

MongoDB 中是按照“库(Database)

— “集合(Collections)

—“文档

(Document)"的层级关系来存储的。答案：正确30、PyMongo模块是Python对MongoDB操作

的接口包，能够实现对MongoDB的增删改查及排序等操作。答案：正确31、MongoDB

URI 的格式为：

mongodb:〃服务器IP或域名：端口@用户名：密码答案：错误32、默认情况下，MongoDB

可以通过外网访问答案：错误33、插入数据时，MongoDB会自动添加一列"_id”，也就

是自增ID,每次自动加1答案：错误34 > MongoDB中Object Id可以反向恢复为时间答案

：正确126、HTTP常用状态码表明表明浏览器需要执行某些特殊的处理以正确处理请

求的有(BC)200 B. 301 C. 302 D. 204127、HTTP常用状态码表明表明客户端是发生

错误的原因所在的有(AB)A. 403 B. 404 C. 500 D. 503128、HTTP常用状态码表明表

明服务器本身发生错误的有(CD)A. 403 B. 404 C. 500 D. 503129、HTTP常用状态码

表明服务器内部资源出故障了的是(A)A. 500 B. 503 C. 403 D. 404130、HTTP常用状

态码表明服务器正忙的是(B)A. 500 B. 503 C. 403 D. 404131、HTTP常用状态码表明

服务器上没有请求的资源的是(D)A. 500 B. 503 C. 403 D. 404132、HTTP常用状态码

表明服务器不允许访问那个资源的是(C)A. 500 B. 503 C. 403 D. 405133、HTTP状

态码401表示 BA.请求报文中可能存在语法错误B.请求需要通过HTTP认证C.请求资源的

访问被拒绝D.服务器上没有请求的资源134、打码平台一般通过(A)识别验证码。

A,人工识别B.机器学习识别C.光学字符识别D.深度学习识别135、Python中专门用来处

理图像的第三方库是BA. Ixml B. Pillow C. beautiful soup D. pytesseract136

＞以下HTTP状态码与302等价的是DA. 301 B. 303 C. 304 D. 307137、常用的会话跟

踪技术是ABA.session B. cookies C. moonpies D. localstorage138、以下HTTP状

态码表示服务器没有正常返回结果的是BCDA. 200 B. 301 C.404 D. 500 139、要使

用tesseract来进行图像识别，需要安装两个第三方库CDA. requests B. beautiful

soup C. Pi 1 low D. pytesseract140、自动填充验证码的方式有BCA.手动识别填写

B.图像识别C.打码网站D.浏览器自动识别141、以下HTTP状态码表示服务器本身发生错

误的是BDA. 400 B. 503 C. 302 D. 500142、cookies 的缺点是 CDA,实现自动登录

B.跟踪用户状态C. http中明文传输 D,增加http请求的流量143、以下关于Charles的说

法正确的是（A ）Charles是一个跨平台的HTTP抓包工具，可以截取HTTP或者HTTPS请求

的数据包Charles有Windows 32/64版和Linux 64版，但是目前还没有对Mac OS进行有效

的支持。

A. Charles上面滚动的数据就是目前计算机发起的数据包。单击工具栏上面的黄色管

帚图标，可以清停止抓包。

B. 在Charles启动时，系统自带浏览器的部分HTTP流量不会经过Charles<>144、下面关于

Charles使用说法错误的是（D）在数据包非常多的情况下，使用Charles的过滤功能来对数据包

进行过滤从而减少干扰。

A. 通过单击图中方框框住的各个选项卡，可以非常直观地观察到请求和返回的各种

信息。

B. 如果浏览器是Chrome,在没有安装第三方代理插件的情况下，Chrome的HTTP 流量都会

经过CharlesoCharles无法支持计算机上除了浏览器之外的其他软件。

145、下列关于在I0S上配置Charles的说法正确的是（BD）不同ios设备之间会有比较大的差

别，所以配置的时候需要找到对应的安装证书的入口。

A. 手机和电脑需要在同一个局域网下。

B. HTTP代理可以使用“自动”选项。

D.安装好证书以后，打开iOS设备上的任何一个App,可以看到Charles中有数据包在流

动146、下列说法错误的是(B)小程序的请求极其简单，基本上没有验证信息用Python

来请求小程序的后台接口从而获取数据，比请求异步加载网页的后台接口要复杂很

剩余35页未读，继续阅读

Mmnnnbb123

粉丝: 748
资源: 8万+

南开大学网络爬虫与信息提取期末复习要点

南开大学复习资料-网络爬虫与信息提取0001.docx

[答案][南开大学]2021春《网络爬虫与信息提取》在线作业.doc

[答案][南开大学]2021春《网络爬虫与信息提取》在线作业-1.doc

南开大学复习资料-计算机高级网络技术0001.docx

南开大学复习资料-Windows可视化编程10001.docx

南开大学复习资料-电子商务.docx

01-爬虫 1-4课.docx

中国商飞信息化技术方案--网络安全平台_090312.docx

网络安全实验---Windows防火墙应用.docx

小学数学教案----万能模板.docx

最新资源