url="http://www.cctv.com.cn" html=requests. get(url) html. encoding=html. apparent_encoding data=html. text reg=r'<li><a href=" " target="_blank" rel="noopener">(.*?)</a ></li>' urls=re.findall(reg, data) print(urls) conn=sqlite3.connect("school.db") SQL='''create table information(name char(30) not null. link char(20), primary key("name"))''' conn.execute(SQL) conn.commit() for item in urls: SOL='''insert into information(name,link) values('%s', '%s')'''%(item[1],item[0]) conn.execute(SQL) conn.commit() conn.close()

时间: 2024-03-31 21:39:09 浏览: 12

这段代码的作用是从 http://www.cctv.com.cn 网站获取页面内容，并使用正则表达式提取页面中的链接。然后，它创建了一个名为 "school.db" 的 SQLite 数据库，并在其中创建了一个名为 "information" 的表。表中有两个字段，一个是 "name"，类型为 char(30)，一个是 "link"，类型为 char(20)。然后，它将提取的链接插入到 "information" 表中。最后，它关闭了数据库连接。但是，这段代码存在一些问题。首先，正则表达式中的空格应该去掉，否则匹配不到任何内容。其次，在插入数据时，应该使用变量 SOL，而不是 SQL。最后，在插入数据时，应该使用 conn.execute(SOL)，而不是 conn.execute(SQL)。正确的代码应该是这样的： ```python import requests import re import sqlite3 url = "http://www.cctv.com.cn" html = requests.get(url) html.encoding = html.apparent_encoding data = html.text reg = r'<li><a href="(.*?)" target="_blank" rel="noopener">(.*?)</a></li>' urls = re.findall(reg, data) print(urls) conn = sqlite3.connect("school.db") SQL = '''create table information( name char(30) not null, link char(20), primary key("name") )''' conn.execute(SQL) conn.commit() for item in urls: SOL = '''insert into information(name,link) values('%s', '%s')''' % (item[1], item[0]) conn.execute(SOL) conn.commit() conn.close() ``` 注意，这段代码仅供参考，实际使用时需要根据具体情况进行调整。

相关推荐

python requests.get带header

http://python-requests.org/库的透明持久缓存-Python开发

下载社会学相关公开数据的简单爬虫 http://www.dingxing.gov.cn/czyslist-394-more.

url='http://www.baidu.com' resp = session.get('https://www.baidu.com', verify=False)

import requests if __name__=="__main__": url ='https://www.sogou.com/' requests.get()

file_url="https://example.com/file.zip"

import requests from lxml import etree url="https://www.80142.com/txt/82776.html" html=requests.get(url) print(html)出现requests not get

import requests from lxml import etree url="https://www.80142.com/txt/82776.html" html=requests.get(url) print(html)出现not get

代码逐行注释（url = "https://www.baidu.com" proxise = {"http": "http://127.0.0.1:8080", "https": "https://127.0.01:8080"} request = requests.get(url, proxies=proxise, verify=False) print(request.status_code)）

用python爬取https://www.jsszfhcxjstzhfwpt.com:12443/?ticket=cffd8ab8ec439f56b838b10582917787&gotoUrl=http://www.jszwfw.gov.cn/jsjis/front/login.do?uuid=3Pjiipr99xV0#/dashboard所有内容的代码

html_doc = 'ExampleGoogle'这句如何传入一个网址

帮我检查下下面的代码:import requests url = ['https://www.tupianzj.com/bizhi/DNmeinv/'] html = requests.get(url=url) print(html)

url = 'http://xxfb.mwr.cn/sq_dxsk.html' js = requests.post(url, verify=False).json() reservoir_info = dict(js)["result"]["data"]

写一个requests爬取https://www.fjmotor.com.cn/allnews_list/tpid_10.html该网站的代码

最新推荐

zigbee-cluster-library-specification

管理建模和仿真的文件

实现实时数据湖架构：Kafka与Hive集成

解释minorization-maximization (MM) algorithm，并给出matlab代码编写的例子

JSBSim Reference Manual

"互动学习：行动中的多样性与论文攻读经历"

实现实时监控告警系统：Kafka与Grafana整合

帮我实现在Androidstudio调用chapgpt并提供源码

c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf

关系数据表示学习

import requests if name=="main": url ='https://www.sogou.com/' requests.get()

html_doc = 'Example Google'这句如何传入一个网址