import csv import requests from lxml import etree #爬取的页面 url = "https://movie.douban.com/explore" #定义请求头 headers = { "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36" } #获取html字符串 response = requests.get(url,headers=headers) content = response.content.decode('utf8') #将html字符串解析 html = etree.HTML(content) #Xpath获取总框架 trs = html.xpath('//div[@class="drc-subject-info"]') #定义一个列表来存储数据 mv_data = [] #for循环遍历总框架,for循环内部的.指的是当前框架下的内容匹配 for tr in trs: #定义一个集合存储 eg = {} #在上面的框架下爬取电影的标题 title = tr.xpath('./div[@class="drc-subject-info-title"]/span/text()')[0].strip() #在上面的框架下爬取电影的年份、类型、主演 information = tr.xpath('./div[@class="drc-subject-info-title"]/div[@class="drc-subject-info-subtitle"]/text()')[0].strip() #在上面的框架下爬取电影的评分 score = tr.xpath('./div[@class="drc-rating drc-subject-info-rating m"]/span[@class="drc-rating-num"]/text()')[0].strip() #定义一个字段来存储key,value的结构 eg = { "title":title, "information":information, "score":score } #在hots列表中添加eg字典的内容 mv_data.append(eg) with open("mv_data.csv","a",encoding="utf8",newline="") as f: #设置字段名(列表名) filenames = ['title','information','score'] #定义开头 writer = csv.DictWriter(f,fieldnames=filenames) #写入开头 writer.writeheader() # 打印 print(mv_data) #内容 writer.writerows(mv_data) #打印写入完成 print("数据已写入")
时间: 2024-04-06 18:32:14 浏览: 56
这段代码的功能是爬取豆瓣电影页面上的电影标题、年份、类型、主演和评分,并将这些信息存储到一个列表中,最后将列表中的数据写入到一个名为"mv_data.csv"的csv文件中。
在代码的第一行,导入了csv、requests、etree等模块,这些模块提供了对csv文件操作、网络请求和解析html的功能。
接着,定义了一个url变量来存储要爬取的页面地址,和一个headers变量来存储请求头信息,用于伪装成浏览器请求页面。
然后,通过requests.get()方法请求页面,并将返回的二进制数据转换为utf8格式的字符串。
接下来,使用lxml库的etree.HTML()方法将html字符串解析为一个树形结构,方便之后的xpath匹配。
然后,使用xpath匹配出页面中所有电影的总框架,并遍历每一框架,匹配出电影的标题、年份、类型、主演和评分,并将这些信息存储到一个字典中,最后将字典添加到mv_data列表中。
最后,使用csv模块的DictWriter()方法将数据写入到csv文件中,首先定义字段名(列表名),然后写入开头,接着将mv_data列表中的数据写入到文件中,最后输出提示信息。
需要注意的是,文件打开方式应该是"a",表示以追加的方式写入数据,这样可以保证之前写入的数据不会被覆盖。另外,csv文件的编码应该是utf8,并且在写入数据时需要指定newline参数为"",以防止写入的数据出现额外的换行符。
相关问题
import re import requests from lxml import etree import numpy as np import pandas as pd from lxml import etree import numpy as np import requests headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36' } url="https://www.5iai.com/#/jobList" response = requests.get(url,headers = headers) response.encoding = 'utf8' html = response.text root = etree.HTML(html) node_list = root.xpath("//div[@class='wrap']/text()") #/ul/li/div[@class='jobInfo']/span node_list #保存为txt np.savetxt('C:/Users/11148/Desktop/daijing_list.txt',node_list,fmt='%s')
这段代码是用Python爬取了一个网站(https://www.5iai.com/#/jobList)上的数据,并将获取的数据保存到了一个txt文件中。
具体的实现过程如下:
1. 引入需要的库:re、requests、lxml、numpy、pandas
2. 设置请求头,模拟浏览器访问网站,避免被反爬虫机制封禁
3. 发送get请求,获取网页的HTML源代码,并设置编码格式为utf-8
4. 使用lxml库解析HTML源代码,获取需要的节点信息,这里使用xpath语法进行节点的定位
5. 将获取的节点信息保存到一个txt文件中,使用numpy库的savetxt函数实现
需要注意的是,这段代码中的xpath定位语句可能会因为网页结构的变化而失效,需要根据实际情况进行调整。同时,爬取网站数据也需要遵守相关法律法规和网站的使用规定,不得进行非法爬取行为。
import requests from lxml import etree url = 'https://jn.lianjia.com/zufang/' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36' } response = requests.get(url, headers=headers) html = response.text selector = etree.HTML(html) total_page_list = selector.xpath('//div[@class="content__pg"]/div/@data-totalpage') if len(total_page_list) > 0: total_page = total_page_list[0] print('总页数为:', total_page) else: print('未匹配到结果')报错
这段代码没有报错,但是你忘记了循环爬取每一页的租房信息。你可以将代码改为以下形式:
```
import requests
from lxml import etree
url = 'https://jn.lianjia.com/zufang/'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36'
}
response = requests.get(url, headers=headers)
html = response.text
selector = etree.HTML(html)
total_page_list = selector.xpath('//div[@class="content__pg"]/div/@data-totalpage')
if len(total_page_list) > 0:
total_page = total_page_list[0]
print('总页数为:', total_page)
# 循环爬取每一页的租房信息
for num in range(1, int(total_page) + 1):
url = 'https://jn.lianjia.com/zufang/pg{}/#contentList'.format(num)
# 发送请求并处理响应
# ...
else:
print('未匹配到结果')
```
这段代码首先发送一个请求到济南市链家网页,然后使用lxml库中的etree模块将网页转化为可操作的对象,接着使用xpath定位到包含总页数的元素,并进行判断。如果匹配成功,就输出总页数,并循环爬取每一页的租房信息。在循环中,使用.format()方法动态生成每一页的URL,并发送请求并处理响应。如果未匹配到结果,则输出相关信息。
阅读全文