import requests import json import pandas as pd import numpy as np def jd(url): id = url.replace('https://item.jd.com/', '').replace('.html', '') params = { 'callback': 'fetchJSON_comment98', 'productId': id, 'score': 0, 'sortType': 5, 'page': 0, 'pageSize': 10, 'isShadowSku': 0, 'fold': 1, } url = 'http://club.jd.com/comment/productPageComments.action' res = requests.get(url, params=params) json_str = res.text[20:-2] info_dic = json.loads(json_str) goodRate = info_dic.get('productCommentSummary').get('goodRate') poorRate = info_dic.get('productCommentSummary').get('poorRate') return goodRate, poorRate if __name__ == '__main__': path = "data/京东-运动鞋-处理后.csv" df = pd.read_csv(path) for i, row in df.iterrows(): df.loc[i, 'goods_goodRate'], df.loc[i, 'goods_poorRate'] = jd(row['goods_url']) df.to_csv(path, index=False, encoding='utf-8-sig')
时间: 2024-01-18 15:03:26 浏览: 134
这是一个Python程序,用于爬取京东商品的好评率和差评率。程序首先导入了必要的库,包括requests,json,pandas和numpy。然后定义了一个名为jd的函数,这个函数的作用是从京东网站上获取商品的好评率和差评率。函数的输入参数为一个商品链接url,函数内部将url解析成商品id,并以此构造请求参数params,然后使用requests库向京东服务器发送请求并获取响应结果。响应结果是一个JSON格式的字符串,需要使用json库将其解析成Python字典类型。从字典中获取商品的好评率和差评率,并将其返回给调用者。程序的主函数首先读取一个CSV文件,该文件包含了多个商品的信息,包括商品名称、商品链接等。然后使用Pandas库的iterrows方法遍历每一行商品信息,调用jd函数获取商品的好评率和差评率,并将这些信息保存回原CSV文件中。最后将CSV文件保存到磁盘上。
相关问题
import re import requests from lxml import etree import numpy as np import pandas as pd from lxml import etree import numpy as np import requests headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36' } url="https://www.5iai.com/#/jobList" response = requests.get(url,headers = headers) response.encoding = 'utf8' html = response.text root = etree.HTML(html) node_list = root.xpath("//div[@class='wrap']/text()") #/ul/li/div[@class='jobInfo']/span node_list #保存为txt np.savetxt('C:/Users/11148/Desktop/daijing_list.txt',node_list,fmt='%s')
这段代码是用Python爬取了一个网站(https://www.5iai.com/#/jobList)上的数据,并将获取的数据保存到了一个txt文件中。
具体的实现过程如下:
1. 引入需要的库:re、requests、lxml、numpy、pandas
2. 设置请求头,模拟浏览器访问网站,避免被反爬虫机制封禁
3. 发送get请求,获取网页的HTML源代码,并设置编码格式为utf-8
4. 使用lxml库解析HTML源代码,获取需要的节点信息,这里使用xpath语法进行节点的定位
5. 将获取的节点信息保存到一个txt文件中,使用numpy库的savetxt函数实现
需要注意的是,这段代码中的xpath定位语句可能会因为网页结构的变化而失效,需要根据实际情况进行调整。同时,爬取网站数据也需要遵守相关法律法规和网站的使用规定,不得进行非法爬取行为。
python爬取”http://10.0.44.102/AgentProject/Index?branch=%E6%B9%96%E5%8C%97”结果存到excel表里面代码
可以使用Python的Pandas库来爬取该网页,并把结果存储到Excel表格中。可以参考这段代码:import pandas as pdimport requestsurl = 'http://10.0.44.102/AgentProject/Index?branch=湖北'r = requests.get(url)data = r.json()df = pd.DataFrame(data)df.to_excel('result.xlsx')
阅读全文