def get_json(character_arr): data={} for i in set(character_arr): print(i) url=r'https://baike.baidu.com/item/'+i url = quote(url, safe = string.printable) req = request.Request(url, headers=headers) response = request.urlopen(req, timeout=20) try: html = response.read().decode('utf-8') soup = BeautifulSoup(html, 'html.parser', ) res = soup.find(class_="summary-pic") pic_name = str(i) + '.jpg' img_src = res.find('img').get('src') request.urlretrieve(img_src,pic_name) except : print("找不到图片") res_key=soup.find_all(class_ ="basicInfo-item name") res_val=soup.find_all(class_ ="basicInfo-item value") key=[ik.get_text().strip().replace("\n","、") for ik in res_key] value = [iv.get_text().strip().replace("\n", "、") for iv in res_val] item=dict(zip(key,value)) data[str(i)]=item if not os.path.exists("../json"): os.mkdir("../json") f = codecs.open('../json/data.json','w','utf-8') f.write(json.dumps(data, ensure_ascii=False)) if __name__ == "__main__": character_arr=get_character() os.chdir(os.path.join(os.getcwd(), 'images')) get_json(character_arr)
时间: 2024-04-17 08:22:53 浏览: 99
这段代码看起来是一个从百度百科获取角色信息并保存为JSON文件的函数。它的主要步骤如下:
1. 导入必要的模块和库。
2. 定义一个函数`get_json`,它接受一个角色数组作为参数。
3. 创建一个空的字典`data`,用于保存角色信息。
4. 对角色数组去重后进行迭代。
5. 构造百度百科的URL,并对URL进行编码。
6. 发送HTTP请求获取网页内容。
7. 使用BeautifulSoup解析网页内容。
8. 查找角色的概述图片,并保存为以角色名命名的JPG文件。
9. 查找角色的基本信息,并以字典形式保存到`data`字典中。
10. 如果不存在名为"../json"的文件夹,则创建该文件夹。
11. 打开一个JSON文件,并将`data`字典以JSON格式写入文件中。
12. 在`if __name__ == "__main__":`条件下,获取角色数组并切换到存储图片的文件夹,最后调用`get_json`函数。
请注意,代码中使用了一些未导入的模块和库,例如`quote`、`request`、`headers`、`BeautifulSoup`、`string`、`os`、`json`和`codecs`。你需要自行导入这些模块并设置相应的参数。此外,还需要定义`get_character()`函数来获取角色数组的值。
阅读全文