if not os.path.exists("D:/Rourou/Study/3.2/ZHSJ/KGQA_HLM-master/KGQA_HLM-master/spider/images"): os.mkdir("D:/Rourou/Study/3.2/ZHSJ/KGQA_HLM-master/KGQA_HLM-master/spider/images") headers = {} headers["User-Agent"] = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36" def get_json(character_arr): data={} for i in set(character_arr): print(i) url=r'https://baike.baidu.com/item/'+i url = quote(url, safe = string.printable) req = request.Request(url, headers=headers) response = request.urlopen(req, timeout=20) try: html = response.read().decode('utf-8') soup = BeautifulSoup(html, 'html.parser', ) res = soup.find(class_="summary-pic") pic_name = str(i) + '.jpg' img_src = res.find('img').get('src') request.urlretrieve(img_src,pic_name) except : print("找不到图片") res_key=soup.find_all(class_ ="basicInfo-item name") res_val=soup.find_all(class_ ="basicInfo-item value") key=[ik.get_text().strip().replace("\n","、") for ik in res_key] value = [iv.get_text().strip().replace("\n", "、") for iv in res_val] item=dict(zip(key,value)) data[str(i)]=item if not os.path.exists("../json"): os.mkdir("../json") f = codecs.open('../json/data.json','w','utf-8') f.write(json.dumps(data, ensure_ascii=False)) if __name__ == "__main__": character_arr=get_character() os.chdir(os.path.join(os.getcwd(), 'images')) get_json(character_arr)
时间: 2024-04-21 20:24:30 浏览: 196
SD-read-write.zip_SD-write_sd wride_安卓
这段代码是之前提供的代码的一个修改版本,主要做了以下更改:
1. 添加了一个判断语句,用于检查存储图片的文件夹是否存在,如果不存在则创建。
2. 添加了一个`headers`字典,用于设置HTTP请求的User-Agent头部信息。
3. 将文件夹路径中的绝对路径修改为相对路径,以使代码更具通用性。
4. 在`if __name__ == "__main__":`条件下,添加了切换到存储图片的文件夹的操作。
请注意,代码中使用了一些未导入的模块和库,例如`quote`、`request`、`headers`、`BeautifulSoup`、`string`、`os`、`json`和`codecs`。你需要自行导入这些模块并设置相应的参数。此外,还需要定义`get_character()`函数来获取角色数组的值。
阅读全文