def get_content(html_url): response = get_response(html_url=html_url) selector = parsel.Selector(response.text) title = selector.css('.grap--h2 ::text').get() content_list = selector.css('.grap ::text').getall() content = ''.join(content_list) return title, content def main(): url = f'https://hongloumeng.5000yan.com/' name, link_list = get_novel_info(novel_url=url) for link in link_list: title, content = get_content(html_url=link) save(name, title, content) word=[] wordlist = [] #这里是定义函数加进列表里,想让entry的内容作为变量参与函数的运行 def add_to_list(): text = entry2.get() words.append(text) wordlist = [] for word in sWords: if word in words: wordlist.append(word) def function(): f=open('D:\Python文档保存\红楼梦.txt','r',encoding='utf-8') text = f.read() plt.rcParams['font.sans-serif'] = 'SimHei' sWords = jieba.lcut(text) #wordlist = [] #words = ['刘姥姥', '贾', '王夫人'] #for word in sWords: # if word in words: # wordlist.append(word) word_counts = collections.Counter(wordlist) print(wordlist) print(word_counts) #按钮3 button3=tk.Button(root,text='词频统计图',bg="#FFB6C1",command=func()) button3.place(x=320,y=165) 把前面的代码绑定在这个按钮上,改一下代码
时间: 2023-06-05 19:09:16 浏览: 385
这是一段 Python 代码,包括两个函数和两个列表。
get_content(html_url) 函数的作用是从给定的 html_url 中获取网页内容(包括标题和正文),并返回标题和正文的字符串形式。
main() 函数利用 get_novel_info() 函数获取小说信息(小说名和链接列表),然后遍历链接列表,调用 get_content() 函数获取每个链接对应的内容,并将小说名、章节名、正文内容一起保存。
word 和 wordlist 两个变量在这段代码中没有用到,可能是之后代码需要用到的变量。
相关问题
selector=parsel.Selector(html_data)
这段代码使用了Parsel库中的Selector类来解析HTML数据。Parsel是一个基于lxml的轻量级Python库,可以用于解析HTML和XML数据,并提供了类似于XPath的语法来选择和提取数据。在这里,我们使用Selector类来创建一个可以用于选择HTML元素的对象,并将HTML数据作为参数传入。
indices=selector.get_support(indices=True)
这行代码是用来获取经过特征选择后所选中的特征的索引值。selector.get_support()会返回一个布尔数组,表示哪些特征被选择了,True表示选择,False表示未选择。而indices=selector.get_support(indices=True)则是将选中特征的索引值存储在indices变量中,方便后续使用。
阅读全文