![](https://csdnimg.cn/release/download_crawler_static/87640198/bg5.jpg)
142
第 6 章预测你的内容是否会广为流传
link_class = browser.find_elements_by_class_name("link_read_more_article")
stats = browser.find_elements_by_class_name("ruzzit_statistics_area")
在最后一节中,我们选择了分析所需的页面元素。接下来,需要进一步解析它们以获
取文本信息。
我在分析中去除 Twitter 所提供的分享次数。该公司在 2015 年年底决定从其标准 API
中删除此项数据。鉴于此,其展示的次数不太可靠。为了避免数据被污染的风险,最好直
接去除这些信息。
all_data = []
for title, link, stat in zip(titles, link_class, stats):
all_data.append((title.text,\
link.get_attribute("href"),\
stat.find_element_by_class_name("col-md-
12").text.split(' shares')[0],
stat.find_element_by_class_name("col-md-
12").text.split('tweets\n')
[1].split('likes\n0')[0],
stat.find_element_by_class_name("col-md-
12").text.split('1's\n')[1].split(' pins')[0],
stat.find_element_by_class_name("col-md-
12").text.split('pins\n')[1]))
接下来,我们将它放入一个数据框。
df = pd.DataFrame(all_data, columns=['title', 'link', 'fb', 'lnkdn',
'pins', 'date'])
df
上述代码生成图 6-3 的输出。
图 6-3