def get_page_content(detail_url): #detail_url=["https://xueshu.baidu.com/usercenter/paper/show?paperid=1b42b25b1953801074726c8b96fadd3e&site=xueshu_se"] for link in detail_url: print(link) res=requests.get(link).text soup=BeautifulSoup(res,'lxml') try: title=''.join(soup.select('.main-info > h3 > a')[0].stripped_strings) except: title="" print(title) authors=soup.select('.author_text > span > a') authors_list=[] for author in authors: authors_list.append(author.text) print(authors_list)什么意思
时间: 2024-04-28 14:24:34 浏览: 140
xueshu.rar_conference site_会议_会议网站_学术会议网站
这段代码是一个函数,函数名为 get_page_content,函数的作用是获取传入的文章链接(detail_url)中的标题和作者列表,并将它们打印出来。具体实现过程如下:
1. 遍历传入的文章链接列表(detail_url),并打印每个链接。
2. 对于每个链接,使用 requests 库发起 GET 请求,并将返回的 HTML 文档传递给 BeautifulSoup 对象。
3. 使用 CSS 选择器获取文章标题和作者列表。如果无法找到标题,则将 title 变量设置为空字符串。
4. 将作者列表中每个作者的名称存储在 authors_list 列表中。
5. 最后,将标题和作者列表打印出来。
需要注意的是,这段代码仅仅实现了获取文章标题和作者列表的功能,如果需要获取更多的信息,需要对代码进行扩展。
阅读全文