WOS数据库爬虫实战：批量获取文献信息与引用链接

需积分: 0 164 浏览量更新于2024-08-05 收藏 1.55MB PDF 举报

"这篇文档是关于WOS(Wide Operating System?)爬虫的总结，主要目的是为了快速获取文献的背景信息，如出版年份、被引频次、作者、DOI、文献类型以及引用的参考文献，并实现文献的批量下载。文章提到，首先需要在拥有WOS数据库访问权限的机构或校园网环境下进行，且可能需要购买额外的数据库来下载文献。作者分享了使用Python 3.0+的requests、lxml和bs4库来构建爬虫的方法，以及一些具体的检索式示例。文档中提供了导出所有检索结果和参考文献的代码片段，并提到了高级检索功能和布尔运算符的使用。" 在这篇文章中，WOS爬虫的关键知识点包括： 1. **环境准备**：首先，确保使用的是Python 3.x版本，并安装了必要的Python包，包括requests（用于发送HTTP请求）、lxml（解析XML和HTML文档）和BeautifulSoup4（用于HTML和XML解析及数据提取）。这些工具是构建网络爬虫的基础。 2. **WOS数据库访问**：WOS是全球广泛使用的学术数据库，但使用其数据需要相应的访问权限。通常，这需要通过所在机构或学校的订阅。爬虫需在校园网环境下运行，以确保可以访问数据库。 3. **检索式构建**：WOS检索式使用布尔运算符，如AND、OR、NOT、SAME、NEAR，以及特定的字段标识，如TS（主题）来进行高级检索。示例中，“TS=LNANDPY=(2018-2020)”代表主题包含“LN”并且发表年份在2018到2020之间。 4. **数据导出**：文章提供了Python代码片段，用于导出检索结果和参考文献。`export_paper()`函数用于导出选定的文献信息，而`get_references()`函数则用于获取参考文献的下载链接。 5. **文件保存格式**：默认情况下，导出的文件为.txt格式，文件名可自定义。值得注意的是，代码似乎无法直接保存为非文本格式。 6. **高级检索与布尔运算符**：布尔运算符是构建复杂检索表达式的关键，比如使用AND连接两个条件以限制检索结果，或者使用NOT排除某些关键词。 7. **异步处理**：虽然文档中没有深入探讨，但在爬虫开发中，异步处理（例如使用asyncio库）可以提高效率，特别是当处理大量网络请求时。 8. **参考资源**：作者提到了参考的博客和代码仓库，这些资源可能包含了更多关于WOS爬虫的实现细节和技巧。 9. **注意事项**：使用爬虫时应遵循相关法律法规和网站的robots.txt规则，尊重版权，避免对目标服务器造成过大的负担。如果要在校外访问，可能需要了解如何设置代理或使用账号密码登录。 10. **文献唯一性**：建议使用DOI（数字对象标识符）进行搜索，因为它能确保检索结果的唯一性，从而更准确地定位到特定的文献。总结来说，这篇文章提供了一个初步的WOS爬虫框架，涉及了Python爬虫的基础、WOS数据库的检索规则以及数据提取和存储的方法。对于想要自定义爬取WOS数据的研究人员和开发者来说，这是一个宝贵的起点。

WOS 爬虫总结

目的

快速获得文献背景：出版年份，被引频次，作者，DOI，文献类型，引用的参考文献

获得参考文献的下载链接，实现文献的批量化下载

条件

所处机构或者学校购买WOS的数据库，并且将爬虫置于校园网环境中。

如果要实现后期的文献下载需要购买所需文献的数据库。

后期有时间会完善用账号密码校外访问数据库。

使用方法

1. 所需要安装的python3+包

2. 测试例子(没有将程序打包，所以需要将程序下载使用)

导出所有的检索结果

导出所有的参考文献

WOS 检索式参考

pip install requests

pip install lxml

pip install bs4

test = 'TS=LN AND PY=(2018-2020)' # 检索式一定要有两个条件以上

test_start = 1 # 导出起始页码

test_end = 501 # 导出终止页码

file_name='LNOI' # 保存文件的名称，默认为 .txt 文件，如果想要保存其他格式，那是不可能

的！

file_type = 'fieldtagged'

demo = export_paper(search_expression=test, export_start=test_start,

            export_end=

test_end,file_name='LNOI',file_type=file_type)

demo.save()

# 运行结束会生成两个txt文件，一个是'file_name.txt'为所选需要的文献，一个

是'no_doi.txt' 用于存储没有DOI的文献信息

aim = 'TS=LNOI AND PY=2020 AND DO=10.1515/nanoph-2020-0013' # 建议用DOI搜索，这

样保证搜索结果的唯一性

file_name = 'LNOI'

aim_paper = get_references(search_expression=aim, file_name=file_name)

aim_paper.get_main() # 接口和上一个有点不一样，两个爬取逻辑有点小差异

# ''' 高级检索参考：

# 布尔运算符: AND、OR、NOT、SAME、NEAR

# 字段标识:

#     TS= 主题

下载后可阅读完整内容，剩余5页未读，立即下载

Asama浅间

粉丝: 611
资源: 299

WOS数据库爬虫实战：批量获取文献信息与引用链接

pyWOS:Web of Science Python API

基于Python语言的WOS引文检索软件设计与实现.pdf

wos:of Web of Science python客户端

wos爬虫serverlimit

test_212_python爬虫_wos数据库_

wos路由

WOS字段说明.rar_WOS PT 含义_outsidekoh_throwh7z_wos中的og_wos字段意思

React-WOS

团簇WOS

WOS数据库.pptx

最新资源