python爬知网文献
时间: 2023-09-09 18:11:07 浏览: 127
Python爬虫程序是一个用Python语言编写的程序,旨在爬取知网中以关键词“国家社科”搜索的文献信息。该程序通过模拟浏览器行为,使用网络请求获取搜索结果并自动提取所需的信息,包括题名、作者、单位、文献来源等。
为了实现这个目标,程序会访问知网的网站,根据搜索关键词构建查询链接,并发送请求获取搜索结果的网页内容。其中,查询链接的格式如下:https://kns.cnki.net/kns/brief/brief.aspx?pagename=ASP.brief_default_result_aspx&isinEn=1&dbPrefix=SCDB&dbCatalog=中国学术文献网络出版总库&ConfigFile=SCDBINDEX.xml&research=off&t=1572329280069&keyValue=计算机图形学&S=1&sorttype=
通过分析网页内容,程序可以确定搜索结果的位置和格式,并从中提取所需的信息。需要注意的是,由于搜索结果可能分布在多个页面,程序需要进行二次加载,即发送额外的请求获取完整的搜索结果。
需要指出的是,知网的网址在搜索前和搜索后并没有变化,因此不能直接请求入口网站来获取文章信息。相反,程序需要构建特定的查询链接,并通过发送请求获取相关的文献内容。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* [python爬虫-爬知网社科基金信息.rar_python 爬虫知网_文献搜索_爬虫爬文献_知网爬虫_知网社科基金](https://download.csdn.net/download/weixin_42653672/86115002)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
- *2* *3* [Python3爬取知网文章](https://blog.csdn.net/weixin_43243968/article/details/102798585)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
[ .reference_list ]
阅读全文