社区推动JavaScript密集型网站抓取规范的实现
需积分: 7 106 浏览量
更新于2024-10-29
收藏 5KB ZIP 举报
资源摘要信息:"该文档是一份社区制定的规范,旨在提供一套标准,以便于抓取JavaScript密集型网站。这项规范的推出,主要是为了解决一个问题,即在当前的网络环境中,尽管谷歌等大型搜索引擎已经能够通过执行JavaScript来抓取网页,但对于很多JavaScript密集型的网站和单页应用程序而言,其他爬虫仍然无法做到这一点。这是因为对于绝大多数的爬虫来说,执行JavaScript需要处理大量复杂的任务。
这份规范的制定,是基于一个重要的发现,那就是尽管完全模拟浏览器环境执行JavaScript非常复杂,但是谷歌发现了一个有效的折中方案——即通过切断AJAX调用来抓取网页。AJAX(Asynchronous JavaScript and XML)是一种在无需重新加载整个网页的情况下,能够更新部分网页的技术。通过切断这些调用,爬虫可以有效地抓取到网站的主要内容,并且避免了复杂的JavaScript执行过程。
这份规范对于网络开发人员和框架开发者来说,提供了一种可以依赖的契约。开发者可以根据这份规范来调整他们的网站,以便于爬虫可以抓取内容,同时还能保持网站功能的完整性。此外,这份规范对于那些实施抓取工具的人来说,是一份实施指南,允许他们跟随谷歌的这一实践,提高爬取效率。
文档中还提到了如何为这个社区项目做出贡献。如果你对这个项目感兴趣,可以通过几种方式参与进来。首先,你可以为这个项目加星,表示你对该项目的支持。其次,你可以通过打开问题(issue)来提供反馈,讨论规范的某些方面。最终,当讨论的问题得到解决后,你可以创建拉取请求(pull request)来贡献你的代码。文档中明确表示,新的核心贡献者随时受到欢迎。
总体来看,这份规范不仅对爬虫技术的发展具有重要意义,同时也为网站开发者提供了新的抓取策略,有助于提升网站内容的可访问性。这份规范的出现,预示着未来对于JavaScript密集型网站内容抓取将会有更好的支持和优化。"
【标题】:"规范:一个社区制定的用于抓取JavaScript密集型网站的合约"
【描述】:"启用JavaScript的爬网规范
谷歌通过在抓取互联网时执行JavaScript实现了飞跃。但是,JavaScript密集型网站和单页应用程序的开发人员无法使用它,因为还没有其他爬虫执行JavaScript。这可以理解,因为启用JS的爬行涉及一些繁重的工作。尽管如此,谷歌通过最重要的切断AJAX调用找到了一个最佳点。通过这种方式,爬虫和网络开发人员可以在中间相遇。
该规范应允许抓取工具的实施者跟随Google的脚步,并为框架和网站开发者提供可依赖的合同。
在这篇阅读更多关于动机的。
转到的。
贡献
你可以:
为这个项目加星,为这个社区工作添加你的声音,
打开一个问题以提供反馈并讨论规范的某些方面,以及
根据讨论得到解决的问题创建拉取请求。
随时欢迎新的核心贡献者!"
点击了解资源详情
点击了解资源详情
点击了解资源详情
2021-05-22 上传
2021-07-18 上传
2021-05-12 上传
2021-03-06 上传
2021-05-06 上传
2021-05-01 上传
AR新视野
- 粉丝: 685
- 资源: 4651
最新资源
- 正整数数组验证库:确保值符合正整数规则
- 系统移植工具集:镜像、工具链及其他必备软件包
- 掌握JavaScript加密技术:客户端加密核心要点
- AWS环境下Java应用的构建与优化指南
- Grav插件动态调整上传图像大小提高性能
- InversifyJS示例应用:演示OOP与依赖注入
- Laravel与Workerman构建PHP WebSocket即时通讯解决方案
- 前端开发利器:SPRjs快速粘合JavaScript文件脚本
- Windows平台RNNoise演示及编译方法说明
- GitHub Action实现站点自动化部署到网格环境
- Delphi实现磁盘容量检测与柱状图展示
- 亲测可用的简易微信抽奖小程序源码分享
- 如何利用JD抢单助手提升秒杀成功率
- 快速部署WordPress:使用Docker和generator-docker-wordpress
- 探索多功能计算器:日志记录与数据转换能力
- WearableSensing: 使用Java连接Zephyr Bioharness数据到服务器