社区推动JavaScript密集型网站抓取规范的实现

需积分: 7 106 浏览量更新于2024-10-29 收藏 5KB ZIP 举报

资源摘要信息:"该文档是一份社区制定的规范，旨在提供一套标准，以便于抓取JavaScript密集型网站。这项规范的推出，主要是为了解决一个问题，即在当前的网络环境中，尽管谷歌等大型搜索引擎已经能够通过执行JavaScript来抓取网页，但对于很多JavaScript密集型的网站和单页应用程序而言，其他爬虫仍然无法做到这一点。这是因为对于绝大多数的爬虫来说，执行JavaScript需要处理大量复杂的任务。这份规范的制定，是基于一个重要的发现，那就是尽管完全模拟浏览器环境执行JavaScript非常复杂，但是谷歌发现了一个有效的折中方案——即通过切断AJAX调用来抓取网页。AJAX（Asynchronous JavaScript and XML）是一种在无需重新加载整个网页的情况下，能够更新部分网页的技术。通过切断这些调用，爬虫可以有效地抓取到网站的主要内容，并且避免了复杂的JavaScript执行过程。这份规范对于网络开发人员和框架开发者来说，提供了一种可以依赖的契约。开发者可以根据这份规范来调整他们的网站，以便于爬虫可以抓取内容，同时还能保持网站功能的完整性。此外，这份规范对于那些实施抓取工具的人来说，是一份实施指南，允许他们跟随谷歌的这一实践，提高爬取效率。文档中还提到了如何为这个社区项目做出贡献。如果你对这个项目感兴趣，可以通过几种方式参与进来。首先，你可以为这个项目加星，表示你对该项目的支持。其次，你可以通过打开问题（issue）来提供反馈，讨论规范的某些方面。最终，当讨论的问题得到解决后，你可以创建拉取请求（pull request）来贡献你的代码。文档中明确表示，新的核心贡献者随时受到欢迎。总体来看，这份规范不仅对爬虫技术的发展具有重要意义，同时也为网站开发者提供了新的抓取策略，有助于提升网站内容的可访问性。这份规范的出现，预示着未来对于JavaScript密集型网站内容抓取将会有更好的支持和优化。" 【标题】:"规范：一个社区制定的用于抓取JavaScript密集型网站的合约" 【描述】:"启用JavaScript的爬网规范谷歌通过在抓取互联网时执行JavaScript实现了飞跃。但是，JavaScript密集型网站和单页应用程序的开发人员无法使用它，因为还没有其他爬虫执行JavaScript。这可以理解，因为启用JS的爬行涉及一些繁重的工作。尽管如此，谷歌通过最重要的切断AJAX调用找到了一个最佳点。通过这种方式，爬虫和网络开发人员可以在中间相遇。该规范应允许抓取工具的实施者跟随Google的脚步，并为框架和网站开发者提供可依赖的合同。在这篇阅读更多关于动机的。转到的。贡献你可以：为这个项目加星，为这个社区工作添加你的声音，打开一个问题以提供反馈并讨论规范的某些方面，以及根据讨论得到解决的问题创建拉取请求。随时欢迎新的核心贡献者！"

收起资源包目录

specification:一个社区制定的用于抓取 JavaScript 密集型网站的合约（3个子文件）

specification.md 2KB

README.md 1KB

LICENSE 6KB

共 3 条

AR新视野

粉丝: 685
资源: 4651

社区推动JavaScript密集型网站抓取规范的实现

SimpliciTI RF Network Specification: Modular Wireless Solution

Java JSR80 API Specification: USB Communication Essentials

BIOS Boot Specification: Complete Guide to IPL Devices and Post Sequence

Doctrine-Specification:Doctrine Specification模式，用于动态构建查询并使用可重用的类进行组合

Fantasy Land Specification:JavaScript 代数结构互操作性规范-开源

specification:用于开发RestDoc规范的存储库和Wiki

Specification:具有用于向DDD模型添加规范的测试的基类

specification:寄存器规范

specification:PHP规范库

python-path-specification:用于文件路径的gitignore样式模式匹配的实用程序库

最新资源