BSCrawler: BlogSpot博客索引工具的多线程爬虫

需积分: 10 187 浏览量更新于2024-11-07 收藏 127KB ZIP 举报

资源摘要信息:"BSCrawler是一个专门为BlogSpot托管的博客服务的爬虫工具，其主要目的是为网络上所有的BlogSpot博客编制索引，特别是那些使用低资源语言的博客。这个工具在哥伦比亚大学语音实验室的工作中被开发出来，目的是收集哈萨克语、泰卢固语、Tok Pisin、立陶宛语、库尔曼吉语等低资源语言的网络博客数据。由于这些语言的博客数量有限，且Google/Bing不支持所有这些语言的过滤结果，因此需要一个专门的工具来抓取整个BlogSpot博客链，并使用Google的Compact Language Detection库为每个博客及其语言编制索引。BSCrawler采用了多线程的架构设计，可能支持在集群中运行。 BSCrawler的主要功能包括： 1. 爬取BlogSpot上所有的博客数据。 2. 使用Google的Compact Language Detection库为每个博客及其语言编制索引。 3. 采用多线程架构设计，可以有效地处理大规模的数据抓取任务。 4. 支持在集群中运行，以提高数据处理的效率和速度。 BSCrawler的开发依赖于以下技术： 1. Java：这是一个Java开发的工具，因此需要Java环境。 2. Maven 3.2.1：这是BSCrawler的构建工具，用于项目的构建和依赖管理。 3. MySQL 5.5：这是BSCrawler的数据存储工具，用于存储爬取的数据和索引信息。 BSCrawler的开发和运行环境： 1. 开发语言：Java 2. 开发工具：Maven 3.2.1 3. 数据库：MySQL 5.5 BSCrawler的使用和安装说明尚未提供，因为这个项目还在进行中。但是，根据其功能和设计，我们可以推断出它可能需要Java运行环境，需要安装和配置Maven和MySQL，然后通过Maven构建项目并运行。 BSCrawler的开发和使用涉及到一些高级的编程知识和技能，包括Java编程，Maven项目管理，MySQL数据库操作，以及对网络爬虫的理解。此外，它还需要理解和使用Google的Compact Language Detection库，这是一个用于语言检测的库，可以识别和处理多种语言的数据。"

收起资源包目录

BSCrawler: BlogSpot博客索引工具的多线程爬虫（18个子文件）

MANIFEST.MF 48B

Blog.java 2KB

tempFile.txt 3KB

Result.java 282B

DAO.java 4KB

Main.java 3KB

Crawl.java 17KB

javax.persistence.jar 127KB

tempFile.txt506410998146319269614275663432246744461825336026683147413528948110496255176939838696457 240B

tempFile.txt506410998146319269614275663432246744461825336026683147413528948110496255176939838696457518639498468163148376 12KB

URLToVisit.java 803B

persistence.xml 1KB

pom.xml 4KB

README.md 838B

DetectLanguage.java 3KB

PerformanceMeasure.java 104B

langDetect.py 405B

MyHTTPClient.java 4KB

共 18 条

蓝星神

粉丝: 29
资源: 4713

BSCrawler: BlogSpot博客索引工具的多线程爬虫

blogger-posts-crawler:带有适用于mypoint.tw的Google Blogspot API的爬虫

new blogspot template free download:新的blogspot模板免费下载-开源

NPlus1DaysOfMvvmCross：MvvmCross的N + 1天视频系列中的回购-来自http：slodge.blogspot.co.uk-由Aboo在http://mvvmcross.wordpress.com上建立了索引

blogspot-downloader:python blogspot下载器

Sendmail-with-sendgrid：使用Sendgrid和Codeigniter发送邮件3. Cara penggunaan bisa lihat disini https：muhdannyblog.blogspot.com202005cara-kirim-email-di-codeigniter.html

sinkr:“menugget.blogspot.com”上的 R 函数包

blogspot:Git和GitHub课程的精彩博客

blogspot-themes：Blogspot（Blogger）主题库

虚构网格：虚构系列是Blogger blogspot博客的免费主题模板

blogSpot:platzi的git和github课程的博客

最新资源