GeneralCrawler：基于JAVA的多线程聚焦爬虫框架特性与功能

需积分: 40 84 浏览量更新于2024-11-04 收藏 11.95MB ZIP 举报

资源摘要信息:"GeneralCrawler是一个基于JAVA语言实现的聚焦爬虫通用框架，主要通过使用广度优先搜索策略进行网页数据的抓取和解析。它具有多线程的特点，能够高效地完成个性化需求的爬虫程序的开发和定制。该项目的主要特性包括： 1. HttpClient模拟浏览器发送请求：该项目支持HttpClient工具，目前只支持get请求。HttpClient是一个强大的HTTP客户端，可以用来模拟浏览器的请求行为，从而获取网页数据。 2. 集成Jsoup解析器：Jsoup是一个强大的HTML解析器，可以解析和操作HTML文档。在GeneralCrawler项目中，Jsoup被用来解析HTML页面，提取需要的数据。 3. 使用Redis对URL快速去重：Redis是一个高性能的key-value数据库，支持多种数据结构。在GeneralCrawler项目中，Redis被用来存储已经爬取过的URL，以便快速去重，避免重复爬取。 4. 使用slf4j作为日志门面：slf4j是一个简单灵活的日志门面，可以与各种日志框架配合使用。在GeneralCrawler项目中，slf4j被用来进行日志记录，方便查看爬虫的运行情况和调试问题。该项目的主要功能包括： 1. 支持个性化性质：用户可以根据自己的需求，定制爬虫的行为，如设置爬取的网站、爬取的内容等。 2. 支持定时任务增量爬取数据：用户可以设置定时任务，让爬虫按照设定的时间间隔进行数据爬取，实现增量爬取。 3. 支持使用cookie模拟登录：如果需要爬取的数据位于登录后才能访问的页面，用户可以设置cookie，模拟登录后进行爬取。 4. 支持设置代理列表并随机切换：为了防止IP被封，用户可以设置代理列表，爬虫会在这些代理之间随机切换，进行数据爬取。 5. 集成SpringJDBC和JDBC，支持数据持久化：爬虫抓取的数据可以通过SpringJDBC和JDBC进行持久化存储，方便后续的数据处理和分析。 6. 集成ICTCLAS，支持关键词提取：ICTCLAS是一个中文分词工具，支持关键词提取。在GeneralCrawler项目中，ICTCLAS被用来提取网页中的关键词，以便进行更精确的数据抓取。总的来说，GeneralCrawler是一个功能强大、易于定制和扩展的聚焦爬虫框架，适用于需要进行大规模数据采集和处理的场景。"

收起资源包目录

GeneralCrawler:聚焦爬虫通用框架（134个子文件）

FTU8.pdat 534KB

Customization.java 424B

Readme.txt 150B

UserDefinedDict.lst 19B

DocExtractor.user 3KB

TempQueue.java 2KB

CustomizationFactory.java 221B

UTF2GBKA.map 279KB

版本描述.txt 1KB

CrawlerData.java 2KB

JiebaAnalyzer.java 2KB

nr.fsa 3KB

libNLPIR.so 1.71MB

ProvincialInformationCrawler.java 3KB

ICTPOS.map 322B

GBK2FTU8.map 279KB

OnlineAnalyzer.java 3KB

BaseCrawler.java 5KB

DynamicWorkCrawler.java 3KB

GBK.pdat 536KB

GBK2UTF.map 279KB

CrawlerDataDao.java 3KB

CoreDict.pdat 1.62MB

libNLPIR.so 1.86MB

JDBCHelper.java 1KB

sentiment.pdat 834KB

ne.pdat 1.11MB

EnterpriseCrawler.java 3KB

FTU82GBK.map 279KB

BIG5.pdat 457KB

FetchQueue.java 2KB

GBKC.pdat 538KB

LJHtmlParser.user 3KB

CharacterTool.java 2KB

.name 14B

NLPIR_First.map 192B

ne.pos 1.22MB

GBKC2GBK.map 279KB

sentiment.ung 86KB

NLPIR.dll 1.64MB

Md5Util.java 969B

NLPIR.user 3KB

GBKC.wordlist 163KB

English.wordlist 2.74MB

UserDict.pdat 33KB

GBKA2UTF.map 279KB

ne.wordlist 653KB

BiWord.big 3.36MB

PKU.map 223B

charset.type 64KB

GBKA.pdat 538KB

FetchQueueItem.java 674B

PriceQuotationsCrawler.java 3KB

AgriculturalNewsCrawler.java 4KB

UTF2GBK.map 279KB

PKU_First.map 200B

LocalAnalyzer.java 4KB

CoreDict.pos 1.7MB

NLPIR.ctx 36KB

nr.ctx 2KB

CnblogsCrawler.java 5KB

FieldDict.pos 30B

Start.java 1KB

English.ung 1.6MB

location.map 78KB

Proxys.java 903B

README.md 838B

ConsumerKnowledgeCrawler.java 3KB

Fetcher.java 9KB

English.pdat 5.06MB

GBK2GBKC.map 279KB

UTF8.pdat 544KB

summary.user 3KB

NewWord.lst 5KB

20150321.log 240B

Links.java 2KB

JedisConfig.java 611B

UTF8.wordlist 186KB

location.pdat 407KB

GranDict.pdat 1.89MB

AgriculturalNewsCrawler.java 3KB

FieldDict.pdat 256KB

GBKA.wordlist 163KB

GdagriAppCrawler1.java 5KB

FileIO.java 1KB

WeiboCrawler.java 2KB

OfficialNoticeCrawler.java 4KB

CoreDict.unig 467KB

RegexRule.java 2KB

nr.role 1.68MB

English.pos 4.29MB

GBK.wordlist 163KB

GranDict.pos 1.7MB

GeneralCrawler.iml 3KB

Irrel2regular.map 955KB

GBK2BIG.map 279KB

log4j.properties 234B

BIG2GBK.map 279KB

FTU8.wordlist 186KB

NLPIR.dll 2.24MB

共 134 条

基础颜究的三亩叔

粉丝: 29
资源: 4668

GeneralCrawler：基于JAVA的多线程聚焦爬虫框架特性与功能

理解Python爬虫：通用爬虫与聚焦爬虫的工作原理

快速入门Scrapy：Python爬虫开发框架详解

超快速异步爬虫框架：网络爬虫技术与应用

Python程序设计：Scrapy爬虫框架的使用.pptx

Python Scrapy框架：通用爬虫之CrawlSpider用法简单示例

iticrawler:开源网络爬虫框架

webCrawller:基于webcollerctor爬虫框架的java爬虫

网络爬虫基础与应用：通用爬虫与聚焦爬虫解析

Scrapy 0.23.0：Web爬虫框架文档

Scrapy 0.24.0电子书教程：Python爬虫框架指南

最新资源