Python多线程爬虫：高效采集并入库实战

65 浏览量更新于2024-09-02 收藏 75KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

在这个Python爬虫程序中，作者阐述了编写爬虫的挑战，如效率、异常处理和数据质量。爬虫程序的核心目标是自动化从网页抓取信息，并将其存储到数据库中。程序代码以`TySpider.py`为名，由刘天斯创建，用于抓取特定网站的内容。程序开始部分导入了必要的库，如`sys`, `time`, `os`, `string`, `mechanize`, `urlparse`, `BeautifulSoup`, `re`, `MySQLdb`, `logging`, `cgi`, 和 `optparse`。`mechanize`库用于模拟浏览器行为，`BeautifulSoup`处理HTML解析，而`MySQLdb`则用于数据库操作。 `Pubclilog`类定义了一个用于记录日志的工具，它包含初始化方法和定义日志记录功能的方法。`__init__`方法设置了日志文件路径，`iniLog`方法通过`logging`模块创建一个文件处理器和一个标准输出处理器来设置日志级别和格式。这样可以确保在执行过程中记录爬虫的运行状态和任何错误或异常信息，提高程序的可维护性和调试性。接下来，代码可能包括以下部分： 1. **爬虫核心逻辑**： - 使用`mechanize`库创建`Browser`对象，用于发送HTTP请求并获取响应。 - 通过`urlparse`处理URLs，可能是URL的解析、参数处理或者URL的拼接。 - 使用`BeautifulSoup`解析HTML文档，提取所需的数据，可能涉及到CSS选择器或正则表达式匹配。 - 链路异常处理：检查HTTP状态码，处理重定向，以及处理页面结构变化导致的抓取问题。 - **并发处理**：通过多线程或异步IO实现1到8个实例的并发抓取，提高采集效率。 2. **数据入库**： - 使用`MySQLdb`连接数据库，执行SQL语句将抓取到的数据存储到表中，可能涉及数据清洗和规范化处理。 - 应用事务管理，确保数据一致性。 3. **命令行选项解析**： - `OptionParser`模块允许用户通过命令行提供参数，例如设置爬取的URL、数据保存路径、并发数等。 4. **错误处理与异常捕获**： - 使用try-except块捕获可能出现的运行时错误，如网络连接问题、解析错误、数据库连接错误等，并在日志中记录相关信息。 5. **脚本执行流程**： - 用户通过命令行调用爬虫脚本，根据参数启动爬虫工作流程。 - 爬虫在运行期间持续监控网络状态和日志记录，确保稳定性和可靠性。整个爬虫程序旨在实现高效、健壮的网页数据抓取，通过精心设计的日志系统和并发处理机制，确保在处理大规模数据和复杂网页结构时，能够有效应对各种挑战。

资源详情

资源推荐

python 写的一个爬虫程序源码写的一个爬虫程序源码

写爬虫是一项复杂、枯噪、反复的工作，考虑的问题包括采集效率、链路异常处理、数据质量(与站点编码规范关系很大)等。

整理自己写一个爬虫程序，单台服务器可以启用1~8个实例同时采集，然后将数据入库。

#-*- coding:utf-8 -*-

#!/usr/local/bin/python

import sys, time, os,string

import mechanize

import urlparse

from BeautifulSoup import BeautifulSoup

import re

import MySQLdb

import logging

import cgi

from optparse import OptionParser

#----------------------------------------------------------------------------#

# Name: TySpider.py #

# Purpose: WebSite Spider Module #

# Author: 刘天斯 #

# Email: liutiansi@gamil.com #

# Created: 2010/02/16 #

#----------------------------------------------------------------------------#

"""

|--------------------------------------------------------------------------

| 定义 loging class;

|--------------------------------------------------------------------------

| 功能：记录系统相关日志信息。

"""

class Pubclilog():

def __init__(self):

self.logfile = 'website_log.txt'

def iniLog(self):

logger = logging.getLogger()

filehandler = logging.FileHandler(self.logfile)

streamhandler = logging.StreamHandler()

fmt = logging.Formatter('%(asctime)s, %(funcName)s, %(message)s')

logger.setLevel(logging.DEBUG)

logger.addHandler(filehandler)

logger.addHandler(streamhandler)

return [logger,filehandler]

"""

|--------------------------------------------------------------------------

| 定义 tySpider class;

|--------------------------------------------------------------------------

| 功能：抓取分类、标题等信息

"""

class BaseTySpider:

#初始化相关成员方法

def __init__(self,X,log_switch):

#数据库连接

self.conn = MySQLdb.connect(db='dbname',host='192.168.0.10',

user='dbuser',passwd='SDFlkj934y5jsdgfjh435',charset='utf8')

#分类及标题页面Community

self.CLASS_URL = 'http://test.abc.com/aa/CommTopicsPage?'

#发表回复页

self.Content_URL = 'http://test.bac.com/aa/CommMsgsPage?'

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38621365

粉丝: 7
资源: 906

Python多线程爬虫：高效采集并入库实战

mian.py,简单的爬虫程序这是使用 Python 写一个爬虫程序的完整代码示例：

python 爬虫程序链家

基于Linux的python多线程爬虫程序设计.pdf

使用Python编写简单的爬虫程序

优化Python爬虫程序的性能

编写你的第一个Python程序

优雅处理Python爬虫程序中的异常与错误

Scrapy框架入门指南：创建第一个爬虫程序

用python写一个爬虫程序

使用Python写一个爬虫程序

用python 写一个爬虫程序

用PYTHON 写一个爬虫程序

利用python 写一个爬虫程序

用Python写一个爬虫程序

给我用python写一个爬虫程序

请使用python写一个爬虫程序

帮我用python 写一个爬虫程序，要求源码有解析

用python 写一个爬虫程序，爬取目标网站的图片

用python写一个爬虫程序，爬取百度的源码

请用python写一个爬虫程序，提取广东省各高校历届录取分数

最新资源