用C语言实现完整程序 实现一个简易的 Web 爬虫,从指定的一个初始页面的 URL 出发,执行操作: 获取页面->分析页面->提取链接->获取新页面…… 1.仅考虑获取普通 http 页面 2.链接获取最多 3 层 最后在Ubuntu上编译实现
时间: 2024-03-22 11:39:27 浏览: 82
好的,以下是一个简单的C语言实现,可以实现从指定URL出发的爬虫任务,限制链接获取最多3层:
```c
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <sys/socket.h>
#include <arpa/inet.h>
#define MAX_LINK_DEPTH 3 // 最大链接深度
#define BUF_SIZE 1024 // 缓冲区大小
void get_page(char* url, char* page_buf, int* len) {
// 创建socket
int sockfd = socket(AF_INET, SOCK_STREAM, 0);
if (sockfd == -1) {
perror("socket");
exit(1);
}
// 解析URL
char domain[BUF_SIZE], path[BUF_SIZE];
sscanf(url, "http://%[^/]/%s", domain, path);
// 填充服务器地址信息
struct sockaddr_in server_addr;
server_addr.sin_family = AF_INET;
server_addr.sin_port = htons(80);
inet_pton(AF_INET, domain, &server_addr.sin_addr);
// 连接服务器
if (connect(sockfd, (struct sockaddr*)&server_addr, sizeof(server_addr)) == -1) {
perror("connect");
exit(1);
}
// 发送HTTP GET请求
char request[BUF_SIZE];
sprintf(request, "GET /%s HTTP/1.1\r\nHost: %s\r\nConnection: close\r\n\r\n", path, domain);
if (send(sockfd, request, strlen(request), 0) == -1) {
perror("send");
exit(1);
}
// 接收响应
char buf[BUF_SIZE];
int total_len = 0, recv_len = 0;
while ((recv_len = recv(sockfd, buf, BUF_SIZE - 1, 0)) > 0) {
memcpy(page_buf + total_len, buf, recv_len);
total_len += recv_len;
}
*len = total_len;
// 关闭socket
close(sockfd);
}
void extract_links(char* page_buf, int len, char* url, char** link_buf, int* link_count) {
// 解析URL
char domain[BUF_SIZE], path[BUF_SIZE];
sscanf(url, "http://%[^/]/%s", domain, path);
// 正则表达式匹配链接
char pattern[BUF_SIZE];
sprintf(pattern, "href=[\"']http://%[^/]/[^\"']*", domain);
regex_t reg;
int ret;
if ((ret = regcomp(®, pattern, REG_EXTENDED)) != 0) {
char errbuf[BUF_SIZE];
regerror(ret, ®, errbuf, BUF_SIZE);
printf("regcomp error: %s\n", errbuf);
exit(1);
}
regmatch_t pmatch[1];
*link_count = 0;
for (int i = 0; i < len; i++) {
if (regexec(®, page_buf + i, 1, pmatch, 0) == 0) {
int start = i + pmatch[0].rm_so;
int end = i + pmatch[0].rm_eo;
char url[BUF_SIZE];
sscanf(page_buf + start, "href=\"%[^\"]\"", url);
// 去重
int j;
for (j = 0; j < *link_count; j++) {
if (strcmp(url, link_buf[j]) == 0) {
break;
}
}
if (j == *link_count) {
link_buf[*link_count] = (char*)malloc(strlen(url) + 1);
strcpy(link_buf[*link_count], url);
(*link_count)++;
}
i = end;
}
}
regfree(®);
}
int main(int argc, char** argv) {
if (argc != 3) {
printf("Usage: %s <url> <max_depth>\n", argv[0]);
return 0;
}
char* url = argv[1];
int max_depth = atoi(argv[2]);
char* page_buf = (char*)malloc(BUF_SIZE);
char* link_buf[BUF_SIZE];
int link_count;
get_page(url, page_buf, &link_count);
extract_links(page_buf, strlen(page_buf), url, link_buf, &link_count);
int cur_depth = 1;
while (cur_depth < max_depth) {
for (int i = 0; i < link_count; i++) {
get_page(link_buf[i], page_buf, &link_count);
extract_links(page_buf, strlen(page_buf), link_buf[i], link_buf, &link_count);
}
cur_depth++;
}
// 输出结果
printf("Crawling finished! %d links found.\n", link_count);
for (int i = 0; i < link_count; i++) {
printf("%s\n", link_buf[i]);
}
// 释放资源
for (int i = 0; i < link_count; i++) {
free(link_buf[i]);
}
free(page_buf);
return 0;
}
```
这个程序实现了从指定URL出发的爬虫任务,限制最大链接深度为3层。程序主要分为两个部分:获取页面和提取链接。其中,获取页面使用socket API发送HTTP GET请求,接收响应内容;提取链接使用正则表达式匹配页面内容中的链接,去重后存储到一个字符串数组中。程序运行时需要输入初始URL和最大链接深度,输出所有获取到的链接。
阅读全文