SpoolDirectorySource使用及源码分析

graph, int *visited, int start_node, int *level) { int *queue, queue_start, queue_end; int iSpoolDirectorySource是Flume中的一个Source类型，用于监控一个本地目录，当目录中出现, j, k, num_in_queue; queue = (int *) calloc(graph->num_nodes, sizeof(int)); queue_start = 新的文件时，将文件中的数据作为Event发送给Flume的下一个组件进行处理。使用SpoolDirectory0; queue_end = 0; visited[start_node] = 1; level[start_node] = 0; queueSource可以轻松地将本地文件中的数据导入到Flume中，例如将日志文件或其他数据文件传[queue_end] = start_node; queue_end++; while (queue_start < queue_end) { num_in_queue = queue_end输到Hadoop集群中进行分析。下面是SpoolDirectorySource的使用方法： 1.编写Flume配置 - queue_start; #pragma omp parallel for private(i, j, k) for (i = queue_start; i < queue_end文件 ```properties #定义agent agent.sources = spoolDirSource agent.channels = memoryChannel agent.sinks = loggerSink; i++) { for (j = graph->adj_list_starts[queue[i]]; j < graph->adj_list_starts[queue[i] #定义source agent.sources.spoolDirSource.type = spooldir agent.sources.spoolDirSource.spoolDir = /data + 1]; j++) { k = graph->adj_list[j]; if (visited[k] == 0) { level/flume/spool agent.sources.spoolDirSource.fileHeader = true agent.sources.spoolDirSource.basenameHeader = true agent.sources[k] = level[queue[i]] + 1; visited[k] = 1; queue[queue_end] = k; .spoolDirSource.batchSize = 1000 agent.sources.spoolDirSource.pollDelay = 10000 #定义channel agent #pragma omp atomic queue_end++; } } } queue_start += num_in_queue; } free(queue); } void print_levels(int *levels, int num_nodes) { int i; for (i = 0; i <.channels.memoryChannel.type = memory agent.channels.memoryChannel.capacity = 10000 #定义sink agent.sinks.loggerSink.type = logger num_nodes; i++) { printf("%d: %d\n", i, levels[i]); } } ``` 此代码使用 MPI agent.sinks.loggerSink.channel = memoryChannel ``` 2.启动Flume agent ```shell bin/flume-ng agent 进行分布式计算，将图分成若干个子图，每个进程处理一个子图；同时， -n agent -c conf -f conf/flume-conf.properties ``` 3.将需要导入的文件放到指定的使用 OpenMP 进行并行计算，提高每个进程内部的计算效率。代码中，`read目录中 SpoolDirectorySource默认会监控指定目录中的所有文件，当有新的文件出现时_graph` 函数从文件中读入图；`bfs` 函数实现了基于广度优先搜索的遍历算，会将文件中的数据作为Event发送给下一个组件进行处理。源码分析： SpoolDirectorySource的法；`print_levels` 函数将遍历结果输出到控制台。主函数中，首先使用 MPI 进行进程核心代码在org.apache.flume.source.SpoolDirectorySource类中。 SpoolDirectorySource在启动时会创建一个单独和数据的初始化，然后将图分发到每个进程中，并使用 OpenMP 进行并行化计算；的线程SpoolDirectoryRunnable，该线程会不断地监控指定目录中的文件变化情况，并最后将每个进程的结果汇总到 ROOT 进程，输出遍历结果和运行时间。

SpoolDirectorySource使用及源码分析

相关推荐

flume log4f示例源码

服务器虚拟化部署方案.doc

北京市东城区人民法院服务器项目.doc

求集合数据的均方差iction-mast开发笔记

Wom6.3Wom6.3Wom6.3

html网页版python语言pytorch框架的图像分类西瓜是否腐烂识别-含逐行注释和说明文档-不含图片数据集

2020年细分产品出口数据集.xlsx

注重设置让FTP服务器共享更安全.doc

孵化器孵化服务标准(绝对超值).doc

wx116个人健康信息管理-springboot+vue+uniapp-小程序.zip（可运行源码+sql文件+）

简历求职 (11).pptx

软件测试学习日志-自动化测试阶段-day01

html网页版python语言pytorch框架的图像分类草莓品质识别-含逐行注释和说明文档-不含图片数据集

FXMochaPro2023 v10.0.5.38 是一款功能强大的视觉效果和后期制作工具，由 Boris FX 开发

集成通信和网络的多功能服务器--(e-Cube).docx

高分项目，基于MATLAB开发的IMM雷达多目标跟踪，内含完整源码+开发文档

wx152微信阅读小程序-ssm+vue+uniapp.zip（可运行源码+sql文件+）

588_重型自卸车设计(底盘设计)（有cad图）.zip

51单片机驱动LCD1602的代码，包括初始化函数、显示字符、显示字符串、清除屏幕、显示数字等操作.zip

最新推荐

服务器虚拟化部署方案.doc

北京市东城区人民法院服务器项目.doc

求集合数据的均方差iction-mast开发笔记

Wom6.3Wom6.3Wom6.3

html网页版python语言pytorch框架的图像分类西瓜是否腐烂识别-含逐行注释和说明文档-不含图片数据集

VMP技术解析：Handle块优化与壳模板初始化

管理建模和仿真的文件

【进阶】音频处理基础：使用Librosa

python中字典转换成json

C++ Primer 第四版更新：现代编程风格与标准库