1、复制jar包到flume/lib下
commons-configuration-1.6.jar commons-io-2.4.jar hadoop-annotations-2.7.6.jar hadoop-auth-2.7.6.jar hadoop-common-2.7.6.jar hadoop-hdfs-2.7.6.jar htrace-core-3.1.0-incubation.jar
2、创建flume-hdfs.conf文件 vim flume-hdfs.conf
#name the components on this agent a2.sources = r2 a2.sinks = k2 a2.channels = c2 # Describe/configure the source a2.sources.r2.type = exec a2.sources.r2.command = tail -F /tmp/haitao/hive.log a2.sources.r2.bind = hadoop002 a2.sources.r2.shell = /bin/bash -c # Describe the sink a2.sinks.k2.type = hdfs a2.sinks.k2.hdfs.path = hdfs://hadoop002:9000/flume/%Y%m%d/%H #上传文件的前缀 a2.sinks.k2.hdfs.filePrefix = logs-haitao- #是否按照时间滚动文件夹 a2.sinks.k2.hdfs.round = true #多少时间单位创建一个新的文件夹 a2.sinks.k2.hdfs.roundValue = 1 #重新定义时间单位 a2.sinks.k2.hdfs.roundUnit = hour #是否使用本地时间戳 a2.sinks.k2.hdfs.useLocalTimeStamp = true #积攒多少个Event才flush到HDFS一次 #a2.sinks.k2.hdfs.batchSize = 1000 #设置文件类型,可支持压缩 a2.sinks.k2.hdfs.fileType = DataStream #多久生成一个新的文件 a2.sinks.k2.hdfs.rollInterval = 60 #设置每个文件的滚动大小 a2.sinks.k2.hdfs.rollSize = 134217700 #文件的滚动与Event数量无关 a2.sinks.k2.hdfs.rollCount = 0 #最小冗余数 a2.sinks.k2.hdfs.minBlockReplicas = 1 # Use a channel which buffers events in memory a2.channels.c2.type = memory a2.channels.c2.capacity = 1000 a2.channels.c2.transactionCapacity = 100 # Bind the source and sink to the channel a2.sources.r2.channels = c2 a2.sinks.k2.channel = c2 ————————————————
3、执行监控配置
首先进入flume安装目录 cd /usr/local/flume
bin/flume-ng agent --conf conf/ --name a2 --conf-file job/flume-hdfs.conf
相关推荐
大数据采集技术与应用
视频详细讲解,需要的小伙伴自行百度网盘下载,链接见附件,永久有效。 1、介绍: Flume是的一个分布式、高可用、高可靠的海量日志采集、聚合和传输的系统,支持在日志系统中定制各类数据发送方...章节十三:Flume监控
包括功能应用,配置,2.02_02_02_10 Flume实在案例讲解(监控日志目录日志数据,实时抽取之hdfs系统上) 网页
在本课程中,你将学习到,Flume架构原理、安装配置、拓扑结构、使用Flume搭建监控端口采集数据、监控本地(或HDFS)文件(或文件夹)采集数据、多数据源采集数据、多数据出口收集日志、Flume负载均衡以及对于Flume的监控...
在本课程中,你将学习到,Flume架构原理、安装配置、拓扑结构、使用Flume搭建监控端口采集数据、监控本地(或HDFS)文件(或文件夹)采集数据、多数据源采集数据、多数据出口收集日志、Flume负载均衡以及对于Flume的监控...
在本课程中,你将学习到,Flume架构原理、安装配置、拓扑结构、使用Flume搭建监控端口采集数据、监控本地(或HDFS)文件(或文件夹)采集数据、多数据源采集数据、多数据出口收集日志、Flume负载均衡以及对于Flume的监控...
分时日志实时监控采集 3.多数据源动态采集方案 4.内存式高性能缓存方案 5.实时采集存储HDFS 6.多目标存储架构 7.Flume多层采集架构 第四章:一招解决Flume数据容错 1.Flume高级组件:SinkProcess 2.Flume...
开源 bbs 源码 java 基于论坛的apache common日志分析项目 :maple_leaf: 项目描述 通过对技术论坛的...flume配置文件(从本地监控目录上传日志文件到hdfs中) mapreduce 源码 数据清洗结果 hadoop fs -cat /user/elo
技术点1 使用Flume 将系统日志文件导入HDFS 2.2.2 导入导出半结构化和二进制文件 技术点2 自动复制文件到HDFS 的机制 技术点3 使用Oozie 定期执行数据导入活动 2.2.3 从数据库中拉数据 技术点4 使用...
该实时处理系统整体架构如下:通过将 Agent 部署在 Web 效劳器,一旦发生新增的日志数据,就会被 Flume 程序监听到,并且最终会传输到 Kafka 的 Topic 中,再进行后续的一系列操作。 1.3 数据传输 Kafka Kafka 最初...
数据逻辑.2 将数据导入导出Hadoop.2.1 导入导出的关键要素2.2 将数据导入Hadoop .2.2.1 将日志文件导入Hadoop技术点1 使用Flume 将系统日志文件导入HDFS 2.2.2 导入导出半结构化和二进制文件技术点2...
- emsite采用dubbo作为服务层框架,后台将集成单点登录、oauth2.0、storm+kafka消息处理系统、kafka+ flume+storm+hdfs+hadoop作为日志分析系统、配置中心、分布式任务调度系统、服务器实时监控系统、搜索引擎系统...
采用dubbo作为服务层框架,后台将集成单点登录、Auth2.0、storm+kafka消息处理系统、kafka+ flume+storm+hdfs+hadoop作为日志分析系统、配置中心、分布式任务调度系统、服务器实时监控系统、搜索引擎系统(elastic...
核心团队 大数据技术-平台架构 Oracle MySQL SQL Server ETL清洗 分布式数据库 Flume & Sqoop 抽 取 层 日志 点击流 其它数据接口 HDFS分布式文件系统 NoSQL数据库 (图数据库) HBase 列族数据库 Pig 分析工具 ...
具体整合jsp,freemarker,banner,全局捕获异常,log4j日志,aop,lombok,异步执行,多环境配置,mybatis,声明式事务,多数据源,mybatis分业,热...搭建springboot监控中心,整合redis,solr,activemq,email,定时任务,hdfs,flume