`
sunbin
  • 浏览: 342443 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

flume实时监控日志文件到hdfs

阅读更多

1、复制jar包到flume/lib下

 

commons-configuration-1.6.jar  
commons-io-2.4.jar  
hadoop-annotations-2.7.6.jar  
hadoop-auth-2.7.6.jar  
hadoop-common-2.7.6.jar  
hadoop-hdfs-2.7.6.jar 
htrace-core-3.1.0-incubation.jar 

 2、创建flume-hdfs.conf文件     vim    flume-hdfs.conf

#name the components on this agent
a2.sources = r2
a2.sinks = k2
a2.channels = c2
 
# Describe/configure the source
a2.sources.r2.type = exec
a2.sources.r2.command = tail -F /tmp/haitao/hive.log
a2.sources.r2.bind = hadoop002
a2.sources.r2.shell = /bin/bash -c
 
# Describe the sink
a2.sinks.k2.type = hdfs
a2.sinks.k2.hdfs.path = hdfs://hadoop002:9000/flume/%Y%m%d/%H
#上传文件的前缀
a2.sinks.k2.hdfs.filePrefix = logs-haitao-
#是否按照时间滚动文件夹
a2.sinks.k2.hdfs.round = true
#多少时间单位创建一个新的文件夹
a2.sinks.k2.hdfs.roundValue = 1
#重新定义时间单位
a2.sinks.k2.hdfs.roundUnit = hour
#是否使用本地时间戳
a2.sinks.k2.hdfs.useLocalTimeStamp = true
#积攒多少个Event才flush到HDFS一次
#a2.sinks.k2.hdfs.batchSize = 1000
#设置文件类型,可支持压缩
a2.sinks.k2.hdfs.fileType = DataStream
#多久生成一个新的文件
a2.sinks.k2.hdfs.rollInterval = 60
#设置每个文件的滚动大小
a2.sinks.k2.hdfs.rollSize = 134217700
#文件的滚动与Event数量无关
a2.sinks.k2.hdfs.rollCount = 0
#最小冗余数
a2.sinks.k2.hdfs.minBlockReplicas = 1
 
# Use a channel which buffers events in memory
a2.channels.c2.type = memory
a2.channels.c2.capacity = 1000
a2.channels.c2.transactionCapacity = 100
 
# Bind the source and sink to the channel
a2.sources.r2.channels = c2
a2.sinks.k2.channel = c2
————————————————

 3、执行监控配置  

首先进入flume安装目录  cd /usr/local/flume

bin/flume-ng agent --conf conf/ --name a2 --conf-file job/flume-hdfs.conf

 

分享到:
评论

相关推荐

    大数据采集技术-Flume监控日志到HDFS.pptx

    大数据采集技术与应用

    最全Flume视频教程,大数据入门必学

    视频详细讲解,需要的小伙伴自行百度网盘下载,链接见附件,永久有效。 1、介绍: Flume是的一个分布式、高可用、高可靠的海量日志采集、聚合和传输的系统,支持在日志系统中定制各类数据发送方...章节十三:Flume监控

    flume教学视频

    包括功能应用,配置,2.02_02_02_10 Flume实在案例讲解(监控日志目录日志数据,实时抽取之hdfs系统上) 网页

    全面系统完整的Flume教程

    在本课程中,你将学习到,Flume架构原理、安装配置、拓扑结构、使用Flume搭建监控端口采集数据、监控本地(或HDFS)文件(或文件夹)采集数据、多数据源采集数据、多数据出口收集日志、Flume负载均衡以及对于Flume的监控...

    通俗易懂的Flume升级版教程(含配套资料)

    在本课程中,你将学习到,Flume架构原理、安装配置、拓扑结构、使用Flume搭建监控端口采集数据、监控本地(或HDFS)文件(或文件夹)采集数据、多数据源采集数据、多数据出口收集日志、Flume负载均衡以及对于Flume的监控...

    大数据视频_Flume视频教程

    在本课程中,你将学习到,Flume架构原理、安装配置、拓扑结构、使用Flume搭建监控端口采集数据、监控本地(或HDFS)文件(或文件夹)采集数据、多数据源采集数据、多数据出口收集日志、Flume负载均衡以及对于Flume的监控...

    Flume零基础应用实战企业全场景解决方案视频教程

    分时日志实时监控采集 3.多数据源动态采集方案 4.内存式高性能缓存方案 5.实时采集存储HDFS 6.多目标存储架构 7.Flume多层采集架构 第四章:一招解决Flume数据容错 1.Flume高级组件:SinkProcess 2.Flume...

    开源bbs源码java-Hadoop-LogAnalysis:基于论坛的apachecommon日志分析项目

    开源 bbs 源码 java 基于论坛的apache common日志分析项目 :maple_leaf: 项目描述 通过对技术论坛的...flume配置文件(从本地监控目录上传日志文件到hdfs中) mapreduce 源码 数据清洗结果 hadoop fs -cat /user/elo

    Hadoop硬实战 [(美)霍姆斯著][电子工业出版社][2015.01]_PDF电子书下载 带书签目录 高清完整版.rar )

    技术点1 使用Flume 将系统日志文件导入HDFS 2.2.2 导入导出半结构化和二进制文件 技术点2 自动复制文件到HDFS 的机制 技术点3 使用Oozie 定期执行数据导入活动 2.2.3 从数据库中拉数据 技术点4 使用...

    大数据中台架构栈.doc

    该实时处理系统整体架构如下:通过将 Agent 部署在 Web 效劳器,一旦发生新增的日志数据,就会被 Flume 程序监听到,并且最终会传输到 Kafka 的 Topic 中,再进行后续的一系列操作。 1.3 数据传输 Kafka Kafka 最初...

    Hadoop实战(第2版)

    数据逻辑.2 将数据导入导出Hadoop.2.1 导入导出的关键要素2.2 将数据导入Hadoop .2.2.1 将日志文件导入Hadoop技术点1 使用Flume 将系统日志文件导入HDFS 2.2.2 导入导出半结构化和二进制文件技术点2...

    emsite后台全自动快速开发框架.rar

    - emsite采用dubbo作为服务层框架,后台将集成单点登录、oauth2.0、storm+kafka消息处理系统、kafka+ flume+storm+hdfs+hadoop作为日志分析系统、配置中心、分布式任务调度系统、服务器实时监控系统、搜索引擎系统...

    emsite后台全自动快速开发框架 v2.1.0

    采用dubbo作为服务层框架,后台将集成单点登录、Auth2.0、storm+kafka消息处理系统、kafka+ flume+storm+hdfs+hadoop作为日志分析系统、配置中心、分布式任务调度系统、服务器实时监控系统、搜索引擎系统(elastic...

    农业大数据技术.pptx

    核心团队 大数据技术-平台架构 Oracle MySQL SQL Server ETL清洗 分布式数据库 Flume & Sqoop 抽 取 层 日志 点击流 其它数据接口 HDFS分布式文件系统 NoSQL数据库 (图数据库) HBase 列族数据库 Pig 分析工具 ...

    springboot.zip

    具体整合jsp,freemarker,banner,全局捕获异常,log4j日志,aop,lombok,异步执行,多环境配置,mybatis,声明式事务,多数据源,mybatis分业,热...搭建springboot监控中心,整合redis,solr,activemq,email,定时任务,hdfs,flume

Global site tag (gtag.js) - Google Analytics