Flume集群部署(手把手部署图文详细版)

前景概要:

      Kafka消息订阅系统在大数据业务中有着重要运用,尤其在实时业务中,kafka是必不可少的组件之一。

     Flume是大数据组件中重要的数据采集工具,我们常利用Flume采集各种数据源的数据供其他组件分析使用。例如在实时业务中,我们常使用Flume将数据采集到Kafka中,以供实时组件Streaming或Spark等分析处理,Flume在大数据业务中有着重要的应用。

实验目的:

l   掌握kafka shell端生产者和消费者使用,实现数据的生成和实时消费(明天主要内容)

l   掌握Flume的配置和使用,能够使用Flume实现数据采集操作。

实验前提:

 在已经完成部署Hadoop集群的情况下

启动Hadoop集群

步骤 1    在node1节点执行以下命令:

> start-dfs.sh ; start-yarn.sh

返回信息中有以下内容,表示hadoop集群启动成功:

Starting namenodes on [node1]

Starting secondary namenodes [node1]

starting yarn daemons

1.1.1 验证Hadoop状态

步骤 1   使用jps命令在node1-4中查看Java进程

在node1中可以查看到 NameNode,SecondaryNameNode,ResourceManager

进程,在node2-4中可以查看到 NodeManager 和 Datanode 进程,表示hadoop集群状态正常。

>  jps

1538 WrapperSimpleApp

5732 SecondaryNameNode

5508 NameNode

6205 Jps

5918 ResourceManager

>  jps

3026 Jps

2740 DataNode

1515 WrapperSimpleApp

2862 NodeManager

步骤 2    访问,可以登录Namenode的Web界面:

访问Yran界面:

1.2安装与测试Flume

     步骤 1    下载并解压软件包

   在node01上执行如下命令:

>  cd /opt

> wget http://archive.apache.org/dist/flume/1.8.0/apache-flume-1.8.0-bin.tar.gz

>  tar –zxvf apache-flume-1.8.0-bin.tar.gz

>  mv apache-flume-1.8.0-bin /opt/flume-1.8.0

修改文件名字

      步骤 2    设置环境变量

在node1执行命令vim /etc/profile后,在文件末尾添加以下内容:

export FLUME_HOME=/opt/flume-1.8.0

export PATH=$PATH:$FLUME_HOME/bin

添加完成后,执行命令source /etc/profile,使环境变量生效

    步骤 3    修改配置文件

>  cd /opt/flume-1.8.0/conf

>  cp flume-conf.properties.template flume-conf.properties

  步骤 4    运行验证

   在node1上执行如下命令启动Flume测试用例

>  cd /opt/flume-1.8.0/bin

>  flume-ng agent --conf /opt/flume-1.8.0/conf/ --conf-file /opt/flume-1.8.0/conf/flume-conf.properties --name test -Dflume.root.logger=INFO,console  (执行之后命令会不动,等1分钟,另开SSH界面)

在node1上执行如下命令,验证flume安装结果

>  ps -ef |grep flume

当系统回显出现类似上面的信息时,表示flume安装成功

1.2.1 Flume数据到HDFS实验

在node1上执行以下命令

                  步骤 1    准备HDFS文件夹

在HDFS中创建flume存放数据的文件夹(作为sink的下沉地)

hdfs dfs -mkdir -p /flume/data

                  步骤 2    拷贝hadoop的jar包到$FLUME_HOME/lib下

cd /home/modules/hadoop-2.8.3/share/hadoop/common

cp *.jar $FLUME_HOME/lib

                  步骤 3    编辑flume conf配置文件

vim $FLUME_HOME/conf/hdfs.conf

#1、定义agent中各组件名称

agent1.sources=source1

agent1.sinks=sink1

agent1.channels=channel1



#2、source1组件的配置参数

agent1.sources.source1.type=exec

#手动生成/home/source.log手动生成

agent1.sources.source1.command=tail -n +0 -F /home/source.log



#3、channel1的配置参数

agent1.channels.channel1.type=memory

agent1.channels.channel1.capacity=1000

agent1.channels.channel1.transactionCapactiy=100



#4、sink1的配置参数

agent1.sinks.sink1.type=hdfs

agent1.sinks.sink1.hdfs.path=hdfs://node1:8020/flume/data

agent1.sinks.sink1.hdfs.fileType=DataStream

#时间类型

agent1.sinks.sink1.hdfs.useLocalTimeStamp=true

agent1.sinks.sink1.hdfs.writeFormat=TEXT

#文件前缀

agent1.sinks.sink1.hdfs.filePrefix=%Y-%m-%d-%H-%M

#60秒滚动生成一个文件

agent1.sinks.sink1.hdfs.rollInterval=60

#HDFS块副本数

agent1.sinks.sink1.hdfs.minBlockReplicas=1

#不根据文件大小滚动文件

agent1.sinks.sink1.hdfs.rollSize=0

#不根据消息条数滚动文件

agent1.sinks.sink1.hdfs.rollCount=0

#不根据多长时间未收到消息滚动文件

agent1.sinks.sink1.hdfs.idleTimeout=0



#5、将source和sink 绑定到channel

agent1.sources.source1.channels=channel1

agent1.sinks.sink1.channel=channel1

过程如下:

    步骤 4    启动Flume

cd /opt/flume-1.8.0/bin/

./flume-ng agent --conf $FLUME_HOME/conf --conf-file $FLUME_HOME/conf/hdfs.conf --name agent1 Dflume.root.logger=DEBUG,console

保持链接不变

  步骤 5    测试并查看结果

创建新的node1终端,新建/home/source.log并写入文件

touch /home/source.log

echo 111 >> /home/source.log

echo 111 >> /home/source.log

echo 111 >> /home/source.log

在旧终端中可以查看到输出采集信息,接下来我们查看HDFS

[root@node1 ~]# hdfs dfs -ls /flume/data

[root@node1 ~]# hdfs dfs -cat  /flume/data/2020-04-21-17-57.1587463023152

1.3 结论  

       Apache Flume 作为大数据生态系统中重要的数据收集和传输工具,通过其灵活的架构和强大的功能,为企业解决了日志管理、数据集成和实时数据处理的关键问题。深入理解 Flume 的定义、架构、原理、应用场景及常见命令,有助于读者在实际应用中更加高效地使用和管理 Flume。

       通过本文的介绍,希望读者能够对 Apache Flume 的部署有一个清晰的认识,并能够在实际工作中应用 Flume 解决复杂的数据收集和处理挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/772313.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

大白菜U盘启动工具

大白菜如何u盘启动进winpe装系统大白菜是一款非常实用的U盘启动盘制作工具,可以帮助用户快速地将U盘制作成启动盘,从而方便地进行系统安装、维护和修复等操作。官方网站: 大白菜u盘启动盘制作工具_大白菜u盘装系统_大白菜pe_大白菜官网-首页…

机器人控制系列教程之Stewart平台简介和运动学分析

Stewart平台简介及应用场景 六自由度 Stewart 并联机器人结构简图如下图所示,主要有一个固定平台和一个移动平台以及六个可伸缩的推杆组成,通常情况下,固定平台与底座连接,移动平台在空间具有六个自由度,通过六个推杆…

设置Docker中时区不生效的问题

项目中使用docker-compose,并通过以下方式设置了时区 environment:- SET_CONTAINER_TIMEZONEtrue- CONTAINER_TIMEZONEAsia/Shanghai 但是并没有正确生效,网上有很多博客都在推荐这个做法,另外一种是使用标准环境标量 -TZAsia/Shangehai …

大型网站软件系统架构演进过程

在我们的生活中,通常会使用大型网站系统,比如购物网站淘宝,京东,阿里1688;大型搜索引擎网站百度,社交类的如腾讯旗下的微信,QQ及新浪旗下的微博等,他们通常都有一下特点: 高并发、大流量:这些系统必须能够处理成千上万甚至数百万的并发用户请求,以及持续…

Entity Framework EF Migration 迁移

针对Code First来说关注的只有实体类。当需求变更时只需要添加新的实体类或者在实体类中添加、删除、修改属性即可。但是修改完成之后要如何将修改同步到数据库中? migration 机制就出现了 ●启用Migrations   ●通过Add-Migration添加Migration   ●Update-D…

Feign 原理流程图练习-01

目录 作业: 老师给的参考流程图 要求 解答 知识扩展 Feign基础原理 接口定义 代理对象生成 请求调用 请求发送 响应处理 容错与熔断 总结 作业: 老师给的参考流程图 pdf版本 【金山文档 | WPS云文档】 Feign https://kdocs.cn/l/ctbagIyxN348 ​ 要求 结合上面…

Kafka集群部署(手把手部署图文详细版)

1.1.1 部署zookpeer 在node02下载并解压zookeeper软件包 cd /usr/local wget https://archive.apache.org/dist/zookeeper/zookeeper-3.4.6/zookeeper-3.4.6.tar.gz 或者:scp cat192.168.28.100:/home/cat/zookeeper-3.4.6.tar.gz /tmp(注意目录&#xf…

代码随想录算法训练营第70天图论9[1]

代码随想录算法训练营第70天:图论9 ‍ 拓扑排序精讲 卡码网:117. 软件构建(opens new window) 题目描述: 某个大型软件项目的构建系统拥有 N 个文件,文件编号从 0 到 N - 1,在这些文件中,某些文件依赖于其他文件的…

Vue84-Vuex的工作原理与搭建开发环境

一、vuex工作原理 stats:是一个object对象,里面有很多key-value,存放的就是要操作的数据。mutations:是一个object对象,真正去操作stats的人。actions的作用:是一个object对象,当一个动作对应的…

使用zdppy_api+onlyoffice word文档在线共同编辑,附完整的vue3前端代码和python后端代码

参考文档: https://api.onlyoffice.com/zh/editors/basic https://api.onlyoffice.com/zh/editors/coedit 基本的架构思考: 文档表:记录的是文档信息 key:这个key可以标识唯一的一个文档,可以是文档的hash值fileType…

#数据结构 笔记三

二叉树 1. 概念 二叉树Binary Tree是n个结点的有限集合。它或者是空集n0,或者是由一个根结点以及两颗互不相交、分别称为左子树和右子树的二叉树组成。 二叉树与普通有序树不同,二叉树严格区分左子和右子,即使只有一个子结点也要区分左右。…

AR视频技术与EasyDSS流媒体视频管理平台:打造沉浸式视频体验

随着增强现实(AR)技术的飞速发展,其在各个领域的应用日益广泛。这项技术通过实时计算摄影机影像的位置及角度,将虚拟信息叠加到真实世界中,为用户带来超越现实的感官体验。AR视频技术不仅极大地丰富了我们的视觉体验&a…

3.js - premultiplyAlpha

你瞅啥啊!!! 先看效果图吧 代码 // ts-nocheck // 引入three.js import * as THREE from three // 导入轨道控制器 import { OrbitControls } from three/examples/jsm/controls/OrbitControls // 导入lil.gui import { GUI } from three/ex…

万字总结随机森林原理、核心参数以及调优思路

万字总结随机森林原理、核心参数以及调优思路 在机器学习的世界里,随机森林(Random Forest, RF)以其强大的预测能力和对数据集的鲁棒性而备受青睐。作为一种集成学习方法,随机森林通过构建多个决策树并将它们的预测结果进行汇总&…

高精度定位技术:赋能电网智能化转型的新引擎

在当今社会,电力作为经济发展的血脉,其稳定高效运行对于国家能源安全与社会发展至关重要。随着科技的飞速进步,高精度定位技术正逐步渗透至电网管理的各个环节,成为推动电网智能化转型的关键力量。本文将深入探讨高精度定位技术在…

下载安装MySQL

1.软件的下载 打开官网下载mysql-installer-community-8.0.37.0.msi 2.软件的安装 mysql下载完成后,找到下载文件,双击安装 3.配置环境变量 4.自带客户端登录与退出

B站大课堂-自动化精品视频(个人存档)

基础知识 工业通信协议 Modbus 施耐德研发,有基于以太网的 ModbusTCP 协议和使用 485/232 串口通信的 ModbusRTU/ASCII。 Modbus 协议面世较早、协议简洁高效、商用免费、功能灵活、实现简单,是目前应用最广泛的现场总线协议。 我的笔记里边有一些推荐…

利用自定义注解,反射,cglib代理实现spring框架的IOC

对比jdk代理,cglib不用实现任何接口,使用的范围更宽广。cglib实质上是创建了目标对象类的子类对象。 使用自定义注解MyService和MyTransactional代替spring框架提供的注解Service Transactional 创建自定义注解类MyService 创建自定义注解类MyTransacti…

收银系统源码-收银台营销功能-购物卡

1. 功能描述 购物卡:基于会员的电子购物卡,支持设置时效、适用门店、以及可用商品;支持售卖和充值赠送,在收银台可以使用; 2.适用场景 会员充值赠送活动,例如会员充值1000元,赠送面值100元购…

Android广播机制

简介 某个网络的IP范围是192.168.0.XXX,子网 掩码是255.255.255.0,那么这个网络的广播地址就是192.168.0.255。广播数据包会被发送到同一 网络上的所有端口,这样在该网络中的每台主机都将会收到这条广播。为了便于进行系统级别的消息通知&…