一、Azkaban 简介 Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依...
Linux搭建Cloudera Manager+CDH6.3.1环境
一、大数据环境发展历史 2009年新的Apache Hadoop子项目成立,2011年3月被称为"21世纪的瑞士军刀",12月27日发布1.0.0可用,2013年10月15日发布2.2.0可用,推动大...
Linux安装Hive数据仓库工具
1、Hive入门教程 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是...
Linux搭建大数据平台Ambari并部署Hadoop集群
一、Ambari概述 Ambari跟Hadoop等开源软件一样,也是Apache Software Foundation中的一个项目,并且是顶级项目。Apache Ambari是一个基于Web的支持A...
Linux搭建Flink-1.7.2 HA集群(基于Standalone模式)
一、Flink 简介 Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。 1、无界流和...
Linux搭建Hadoop-2.7.2分布式集群
一、Hadoop简介 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了...