• 文章介绍
  • 评价建议

  • PostgreSQL 11.2 手册》中文版简介

    当前文档 《大数据入门指南》 由 进击的皇虫 使用 书栈网(BookStack.CN) 进行构建,生成于 2019-12-08。

    本书包含如下内容:Hadoop,hive,spark,storm,flink,hbase,kafka,zookeeper,flume,sqoop

    高清原版大数据教程《大数据入门指南201912版》大数据入门必选PDF版本下载【35M 790页】插图

    《PostgreSQL 11.2 手册》中文版精彩内容节选

    在提交大数据作业到集群上运行时,通常需要先将项目打成 JAR 包。这里以 Maven 为例,常用打包方式如下:

    不加任何插件,直接使用 mvn package 打包;

    使用 maven-assembly-plugin 插件;

    使用 maven-shade-plugin 插件;

    使用 maven-jar-plugin 和 maven-dependency-plugin 插件;

    以下分别进行详细的说明。

    不在 POM 中配置任何插件,直接使用 mvn package 进行项目打包,这对于没有使用外部依赖包的项目是可行的。但如果项目中使用了第三方 JAR 包,就会出现问题,因为 mvn package 打的JAR 包中是不含有依赖包,会导致作业运行时出现找不到第三方依赖的异常。这种方式局限性比较大,因为实际的项目往往很复杂,通常都会依赖第三方 JAR。

    大数据框架的开发者也考虑到这个问题,所以基本所有的框架都支持在提交作业时使用 --jars 指定第三方依赖包,但是这种方式的问题同样很明显,就是你必须保持生产环境与开发环境中的所有 JAR包版本一致,这是有维护成本的。

    基于上面这些原因,最简单的是采用 All In One 的打包方式,把所有依赖都打包到一个 JAR 文件中,此时对环境的依赖性最小。要实现这个目的,可以使用 Maven 提供的 maven-assembly-plugin 或 maven-shade-plugin 插件

    《PostgreSQL 11.2 手册》中文版目录

    前 言

    大数据学习路线

    大数据技术栈思维导图

    大数据常用软件安装指南

    一、Hadoop

    分布式文件存储系统 —— HDFS

    分布式计算框架 —— MapReduce

    集群资源管理器 —— YARN

    Hadoop 单机伪集群环境搭建

    Hadoop 集群环境搭建

    HDFS 常用 Shell 命令

    HDFS Java API 的使用

    基于 Zookeeper 搭建 Hadoop 高可用集群

    二、Hive

    Hive 简介及核心概念

    Linux 环境下 Hive 的安装部署

    Hive CLI 和 Beeline 命令行的基本使用

    Hive 常用 DDL 操作

    Hive 分区表和分桶表

    Hive 视图和索引

    Hive常用 DML 操作

    Hive 数据查询详解

    三、Spark

    Spark Core

    Spark 简介

    Spark 开发环境搭建

    弹性式数据集 RDD

    RDD 常用算子详解

    Spark 运行模式与作业提交

    Spark 累加器与广播变量

    基于 Zookeeper 搭建 Spark 高可用集群

    本文档使用 书栈网 · BookStack.CN 构建

    - 2 -Spark SQL

    DateFrame 和 DataSet

    Structured API 的基本使用

    Spark SQL 外部数据源

    Spark SQL 常用聚合函数

    Spark SQL JOIN 操作

    Spark Streaming

    Spark Streaming 简介

    Spark Streaming 基本操作

    Spark Streaming 整合 Flume

    Spark Streaming 整合 Kafka

    四、Storm

    Storm 和流处理简介

    Storm 核心概念详解

    Storm 单机环境搭建

    Storm 集群环境搭建

    Storm 编程模型详解

    Storm 项目三种打包方式对比分析

    Storm 集成 Redis 详解

    Storm 集成 HDFS-HBase

    Storm 集成 Kafka

    五、Flink

    Flink 核心概念综述

    Flink 开发环境搭建

    Flink Data Source

    Flink Data Transformation

    Flink Data Sink

    Flink 窗口模型

    Flink 状态管理与检查点机制

    Flink Standalone 集群部署

    六、HBase

    Hbase 简介

    HBase 系统架构及数据结构

    HBase 基本环境搭建 (Standalone -pseudo-distributed mode)

    HBase 集群环境搭建

    HBase 常用 Shell 命令

    HBase Java API

    Hbase 过滤器详解

    本文档使用 书栈网 · BookStack.CN 构建

    - 3 -HBase 协处理器详解

    HBase 容灾与备份

    HBase的 SQL 中间层 —— Phoenix

    Spring-Spring Boot 整合 Mybatis + Phoenix

    七、Kafka

    Kafka 简介

    基于 Zookeeper 搭建 Kafka 高可用集群

    Kafka 生产者详解

    Kafka 消费者详解

    深入理解 Kafka 副本机制

    八、Zookeeper

    Zookeeper 简介及核心概念

    Zookeeper 单机环境和集群环境搭建

    Zookeeper 常用 Shell 命令

    Zookeeper Java 客户端 —— Apache Curator

    Zookeeper ACL 权限控制

    九、Flume

    Flume 简介及基本使用

    Linux 环境下 Flume 的安装部署

    Flume 整合 Kafka

    十、Sqoop

    Sqoop 简介与安装

    Sqoop 的基本使用

    十一、Azkaban

    Azkaban 简介

    Azkaban3.x 编译及部署

    Azkaban Flow 1.0 的使用

    Azkaban Flow 2.0 的使用

    十二、Scala

    Scala 简介及开发环境配置

    基本数据类型和运算符

    流程控制语句

    数组 —— Array

    集合类型综述

    常用集合类型之 —— List & Set

    常用集合类型之 —— Map & Tuple

    类和对象

    继承和特质

    本文档使用 书栈网 · BookStack.CN 构建

    - 4 -函数 & 闭包 & 柯里化

    模式匹配

    类型参数

    隐式转换和隐式参数

    十三、公共内容

    大数据应用常用打包方式

    后 记 资料分享与开发工具推荐

    免责声明:
    1. 本站资源转自互联网,源码资源分享仅供交流学习,下载后切勿用于商业用途,否则开发者追究责任与本站无关!
    2. 本站使用「署名 4.0 国际」创作协议,可自由转载、引用,但需署名原版权作者且注明文章出处
    3. 未登录无法下载,登录使用金币下载所有资源。
    IT小站 » 高清原版大数据教程《大数据入门指南201912版》大数据入门必选PDF版本下载【35M 790页】

    常见问题FAQ

    没有金币/金币不足 怎么办?
    本站已开通每日签到送金币,每日签到赠送五枚金币,金币可累积。
    所有资源普通会员都能下载吗?
    本站所有资源普通会员都可以下载,需要消耗金币下载的白金会员资源,通过每日签到,即可获取免费金币,金币可累积使用。

    发表评论