了解清楚大数据工程师的日常工作内容,让你学习少走弯路

作者 : IT 大叔 本文共1533个字,预计阅读时间需要4分钟 发布时间: 2020-09-1

1 写 SQL (很多入职一两年的大数据工程师主要的工作就是写 SQL )

2 为集群搭大数据环境(一般公司招大数据工程师环境都已经搭好了,公司内部会有现成的大数据平台,但我这边会私下搞一套测试环境,毕竟公司内部的大数据系统权限限制很多,严重影响开发效率)

3 维护大数据平台(这个应该是每个大数据工程师都做过的工作,或多或少会承担“运维”的工作)

4 数据迁移(有部分公司需要把数据从传统的数据库 Oracle、MySQL 等数据迁移到大数据集群中,这个是比较繁琐的工作,吃力不讨好)

5 应用迁移(有部分公司需要把应用从传统的数据库 Oracle、MySQL 等数据库的存储过程程序或者SQL脚本迁移到大数据平台上,这个过程也是非常繁琐的工作,无聊,高度重复且麻烦,吃力不讨好)

6 数据采集(采集日志数据、文件数据、接口数据,这个涉及到各种格式的转换,一般用得比较多的是 Flume 和 Logstash)

7 数据处理

7.1 离线数据处理(这个一般就是写写 SQL 然后扔到 Hive 中跑,其实和第一点有点重复了)

7.2 实时数据处理(这个涉及到消息队列,Kafka,Spark,Flink 这些,组件,一般就是 Flume 采集到数据发给 Kafka 然后 Spark 消费 Kafka 的数据进行处理)

8 数据可视化(这个我司是用 Spring Boot 连接后台数据与前端,前端用自己魔改的 echarts)

9 大数据平台开发(偏Java方向的,大概就是把开源的组件整合起来整成一个可用的大数据平台这样,常见的是各种难用的 PaaS 平台)

10 数据中台开发(中台需要支持接入各种数据源,把各种数据源清洗转换为可用的数据,然后再基于原始数据搭建起宽表层,一般为了节省开发成本和服务器资源,都是基于宽表层查询出业务数据)

11 搭建数据仓库(这里的数据仓库的搭建不是指 Hive ,Hive 是搭建数仓的工具,数仓搭建一般会分为三层 ODS、DW、DM 层,其中DW是最重要的,它又可以分为DWD,DWM,DWS,这个层级只是逻辑上的概念,类似于把表名按照层级区分开来的操作,分层的目的是防止开发数据应用的时候直接访问底层数据,可以减少资源,注意,减少资源开销是减少 内存 和 CPU 的开销,分层后磁盘占用会大大增加,磁盘不值钱所以没什么关系,分层可以使数据表的逻辑更加清晰,方便进一步的开发操作,如果分层没有做好会导致逻辑混乱,新来的员工难以接手业务,提高公司的运营成本,还有这个建数仓也分为建离线和实时的)

总之就是离不开写 SQL ...

日常工作无他,三个而已:(警告:不要迷恋SQL)

  • 一,有数据可看
  • 二,可看的数据及时呈现
  • 三,呈现完整可靠易解释的数据

一,有数据可看,要写SQL:

多是select 提取基于业务(日志,业务表)场景join的大表用 group by 多维度聚合加工后的数据结果集;

  1. 搭建业务指南针数据报表体系
  2. 多变活动的效果评估体系
  3. 临时突发的数据提取

写的SQL要归档保存,目标少写SQL。

二,可看的数据及时呈现:

SQL任务-由于业务数据的增长,跑不动了,开始优化了:SQL优化,处理数据倾斜,一个大任务拆多个小任务,设置参数等等;实时数据开发-是提升数据时效性的关键技术。

  1. 优化计算的复杂度
  2. 分布式任务的均衡
  3. 处理实时数据开发

多涉足一门技术,好好学习实时开发,提升自己的竞争力。

三,呈现完整可靠易解释的数据:

多维模型建设数据仓库:结合业务数据,组建维表与事实表星型数据仓库,数仓模型完整表达业务过程,数据可解释,帮助业务快速拿到想看的数据。

  1. 完善事实表,覆盖常见业务过程。(完整性)
  2. 完善维度模型,统一事实表的引用。(一致性)
  3. 建设数据问题发现机制,及时主动发现数据问题。(正确性)
  4. 提升模型易用性,为业务自建分析能力提供支持。(易用性)

做一件事容易,做出学问做出价值才是出彩点。

免责声明:
1. 本站资源转自互联网,源码资源分享仅供交流学习,下载后切勿用于商业用途,否则开发者追究责任与本站无关!
2. 本站使用「署名 4.0 国际」创作协议,可自由转载、引用,但需署名原版权作者且注明文章出处
3. 未登录无法下载,登录使用金币下载所有资源。
IT小站 » 了解清楚大数据工程师的日常工作内容,让你学习少走弯路

常见问题FAQ

没有金币/金币不足 怎么办?
本站已开通每日签到送金币,每日签到赠送五枚金币,金币可累积。
所有资源普通会员都能下载吗?
本站所有资源普通会员都可以下载,需要消耗金币下载的白金会员资源,通过每日签到,即可获取免费金币,金币可累积使用。

发表评论