数据仓库实施[分步指南]

作者 : IT 大叔 本文共2380个字,预计阅读时间需要6分钟 发布时间: 2020-09-18

适当地应用商业智能服务(BI)和数据仓库实现使您可以深入研究组织的数据。它使您可以 从信息中得出结论,以获得市场 竞争优势。为了实施有效的BI工具,公司首先需要设计良好的数据仓库。数据仓库设计是从许多支持分析报告和数据分析的来源构建用于数据集成的解决方案的过程。设计不当的数据仓库会使面临基于错误 结论做出战略决策的风险

在本文中,我们将从更高层次上看一下数据仓库的设计过程-从需求的收集到实现本身。本文还将帮助您避免犯与数据仓库实施相关的主要错误。

数据仓库实施[分步指南]插图(2)

BI和企业数据仓库实施和设计的收集要求

收集需求是数据仓库设计过程的第一步。该阶段的目的是为成功实施数据仓库定义标准。应该规定分析和报告的要求,以及用户的硬件,软件,测试,实施和培训。组织的长期业务战略应与当前的业务和技术要求同样重要。

在概述了业务和技术战略之后,下一步是确定组织如何从仓库备份数据以及在发生故障时如何恢复系统。在收集需求的同时制定紧急恢复计划可确保组织已准备好对数据丢失的直接和间接威胁做出快速反应。

您可能还会发现它很有趣– ETL开发

确定ETL,OLAP数据库的物理环境

下一步是确定数据仓库的物理环境。至少应该有单独的物理应用程序服务器和数据库,以及单独的ETL / ELT,OLAP流程和配置用于开发,测试和生产的报告。通过构建单独的物理环境,我们必须确保在将所有变更转移到生产之前可以对其进行测试。开发和测试应该在不停止生产环境的情况下进行,并且如果数据完整性变得可疑,IT员工可以在不影响生产环境的情况下调查问题。

使用Star Schema或Snowflake方法进行数据建模以实现数据仓库

在定义了需求和物理环境之后,下一步就是确定如何在数据仓库中使用,组合,处理和存储数据结构。此过程称为数据建模。在数据仓库设计的此阶段,将定义数据源。确定数据源以及同样重要的是,此数据的可用性对于项目的成功至关重要。识别数据源后,数据仓库团队可以根据设置的要求开始构建逻辑和物理结构。

提取,转换,加载(ETL)

ETL(提取,转换和加载)的目的是在不损失数据质量的情况下提供优化的数据加载过程。ETL过程在开发过程中花费最多的时间,而在实施过程中则花费最多的时间。在数据建模阶段识别数据源可以帮助减少ETL开发时间。在流程的此阶段失败可能会导致ETL流程和整个数据仓库系统的性能不佳。

OLAP或表格立方体设计

在线分析处理(OLAP)是一种引擎,可为临时查询和多维分析提供基础结构。OLAP多维数据集的尺寸和度量要求必须在数据仓库设计过程的开始时指定。以下是OLAP设计的三个关键要素:

  • 分组度量-我们要分析的数值(例如收入,客户数量,客户购买的产品数量或平均购买金额)。
  • 维度–它们对度量分析进行补充,并将其扩展到地理区域,月份或季度等区域。
  • 数据细化–我们希望包含在OLAP数据集中的最低详细程度。

您需要确保在开发阶段优化了OLAP多维数据集处理。数据仓库更新后,应快速更新OLAP多维数据集。无法及时更新其中任何一个都会导致系统性能下降。花时间探索最有效的OLAP多维数据集生成路径可以减少或消除在部署数据仓库后与性能相关的问题。

商业智能前端开发

在定义业务需求,放置物理环境,建模数据和设计ETL流程之后,下一步与选择企业数据仓库(EDW)中共享数据的方法和形式有关。选择正确的前端工具(Power BI,Tableau,Looker)是为了确保用户访问数据以进行即席分析,预定义报告和仪表板的方式。提供各种选择,包括根据自己的实力来构建前端内部零件或购买现成的产品。

无论哪种方式,请记住业务用户的需求,以确保共享数据的最佳质量。整个过程中最重要的元素是从任何设备(台式计算机,笔记本电脑,平板电脑或电话)安全访问数据。当在企业级别更改报告要求时,该工具应使开发团队能够修改后端结构。它还应提供允许用户自定义报告的图形用户界面(GUI)。OLAP引擎和数据仓库可能是同类产品中最好的。但是,如果用户不能有效使用数据,则数据仓库将成为昂贵且无用的数据存储库。

报告和仪表板开发

大多数最终用户通常仅使用数据仓库来生成报告或仪表板。正如我们在前端开发部分中提到的那样,快速有效地选择报告标准的能力是从数据仓库生成报告标准的重要功能。分配选项是另一个重要因素。除了通过安全的Web界面接收报告外,用户可能还需要将报告作为电子邮件附件或电子表格发送。控制数据流和可见性是报告系统开发的另一方面。开发可访问特定数据段的用户组应确保安全性和数据控制。设计良好的数据仓库应能够处理与临时报告和

ETL性能调整

我们建议创建单独的编程和测试环境。结果,组织可以在不中断当前生产环境的情况下使用ETL,查询处理和报告交付来提高系统性能。您需要确保开发和测试环境,硬件和应用程序可以模仿生产环境,以便在开发阶段开发的生产率提高将在生产环境中更有效地工作。

测试中

根据业务需求开发了数据仓库系统之后,接下来是对其进行测试的时候了。测试或质量保证是不应忽略的步骤。结果,它将允许数据仓库团队在首次部署之前发现并解决问题。未完成测试阶段可能会导致数据仓库项目的完成或完成出现延迟。

企业数据仓库的实施和部署

该系统是否对所有人可用的决定将取决于最终用户的数量。结果,它还取决于他们将如何访问数据仓库系统。 系统实施的另一个重要方面经常被忽视,那就是对最终用户的培训。从DWH团队和程序员的角度来看,无论GUI多么直观,都应该进行培训。如果面向最终用户的工具难以使用且“难以理解”,则他们将停止使用该工具,而忽略了该系统的所有优点。

了解设计数据仓库及其实施的最佳实践

设计数据仓库是一项耗时且艰巨的任务。好的方面和坏的方面都会出现在每个步骤中。但是,如果组织从一开始就投入更多时间来开发健壮的需求,则该过程的后续步骤将更加顺畅,并成功实施数据仓库。

免责声明:
1. 本站资源转自互联网,源码资源分享仅供交流学习,下载后切勿用于商业用途,否则开发者追究责任与本站无关!
2. 本站使用「署名 4.0 国际」创作协议,可自由转载、引用,但需署名原版权作者且注明文章出处
3. 未登录无法下载,登录使用金币下载所有资源。
IT小站 » 数据仓库实施[分步指南]

常见问题FAQ

没有金币/金币不足 怎么办?
本站已开通每日签到送金币,每日签到赠送五枚金币,金币可累积。
所有资源普通会员都能下载吗?
本站所有资源普通会员都可以下载,需要消耗金币下载的白金会员资源,通过每日签到,即可获取免费金币,金币可累积使用。

发表评论