简洁易懂的数据仓库(date warehouse)设计教程

作者 : IT 大叔 本文共3249个字,预计阅读时间需要9分钟 发布时间: 2020-08-17

随着公司的发展,您开始考虑利用大数据和商业智能,创建数据仓库是第一步。数据仓库在商业智能中起着关键作用,因此,需要进行深思熟虑。在本文中,我们将提出这个问题。我们将讨论数据仓库设计原则,并解决敏捷数据仓库设计问题。让我们找出您需要了解的有关数据仓库设计的知识!

首先是第一件事。数据仓库对于任何想要使用商业智能和大数据以改善其中的决策过程,从而加快其发展和增长的公司而言,都至关重要。尽管它们不在前线,但它们在后台起着至关重要的作用。实际上,没有它们,就不可能实现商业智能!但是数据仓库到底是什么?以及如何设计数据仓库?您将发现这一点。

目录

什么是数据仓库?

如果您经营一家公司,则很可能会将数据存储在不同的位置和形式。例如,假设您有:

  • CRM软件中的客户数据
  • PDF和JPG文件中的账单和发票
  • 您在Google Analytics(分析)中的网站统计信息
  • XLS / CSV文件中的电子邮件数据

等等。

您会发现,如今,数据来自各种来源和形式。建立数据仓库的想法是将所有这些不同形式的数据组合在一个通用的工具中。那个工具就是数据仓库!也有数据湖,但这是另一篇文章的主题。

我们可以说数据仓库是从各种系统和源收集数据并使用在线分析处理(OLAP)来查询该数据以获取更好的业务洞察力的存储库。自然,没有单一的通用数据仓库。必须根据给定公司的要求进行构建和设计。

简洁易懂的数据仓库(date warehouse)设计教程插图

从技术角度看数据仓库设计

数据仓库基于RDBMS(关系数据库管理系统)服务器,该服务器是一个中央信息存储库,周围有使整个环境正常运行所必需的其他组件。显然,数据仓库的结构可能会根据其目的和公司的需求而有所不同。

但是,我们可以指出DW的五个主要组成部分:

  • 数据库(这是整个DW结构的核心要素,是基础)
  • ETL工具(数据仓库中的数据必须先进行预处理,然后才能传输到数据仓库中,这就是ETL工具的用途)
  • 元数据(它指定存储在数据仓库中的数据的来源,用途和功能)
  • 查询工具(它们使您可以与数据仓库系统进行交互并获得必要的洞察力/知识)
  • BUS(数据仓库总线确定数据流,并允许将数据集市集成到一个大型数据仓库中)

这就是理论,但是通常不必完全从头开始构建数据仓库。市场上有许多平台可以轻松使用,以建立自己的定制仓库。最受欢迎的应用程序和软件是Snowflake,Amazon Redshift,BigQuery,IBM Db2,Teradata Vantage,Panoply,IBM PureData Analytics(PDA),Azure SQL数据仓库,Oracle Exadata云服务[1]。

数据仓库可以在本地(本地,在公司结构内)或云中构建。第二种选择通常更便宜,实施更快。

简洁易懂的数据仓库(date warehouse)设计教程插图(2)

数据仓库–两种方法

一般而言,设计数据仓库有两种主要方法:

  • 自上而下的设计
  • 自下而上的设计

这两种方法有什么区别?在第一种方法中,您首先从“顶部”开始-首先设计数据仓库结构。在第二种方法中,您首先从“底部”开始-首先创建数据集市。

现在,有个简短的题外话:数据集市是数据仓库的较小版本,或者是数据仓库的子集。它们专注于单个主题,而数据仓库旨在解决许多问题并由一家公司内的许多主题组成。

第一种方法是首先建立数据仓库,即整个公司的集中存储库。在这种情况下,数据集市是在数据仓库之后建立的,并用作中央结构的支持。在第二种方法中,首先构建数据集市,然后将它们集成到一个更大的数据仓库中。在这种方法中,使用数据仓库总线来实现集成。

自下而上的设计更快,更灵活,但是可能很难维护。另一方面,自上而下的设计更易于维护,并且可以抵抗业务变化,但设置起来较慢且更复杂。在许多情况下,它也更昂贵,尤其是在一开始的时候。

综上所述,没有单一的通用方法。这完全取决于许多因素,每个公司都应决定哪种数据仓库设计策略是最佳的。

简洁易懂的数据仓库(date warehouse)设计教程插图(4)

敏捷数据仓库设计

敏捷包括各种软件开发方法,并且基于自适应计划,渐进式开发,早期交付和持续改进。而且,它鼓励对变化做出快速而灵活的反应[2]。

根据敏捷,数据仓库设计应采用以下方式:

在流程和工具上的个人和互动。

在综合文档中使用数据仓库系统。

在合同谈判中与最终用户和利益相关者合作。

响应详细计划后的转换。

敏捷方法的一个主要目标是:建立有效的数据仓库系统,为组织增加真正的,可衡量的价值,并在构建时考虑到高质量的标准。简而言之,这是提供一个有用的解决方案,而不是为了艺术而艺术。

我们以同样的方式工作。我们始终希望满足实际客户的需求,并帮助他们以更快,更有效和更好的方式开展业务。这是我们的主要目标,这是您与我们合作的期望!

数据仓库设计步骤

通常,像Addepto这样的商业智能公司会代表其客户设计数据仓库。我们的经验和专业知识可以确保您接收到的数据仓库是周到的,并且可以根据贵公司的需求量身定制。

如果您想了解数据仓库设计过程的外观,请在此处为您提供简短说明:

考虑您的需求和要求

正如我们之前告诉您的,没有一个通用的数据仓库。它必须根据您的需要进行构建。因此,公司中的每个部门都应参与此过程。您必须知道数据仓库需要什么。每个部门都需要了解它的目的,它将如何使他们受益,以及他们可以期望什么样的结果。只有这样,才有可能设计出高效且有用的数据仓库。

设置物理环境

数据仓库中存在三个重要的环境-开发,测试和生产。为什么需要这三个要素?所有这些环境都有不同的资源需求,因此尝试将所有功能组合为一个结构可能会降低性能。当然,可以有更多的环境设计用于满足特定的业务需求,例如质量保证环境。

简洁易懂的数据仓库(date warehouse)设计教程插图(6)

数据建模

这是为数据仓库中存储的数据创建数据模型的过程。这一切都是关于设计数据流及其在数据仓库中的分布。数据建模是设计数据仓库中的关键要素。此阶段可帮助您可视化数据,数据流,合规性和安全性流程以及其他重要元素之间的关系。总而言之,这个阶段回答了以下问题:“一切将是什么样?”

设计ETL流程

正如您从我们以前的一篇文章中知道的那样,ETL是一个与数据相关的,分为三个阶段的过程。通常,它与将数据传输到数据仓库有关。首先,您必须从不同的源系统中提取数据。然后,需要对数据进行转换,最后将其加载到给定的数据仓库系统中。如果您想知道此过程是如何发生的,我们建议您阅读有关ETL过程的文章。

设计OLAP CUBES

数据仓库使用在线分析处理(OLAP)来查询存储在其中的数据,以获得更好的业务洞察力。OLAP允许DW用户同时分析来自多个系统的数据。OLAP多维数据集是为数据分析而创建和优化的数据结构。在ETL过程结束时,数据将被加载到OLAP多维数据集中,在此多维数据集中会预先预先计算信息以进行进一步分析。换句话说,多维数据集可帮助您分析存储在数据仓库中的数据。

简洁易懂的数据仓库(date warehouse)设计教程插图(8)

前端

现在,是时候解决前端问题了。简而言之,如果您希望数据仓库成为公司中的宝贵资产,则需要对其进行可视化处理。前端开发完全是关于用户如何访问数据进行分析和运行报告。由于前端可视化,用户可以立即理解并应用数据查询的结果。这就是为什么不要过度采用前端设计如此重要。保持简单明了。如果您在此阶段中挣扎,建议您回到第1点。首先考虑您的需求。而且,在这一点上,您应该确保可以从任何设备访问数据仓库。

优化和推广

最后要做的是优化您的数据仓库。尝试最大化工作流程,以加快查询速度和数据仓库的工作方式。对您的员工进行必要的测试和初步培训。只有这样,他们才能从此新解决方案中充分受益。您的员工必须了解“他们的”数据仓库如何工作以及如何改善他们的日常工作。花费至少2-3周的时间,并帮助您的员工熟悉数据仓库并学习如何使用它。

综上所述,数据仓库可能会非常有用。有了这个基础,您就可以在公司中实施商业智能,并开始更加高效地工作。BI改进了决策过程,并为您提供了对所拥有数据的全新洞察。但是有一个至关重要的条件。您必须了解它的用途。只有这样,您才能充分利用数据仓库的出色工具!

简洁易懂的数据仓库(date warehouse)设计教程插图(10)

免责声明:
1. 本站资源转自互联网,源码资源分享仅供交流学习,下载后切勿用于商业用途,否则开发者追究责任与本站无关!
2. 本站使用「署名 4.0 国际」创作协议,可自由转载、引用,但需署名原版权作者且注明文章出处
3. 未登录无法下载,登录使用金币下载所有资源。
IT小站 » 简洁易懂的数据仓库(date warehouse)设计教程

常见问题FAQ

没有金币/金币不足 怎么办?
本站已开通每日签到送金币,每日签到赠送五枚金币,金币可累积。
所有资源普通会员都能下载吗?
本站所有资源普通会员都可以下载,需要消耗金币下载的白金会员资源,通过每日签到,即可获取免费金币,金币可累积使用。

发表评论