第2部分:关注数据集成项目的质量风险

作者 : IT 大叔 本文共2066个字,预计阅读时间需要6分钟 发布时间: 2020-08-30

介绍

第一部分中这三部分组成的系列中,我们介绍为什么早期风险评估,往往是关键,解决风险的最佳做法,并为共同降低风险的最佳做法。本系列文章的第二部分将介绍集成项目的质量风险示例以及解决方案。

识别数据集成风险

解决问题的第一步是识别问题。在数据集成项目上执行此操作需要注册每个可能中断项目事件正常流程的问题。此步骤的主要结果是列出风险。 

质量检查主管通常负责基于风险的测试实践。但是,仅此人将无法设计整个列表。质量检查团队的整个投入对风险识别过程产生了重大影响。

在大多数数据集成项目中,提取,转换,加载(ETL)和测试过程仍然是最被低估,预算不足的阶段。一个项目的ETL部分经常提出比解决方案更多的问题的主要原因是缺乏对源数据质量的了解。 

在数据集成期间,许多数据被转换,集成,结构化,清除并分组为一个结构。这些各种类型的数据移动和更改可能会导致数据损坏的风险;因此,数据测试是一项非常关键的工作。

数据集成风险和相关最佳实践的示例

以下是典型的数据集成项目所面临的风险和挑战以及建议的最佳实践。这种风险汇总并不详尽。请注意,此表中的风险仅代表通常被称为“高”影响的风险。

潜在的项目风险

最佳做法建议

不确定的源数据质量

数据集成工作可能不符合计划的时间表,因为源数据的质量未知或不足

  • 尽早(即在需求收集期间)对源数据进行正式的数据分析,以了解数据质量是否满足项目需求。可以在提取/转换过程之前甚至在此过程中识别并解决源数据中的不准确性,遗漏,整洁,重复和不一致性。
  • 由于重复数据经常存在于多个源系统中,因此请识别所有源并与用户讨论最适用的
  • 实施商业/自动化数据质量工具,并进行咨询和培训
数据字典和数据模型已被删除

开发人员和质量检查人员无法轻松解释源和目标中的数据

确保准确和最新的数据模型文档和映射文档。

  • 使用自动化文档工具
  • 在数据字典中创建有意义的数据定义和数据描述文档
  • 创建过程以根据源系统的更改维护文档
  • 由数据管理员/所有者为质量检查团队提供培训
源和目标数据映射问题

由于缺少数据字典和数据模型,可能无法正确映射源数据

  • 数据字典和数据目录应得到维护,以支持与项目相关的所有数据。结果将是更高质量的数据映射文件。
  • 实施数据映射变更控制系统,以记录每个变更。
数据源中的严重缺陷

在开发的后期发现数据缺陷

  • 确保数据要求完整且数据字典可用且最新
  • 在每个ETL之后分析所有数据源和目标数据
  • 准备清理和修复脏数据
  • 确保继续维护数据映射和所有其他规范文档
没有制定主要的测试计划或测试策略

主测试计划/策略不存在或范围不足

一个测试策略/主测试计划文件的所有项目测试的总体结构和目标-从单元测试组件,系统和性能测试。MTP涵盖了数据集成生命周期中的活动,并确定了测试人员的评估标准。
目标数据过多缺陷

ETL之后,许多已加载的目标数据均错误

  • 确保目标数据采样过程是高质量的
  • 使用可提供广泛数据覆盖范围的测试工具 
  • 选择足够广泛的数据采样方法,以免在源数据和目标数据中遗漏缺陷
  • 选择一种适当的技术来比较源数据和目标数据,以确定源数据和目标数据是否相等或目标数据是否已转换
  • 验证在ETL过程中没有数据或元数据丢失。数据仓库必须根据业务规则将所有相关数据从源应用程序加载到目标中。
  • 检查唯一标识数据行的代理键的正确性
  • 在ETL之后检查数据加载状态和错误消息
  • 验证数据类型和格式是否符合数据库设计期间的指定
  • 验证每个ETL会话是否仅在计划的例外情况下完成。
项目范围的测试不协调

目标数据流测试的来源不足或不存在

数据质量审核应包括对源系统(例如CSV)中信息的准确性进行验证,以便在将其添加到目标集成中时可以信任该信息。
员工测试技能不足

没有具备所需的数据集成测试知识的合格资源。

  • 投资数据集成测试课程,培训资源,招聘具有数据测试经验的人员,聘请服务顾问。
  • 投资于专门的数据角色:数据分析师,数据质量分析师,数据测试工具集技能和数据工程师。
目标数据转换代码的来源很复杂

没有必需的测试工具或测试人员技能的复杂转换可能不容易测试。

  • 尽早验证表联接的复杂性,查询以及生成的业务报告 
  • 明确业务需求;在对数据提取和加载进行编程之前,开发和测试伪查询
  • 验证源数据字段的数量和可访问性
计划内的测试主要是手动的

ETL,数据概要分析,单元和回归测试已采用了最小的测试自动化

  • 购买自动化的单元和回归测试工具,以获得更快和可重复使用的测试套件。
  • 考虑使用自动化测试工具来进行元数据验证,数据格式检查,行数,唯一性检查,数据清理,负载测试,性能测试,冒烟测试
数据量可扩展性导致性能问题 

由于需求变化,数据量不断增长

  • 利用技能和工具集进行数据量估算
  • 用峰值预期产量加载数据库,以帮助确保ETL流程可以在约定的时间范围内加载数据量

结论

现代系统使从各种来源访问数据变得更加容易。有了这种功能,就面临着来自多种数据流的各种格式的不同数据(可能具有重复和不良数据质量)集成到单个数据存储库中的挑战。 

为了应对上述挑战,必须了解数据集成风险,以便可以减轻那些风险,以识别和解决损坏,不准确,不相关或重复的数据。在数据集成过程中,使用最佳质量保证和测试过程可以更好地实现这一目标。

免责声明:
1. 本站资源转自互联网,源码资源分享仅供交流学习,下载后切勿用于商业用途,否则开发者追究责任与本站无关!
2. 本站使用「署名 4.0 国际」创作协议,可自由转载、引用,但需署名原版权作者且注明文章出处
3. 未登录无法下载,登录使用金币下载所有资源。
IT小站 » 第2部分:关注数据集成项目的质量风险

常见问题FAQ

没有金币/金币不足 怎么办?
本站已开通每日签到送金币,每日签到赠送五枚金币,金币可累积。
所有资源普通会员都能下载吗?
本站所有资源普通会员都可以下载,需要消耗金币下载的白金会员资源,通过每日签到,即可获取免费金币,金币可累积使用。

发表评论