构建强大的数据可观测性框架,确保数据质量和完整性

Collaborative Data Solutions at Canada Data Forum
Post Reply
rumana777
Posts: 165
Joined: Thu Dec 26, 2024 4:00 am

构建强大的数据可观测性框架,确保数据质量和完整性

Post by rumana777 »

传统监控已不再满足复杂数据组织的需求。数据工程师不能依赖反应系统来识别已知问题,而是必须创建交互式可观察性框架来帮助他们快速发现任何类型的异常。

虽然可观察性可以包含许多不同的实践,但在本文中,我将根据我们在组织中使用开源工具构建可观察性框架的经验,分享高级概述和实用技巧。

那么,如何构建具有良好数据健康可视性并保证数据质量的基础设施?

什么是数据可观测性?
总体而言,可观测性定义了您能从外部输出中了解多少内部 准确的手机号码列表 系统的信息。该术语最初由匈牙利裔美国工程师Rudolf E. Kálmán于 1960 年定义,当时他讨论了数学控制系统中的可观测性。

多年来,这一概念已被应用于各个领域,包括数据工程。在这里,它解决了数据质量问题,并能够追踪数据的收集地点和转换方式。

数据可观测性意味着确保所有管道和系统中的数据都是完整且高质量的。这是通过监控和管理实时数据来解决质量问题来实现的。可观测性确保了清晰度,从而可以在问题蔓延之前采取行动。

什么是数据可观测性框架?
数据可观测性框架是监控和验证机构内数据完整性和质量的过程。它有助于主动确保数据质量和完整性。

该框架必须基于IBM定义的五个强制性方面:

新鲜度。如果有过时的数据,必须找到并删除。
分布。必须记录预期数据值以帮助识别异常值和不可靠数据。
数量。必须跟踪预期值的数量以确保数据完整。
模式。必须监视数据表和组织的变化,以帮助查找损坏的数据。
血统。收集元数据和映射源对于帮助排除故障来说是必不可少的。
这五项原则确保数据可观测性框架有助于维护和提高数据质量。您可以通过实施以下数据可观测性方法来实现这些目标。

如何将可观察性实践添加到数据管道中
只有从信誉良好的来源收集的高质量数据才能提供准确的见解。俗话说:垃圾进,垃圾出。你不能指望从组织不良的数据集中提取任何实际知识。

作为公共数据提供商 Coresignal 的高级数据分析师,我不断寻求提高数据质量的新方法。虽然在动态技术环境中实现这一目标相当复杂,但有很多途径可以实现这一目标。良好的数据可观察性在这里起着重要作用。

那么,我们如何确保数据质量?归根结底,我们需要在数据管道的每个阶段(从提取和转换到存储和分析)添加更好的可观察性方法。其中一些方法将在整个管道中起作用,而其他方法仅与管道的一个阶段相关。让我们来看看:
Post Reply