遵守 大多数处理公共网络数据

Collaborative Data Solutions at Canada Data Forum
Post Reply
rumana777
Posts: 161
Joined: Thu Dec 26, 2024 4:00 am

遵守 大多数处理公共网络数据

Post by rumana777 »

的公司都知道隐私相关法规。同样,可能需要遵守数据质量规定,特别是如果以后要将其用于关键基础设施(例如制药或军事)。实施自动数据质量检查后,您可以提供有关信息质量的具体证据,而客户只需检查数据质量规则,而不必检查数据本身。

如何测试数据质量?
作为公共网络数据提供商,拥有完善的自动化数据质量检查机制至关重要。那么我们该怎么做呢?首先,我们根据数据类型区分测试。测试命名可能看起来有些混乱,因为它最初是为内部使用而设计的,但它有助于我们了解我们正在测试的内容。

我们有两种类型的数据:

静态数据。静态意味着我们不会实时抓取数据,而是 马其顿 电话列表 使用静态装置。
动态数据。动态意味着我们实时从网络上抓取数据。
然后,我们根据数据质量检查的类型进一步区分我们的测试:

固定装置测试。这些测试使用固定装置来检查数据质量。
覆盖率测试。这些测试使用一系列规则来检查数据质量。
让我们更详细地看一下每个测试。

静态夹具测试
如前所述,这些测试属于静态数据类别,这意味着我们不会实时抓取数据。相反,我们使用之前保存的静态装置。

静态装置是我们之前保存的输入数据。在大多数情况下,它是我们想要抓取的网页的 HTML 文件。对于每个静态装置,我们都有一个相应的预期输出。这个预期输出是我们期望从解析器获取的数据。

静态夹具测试步骤
测试的工作原理如下:

解析器接收静态装置作为输入。
解析器处理装置并返回输出。
测试检查输出是否与预期输出相同。这不是一个简单的 JSON 比较,因为某些字段预计会发生变化(例如上次更新日期),但它仍然是一个简单的过程。
我们在合并请求的 CI/CD 管道中运行此测试,以检查我们对解析器所做的更改是否有效以及解析器是否按预期工作。如果测试失败,我们就知道我们弄坏了某些东西,需要修复它。
Post Reply