这就是我们做出最大改变的地方。我们实际上是从这组伪随机 URL 开始抓取网络,生成一组真实的随机 URL。这里的想法是将我们内置到伪随机 URL 集中的所有随机化,让爬虫随机点击链接来生成真正随机的 URL 集。爬虫会从我们的伪随机爬行集中选择一个随机链接,然后随机开始点击链接,每次有 10% 的机会停止,有 90% 的机会继续。无论爬虫到达何处,最终 URL 都会添加到我们的随机 URL 列表中。这是我们用来运行指标的最后一组 URL。我们每月通过此过程生成约 140,000 个唯一 URL,以生成我们的测试数据集。
唷,现在怎么办?定义矩阵
一旦我们有了一组随机的 URL,我们就可以真正开始比 伯利兹 WhatsApp 数据 较链接索引并测量它们的质量、数量和速度。幸运的是,在我追求“正确”的过程中,Moz 慷慨地为我提供了对竞争 API 的付费访问权限。我们一开始测试了 Moz、Majestic、Ahrefs 和 SEMRush,但最终在与 Majestic 合作后放弃了 SEMRush。
那么,既然我们有了网络的随机样本,我们可以回答哪些问题呢?这正是我在电子邮件中发送给 Moz 链接项目负责人的愿望清单。
尺寸:
与竞争对手相比,随机选择的 URL 出现在我们的索引中的概率是多少?
与竞争对手相比,随机选择的域出现在我们的索引中的概率是多少?
该索引报告某个 URL 的反向链接数量最多的概率是多少?