4. 爬行，爬行，爬行

fomayof928@mowline · Post by **fomayof928@mowline** » Sun Feb 16, 2025 10:39 am

这就是我们做出最大改变的地方。我们实际上是从这组伪随机 URL 开始抓取网络，生成一组真实的随机 URL。这里的想法是将我们内置到伪随机 URL 集中的所有随机化，让爬虫随机点击链接来生成真正随机的 URL 集。爬虫会从我们的伪随机爬行集中选择一个随机链接，然后随机开始点击链接，每次有 10% 的机会停止，有 90% 的机会继续。无论爬虫到达何处，最终 URL 都会添加到我们的随机 URL 列表中。这是我们用来运行指标的最后一组 URL。我们每月通过此过程生成约 140,000 个唯一 URL，以生成我们的测试数据集。

唷，现在怎么办？定义矩阵
一旦我们有了一组随机的 URL，我们就可以真正开始比伯利兹 WhatsApp 数据较链接索引并测量它们的质量、数量和速度。幸运的是，在我追求“正确”的过程中，Moz 慷慨地为我提供了对竞争 API 的付费访问权限。我们一开始测试了 Moz、Majestic、Ahrefs 和 SEMRush，但最终在与 Majestic 合作后放弃了 SEMRush。

那么，既然我们有了网络的随机样本，我们可以回答哪些问题呢？这正是我在电子邮件中发送给 Moz 链接项目负责人的愿望清单。

尺寸：
与竞争对手相比，随机选择的 URL 出现在我们的索引中的概率是多少？
与竞争对手相比，随机选择的域出现在我们的索引中的概率是多少？
该索引报告某个 URL 的反向链接数量最多的概率是多少？