桌面爬网结果特有的

Collaborative Data Solutions at Canada Data Forum
Post Reply
fomayof928@mowline
Posts: 208
Joined: Tue Dec 24, 2024 4:55 am

桌面爬网结果特有的

Post by fomayof928@mowline »

现在这是关键点,而且是一个非常重要的点。 URL、域、链接和根链接域比桌面和移动爬网程序之间共享的更多。橙色条总是比灰色条长。这意味着直到第二级爬网之前,大多数链接关系、页面和域索引都是不同的。这是巨大的。正如我们所知,这是对链接图的根本性改变。

现在是一个大问题,我们最关心的是什么——外部链接。



总体而言,63% 的外部链接是桌面爬虫所独有的。在仅限移动设备的爬行世界中,外部链接总数减半。

微观层面发生了什么?
那么,到底是什么导致了这种巨大的 巴哈马 WhatsApp 数据 抓取差异呢?嗯,我们知道这与使网站“适合移动设备”的一些常见快捷方式有关,包括:

具有较少链接或功能的内容的子域版本。
通过用户代理检测插件删除链接和功能
当然,这些变化可能会改善用户的体验,但它会为机器人带来不同的体验。让我们仔细看看一个网站,看看它是如何工作的。

据 Google 称,该网站有 10,000 个页面,根据新的 Moz Link Explorer,该网站拥有 72 个域权限和 22,670 个引用域。然而,该网站使用了一个流行的 WordPress 插件,该插件将内容缩短为网站上的文章和页面,删除类别页面上文章内描述的链接,并删除侧边栏和页脚中的大部分(如果不是全部)外部链接。这个特殊的插件在超过 200,000 个网站上使用。那么,当我们用“尖叫青蛙”进行六层深度爬行时会发生什么? (这对于此类分析非常有用,因为我们可以轻松更改用户代理并将设置限制为仅抓取 HTML 内容。)
Post Reply