如果解析干扰了

Collaborative Data Solutions at Canada Data Forum
Post Reply
subornaakter40
Posts: 851
Joined: Sat Dec 28, 2024 3:13 am

如果解析干扰了

Post by subornaakter40 »

您的工作,该如何克服?措施可以是技术性的、法律性的、心理性的。

技术措施
专业论坛的参与者不断讨论打击数据解析的技术方法。事实上,存在解决问题的方案,这是令人欣喜的。但也有缺点:将来,这些方法可能会弊大于利。

最简单、最有效的方法是确定您正在被抓取数据的 IP 地址并阻止访问。为此,您需要一个日志表,在其中输入用户数据和页面访问时间。

有不同的方法来识别解析器,其中之一 加拿大電話whatsapp 就是跟踪请求的频率。请求过于频繁(与平均 80% 的偏差小于 10 秒)表明您正在被抓取。另一种检测方法是检查正在下载的内容。例如,如果它是图像或 CSS 样式,您很可能正在处理解析器。

下载有关该主题的有用文档:

清单:如何在与客户谈判中实现你的目标
确定访问该网站的机器人是否有用。这非常困难,因为许多机器人看起来完全像正常的搜索机器人或浏览器,并相应地进行伪装。它只能通过一组特征来确定,这需要特定的、定制的软件。

如果不考虑各种因素,则可能会阻止搜索或其他安全机器人 - 并非所有因素都由用户代理正确表示。此外,有害者为了不暴露自己,会减少请求的频率。

由于 IP 可以动态分配,因此阻止 IP 地址只有在最明显的情况下才有意义。但增加频率限制和设定发生次数将是一个有用的措施。让我们记住,所有这些只适用于一种方法。

还有另一种选择——使用不同的服务来防御 DDOS 攻击。这些程序决定了您的网站有多繁忙。如果每秒的连接数非常高,解析就会被视为 DDOS 攻击。监视器上出现延迟和警告信息。解析程序在多个线程中创建负载,下载页面之间不会暂停。有时它会有所帮助,但只能针对最简单的机器人。
Post Reply