過濾不需要的流量(包括幽靈垃圾郵件)的方法
Posted: Thu Dec 26, 2024 4:26 am
在本節中,我們將重點關注來自爬蟲推薦垃圾郵件和幽靈垃圾郵件的不需要的流量,這是迄今為止危害最大的。
我們將在這裡看到的方法可以分為兩大類:
對網站實際存取產生的垃圾郵件(即爬蟲推薦垃圾郵件)有影響的檔案:robots.txt 和 .htaccess 檔案。
那些針對未真正訪問網站的垃圾郵件(即幽靈垃圾郵件)採取行動的郵件:資料視圖中的過濾器和帶有過濾器的分段。
兩組之間的根本區別在於,對於第一組,我們可以對託管伺服器本身採取遏制措施,阻止它們訪問網站。
而對於第二種情況,託管伺服器永遠不會意識到此類訪問,因此這些措施只能在 Google Analytics 本身內部應用。
為了透過實際範例解釋如何使用這些方法,我們假設我們已偵測到我們的網站正在從以下三個來源接收不需要的網路流量,這些流量被識別為垃圾郵件。
robots.txt 檔案是位於網站根資料 加拿大企業電子郵件列表 夾中的文字文件,為存取網站的爬蟲建立了一系列指南和條件。
他們可以從哪些資料夾和檔案中爬行(例如,在搜尋引擎中對它們進行索引),爬蟲有「權限」存取該網站。
該文件的主要問題是什麼?
追蹤器沒有義務遵循您的指示。
一般來說,「好的」爬蟲(例如我們都知道的搜尋引擎)會遵循robots.txt檔案中的命令,但是......我們的敵人不是這些爬蟲,而是那些產生過多不需要的流量的爬蟲。
而且,正如您可能已經猜到的那樣,惡意的爬蟲不會過多關注我們在 robots.txt 中放入的內容。
這就像在我們家門上貼了一個「請勿進入」的牌子:任何不想搶劫我們的人都不會進入,但小偷卻不會停下來看它。
爬蟲不需要 robots.txt 命令,因此我們無法使用它來阻止不需要的流量。
那麼,如果歸根結底,我為什麼要提到這個檔案呢?
因為,即使在今天,您也可以找到相當多的文章將 robots.txt 檔案描述為一種控制方法,以防止爬蟲存取 Web 伺服器上的部分或全部資料夾和檔案。
因此,請忘記此文件作為過濾不需要的流量的方法,而只關注接下來發生的事情。
透過.htaccess 文件
就像robots.txt一樣,.htaccess檔案也是一個儲存在Web伺服器上的文字文件,包含一系列指令和指令。
然而,它們並不是針對追蹤器,而是針對必須遵守它們的網路伺服器本身。
也就是說,追蹤器是否遵循這些指令不再由追蹤器決定,而是網路伺服器必須對其收到的每次存取執行這些指令,無論其來源為何。
根據它自己的定義,.htaccess 僅適用於限制對 Web 伺服器產生真正存取的不需要的流量,即爬蟲推薦垃圾郵件。
無法透過此檔案封鎖幽靈垃圾郵件。
Web伺服器確保.htaccess指令的執行,因此我們可以使用它來防止爬蟲垃圾郵件存取。
在我們繼續之前,有一個非常重要的注意事項:除了允許誰可以或不能訪問我們的網站之外,.htacces 檔案還控制 Web 伺服器的許多其他重要區域。
錯誤的命令,甚至該文件中的拼字錯誤,都可能導致我們的網站或其部分內容停止正常運作。
因此,當我們修改此文件時,我們必須始終保留其最後運行版本的副本,以便在發生錯誤時,我們可以快速恢復它並使伺服器保持任何更改之前的狀態。
有了這些預防措施,現在讓我們看看如何設定 .htaccess 以阻止對 產生的垃圾郵件存取的存取。
首先,我們必須記住,.htaccess 檔案可能包含我們正在使用的內容管理器產生的命令列。
通常,這些命令出現在文字檔案的開頭,並帶有適當的註釋。
我們將在這裡看到的方法可以分為兩大類:
對網站實際存取產生的垃圾郵件(即爬蟲推薦垃圾郵件)有影響的檔案:robots.txt 和 .htaccess 檔案。
那些針對未真正訪問網站的垃圾郵件(即幽靈垃圾郵件)採取行動的郵件:資料視圖中的過濾器和帶有過濾器的分段。
兩組之間的根本區別在於,對於第一組,我們可以對託管伺服器本身採取遏制措施,阻止它們訪問網站。
而對於第二種情況,託管伺服器永遠不會意識到此類訪問,因此這些措施只能在 Google Analytics 本身內部應用。
為了透過實際範例解釋如何使用這些方法,我們假設我們已偵測到我們的網站正在從以下三個來源接收不需要的網路流量,這些流量被識別為垃圾郵件。
robots.txt 檔案是位於網站根資料 加拿大企業電子郵件列表 夾中的文字文件,為存取網站的爬蟲建立了一系列指南和條件。
他們可以從哪些資料夾和檔案中爬行(例如,在搜尋引擎中對它們進行索引),爬蟲有「權限」存取該網站。
該文件的主要問題是什麼?
追蹤器沒有義務遵循您的指示。
一般來說,「好的」爬蟲(例如我們都知道的搜尋引擎)會遵循robots.txt檔案中的命令,但是......我們的敵人不是這些爬蟲,而是那些產生過多不需要的流量的爬蟲。
而且,正如您可能已經猜到的那樣,惡意的爬蟲不會過多關注我們在 robots.txt 中放入的內容。
這就像在我們家門上貼了一個「請勿進入」的牌子:任何不想搶劫我們的人都不會進入,但小偷卻不會停下來看它。
爬蟲不需要 robots.txt 命令,因此我們無法使用它來阻止不需要的流量。
那麼,如果歸根結底,我為什麼要提到這個檔案呢?
因為,即使在今天,您也可以找到相當多的文章將 robots.txt 檔案描述為一種控制方法,以防止爬蟲存取 Web 伺服器上的部分或全部資料夾和檔案。
因此,請忘記此文件作為過濾不需要的流量的方法,而只關注接下來發生的事情。
透過.htaccess 文件
就像robots.txt一樣,.htaccess檔案也是一個儲存在Web伺服器上的文字文件,包含一系列指令和指令。
然而,它們並不是針對追蹤器,而是針對必須遵守它們的網路伺服器本身。
也就是說,追蹤器是否遵循這些指令不再由追蹤器決定,而是網路伺服器必須對其收到的每次存取執行這些指令,無論其來源為何。
根據它自己的定義,.htaccess 僅適用於限制對 Web 伺服器產生真正存取的不需要的流量,即爬蟲推薦垃圾郵件。
無法透過此檔案封鎖幽靈垃圾郵件。
Web伺服器確保.htaccess指令的執行,因此我們可以使用它來防止爬蟲垃圾郵件存取。
在我們繼續之前,有一個非常重要的注意事項:除了允許誰可以或不能訪問我們的網站之外,.htacces 檔案還控制 Web 伺服器的許多其他重要區域。
錯誤的命令,甚至該文件中的拼字錯誤,都可能導致我們的網站或其部分內容停止正常運作。
因此,當我們修改此文件時,我們必須始終保留其最後運行版本的副本,以便在發生錯誤時,我們可以快速恢復它並使伺服器保持任何更改之前的狀態。
有了這些預防措施,現在讓我們看看如何設定 .htaccess 以阻止對 產生的垃圾郵件存取的存取。
首先,我們必須記住,.htaccess 檔案可能包含我們正在使用的內容管理器產生的命令列。
通常,這些命令出現在文字檔案的開頭,並帶有適當的註釋。