開始之前的一些注意事項
在深入了解 Google 搜索的運作方式之前,請務必注意,Google 不會通過收取費用來提高網站抓取頻率或網站排名。任何與此不符的消息均是子虛烏有。
Google 不保證一定會抓取您的網頁、將其編入索引或在搜索結果中顯示您的網頁,即使您的網頁遵循 Google 搜索要素也是如此。
Google 搜索的 3 個階段簡介
Google 搜索的工作流程分為 3 個階段,并非每個網頁都會經歷這 3 個階段:
抓取:Google 會使用名為“抓取工具”的自動程序從互聯網上發現各類網頁,并下載其中的文本、圖片和視頻。
索引編制:Google 會分析網頁上的文本、圖片和視頻文件,并將信息存儲在大型數據庫 Google 索引中。
呈現搜索結果:當用戶在 Google 中搜索時,Google 會返回與用戶查詢相關的信息。
抓取
第一階段是找出網絡上存在哪些網頁。不存在包含所有網頁的中央注冊表,因此 Google 必須不斷搜索新網頁和更新過的網頁,并將其添加到已知網頁列表中。此過程稱為“網址發現”。由于 Google 之前已經訪問過某些網頁,因此這些網頁是 Google 已知的網頁。當跟蹤已知網頁上指向新網頁的鏈接時,Google 會發現其他網頁,例如類別網頁等中心頁會鏈接到新的博文。當您以列表形式(站點地圖)提交一系列網頁供 Google 抓取時,Google 也會發現其他網頁。
Google 發現網頁的網址后,可能會訪問(或“抓取”)該網頁以了解其中的內容。我們使用大量計算機抓取網絡上的數十億個網頁。執行抓取任務的程序叫做 Googlebot(也稱為抓取工具、漫游器或“蜘蛛”程序)。Googlebot 使用算法流程確定要抓取的網站、抓取頻率以及要從每個網站抓取的網頁數量。Google 的抓取工具也經過編程,確保不會過快地抓取網站,避免網站收到過多請求。此機制基于網站的響應(例如,HTTP 500 錯誤意味著“降低抓取速度”)。
但是,Googlebot 不會抓取它發現的所有網頁。某些網頁可能被網站所有者設置為禁止抓取,而其他網頁可能必須登錄網站才能訪問。
在抓取過程中,Google 會使用最新版 Chrome渲染網頁并運行它找到的所有 JavaScript,此過程與瀏覽器渲染您訪問的網頁的方式類似。渲染很重要,因為網站經常依靠 JavaScript 將內容引入網頁,缺少了渲染過程,Google 可能就看不到相應內容。
能否抓取取決于 Google 的抓取工具能否訪問網站。Googlebot 訪問網站時的一些常見問題包括:
服務器在處理網站時出現問題
網絡問題
robots.txt 規則阻止 Googlebot 訪問網頁
索引編制
抓取網頁后,Google 會嘗試了解該網頁的內容。這一階段稱為“索引編制”,包括處理和分析文字內容以及關鍵內容標記和屬性,例如 <title>
元素和 Alt 屬性、圖片、視頻等。
在索引編制過程中,Google 會確定網頁是否與互聯網上的其他網頁重復或是否為規范網頁。 規范網頁是可能會顯示在搜索結果中的網頁。為了選擇規范網頁,我們首先會將在互聯網上找到的內容類似的網頁歸為一組(也稱為聚類),然后從中選擇最具代表性的網頁。該組網頁中的其他網頁可作為備用版本在不同情況下提供,例如用戶在移動設備上進行搜索時,或他們正在查找該組網頁中的某個具體網頁時。
Google 還會收集關于規范網頁及其內容的信號,這些信號可能會在下一階段(即在搜索結果中呈現網頁)時用到。一些信號包括網頁語言、內容所針對的國家/地區、網頁易用性。
所收集的關于規范網頁及其網頁群組的相關信息可能會存儲在 Google 索引(托管在數千臺計算機上的大型數據庫)中。我們無法保證網頁一定會編入索引;并非 Google 處理的每個網頁都會編入索引。
是否會編入索引還取決于網頁內容及其元數據。一些常見的索引編制問題可能包括:
網頁內容質量低
Robotsmeta
規則禁止編入索引
網站的設計可能使索引編制難以進行
呈現搜索結果
用戶輸入查詢時,我們的機器會在索引中搜索匹配的網頁,并返回我們認為與用戶的搜索內容最相關的優質結果。相關性是由數百個因素決定的,其中可能包括用戶的位置、語言和設備(桌面設備或手機)等信息。例如,在用戶搜索“自行車維修店”后,Google 向巴黎用戶顯示的結果與向香港用戶顯示的結果有所不同。
根據用戶的查詢,搜索結果頁上顯示的搜索功能也會發生變化。例如,如果您搜索“自行車維修店”,系統可能會顯示本地搜索結果,而不會顯示圖片搜索結果;不過,搜索“現代自行車”更有可能顯示圖片搜索結果,但不會顯示本地搜索結果。您可以在我們的視覺元素庫中探索 Google 網頁搜索中最常見的界面元素。
Search Console 可能提示您某個網頁已編入索引,但您在搜索結果中看不到該網頁。 這可能是因為:
網頁內容與用戶查詢無關
內容質量低
Robotsmeta
規則阻止提供內容
雖然本指南介紹了 Google 搜索的運作方式,但我們一直在努力改進算法。 您可以關注 Google 搜索中心博客,及時了解這些更改。