開始之前的一些注意事項

在深入了解 Google 搜索的運作方式之前,請務(wù)必注意,Google 不會通過收取費用來提高網(wǎng)站抓取頻率或網(wǎng)站排名。任何與此不符的消息均是子虛烏有。

Google 不保證一定會抓取您的網(wǎng)頁、將其編入索引或在搜索結(jié)果中顯示您的網(wǎng)頁,即使您的網(wǎng)頁遵循 Google 搜索要素也是如此。

Google 搜索的 3 個階段簡介

Google 搜索的工作流程分為 3 個階段,并非每個網(wǎng)頁都會經(jīng)歷這 3 個階段:

抓取:Google 會使用名為“抓取工具”的自動程序從互聯(lián)網(wǎng)上發(fā)現(xiàn)各類網(wǎng)頁,并下載其中的文本、圖片和視頻。

索引編制:Google 會分析網(wǎng)頁上的文本、圖片和視頻文件,并將信息存儲在大型數(shù)據(jù)庫 Google 索引中。

呈現(xiàn)搜索結(jié)果:當用戶在 Google 中搜索時,Google 會返回與用戶查詢相關(guān)的信息。

抓取

第一階段是找出網(wǎng)絡(luò)上存在哪些網(wǎng)頁。不存在包含所有網(wǎng)頁的中央注冊表,因此 Google 必須不斷搜索新網(wǎng)頁和更新過的網(wǎng)頁,并將其添加到已知網(wǎng)頁列表中。此過程稱為“網(wǎng)址發(fā)現(xiàn)”。由于 Google 之前已經(jīng)訪問過某些網(wǎng)頁,因此這些網(wǎng)頁是 Google 已知的網(wǎng)頁。當跟蹤已知網(wǎng)頁上指向新網(wǎng)頁的鏈接時,Google 會發(fā)現(xiàn)其他網(wǎng)頁,例如類別網(wǎng)頁等中心頁會鏈接到新的博文。當您以列表形式(站點地圖)提交一系列網(wǎng)頁供 Google 抓取時,Google 也會發(fā)現(xiàn)其他網(wǎng)頁。

Google 發(fā)現(xiàn)網(wǎng)頁的網(wǎng)址后,可能會訪問(或“抓取”)該網(wǎng)頁以了解其中的內(nèi)容。我們使用大量計算機抓取網(wǎng)絡(luò)上的數(shù)十億個網(wǎng)頁。執(zhí)行抓取任務(wù)的程序叫做 Googlebot(也稱為抓取工具、漫游器或“蜘蛛”程序)。Googlebot 使用算法流程確定要抓取的網(wǎng)站、抓取頻率以及要從每個網(wǎng)站抓取的網(wǎng)頁數(shù)量。Google 的抓取工具也經(jīng)過編程,確保不會過快地抓取網(wǎng)站,避免網(wǎng)站收到過多請求。此機制基于網(wǎng)站的響應(yīng)(例如,HTTP 500 錯誤意味著“降低抓取速度”)。

但是,Googlebot 不會抓取它發(fā)現(xiàn)的所有網(wǎng)頁。某些網(wǎng)頁可能被網(wǎng)站所有者設(shè)置為禁止抓取,而其他網(wǎng)頁可能必須登錄網(wǎng)站才能訪問。

在抓取過程中,Google 會使用最新版 Chrome渲染網(wǎng)頁并運行它找到的所有 JavaScript,此過程與瀏覽器渲染您訪問的網(wǎng)頁的方式類似。渲染很重要,因為網(wǎng)站經(jīng)常依靠 JavaScript 將內(nèi)容引入網(wǎng)頁,缺少了渲染過程,Google 可能就看不到相應(yīng)內(nèi)容。

能否抓取取決于 Google 的抓取工具能否訪問網(wǎng)站。Googlebot 訪問網(wǎng)站時的一些常見問題包括:

服務(wù)器在處理網(wǎng)站時出現(xiàn)問題

網(wǎng)絡(luò)問題

robots.txt 規(guī)則阻止 Googlebot 訪問網(wǎng)頁

索引編制

抓取網(wǎng)頁后,Google 會嘗試了解該網(wǎng)頁的內(nèi)容。這一階段稱為“索引編制”,包括處理和分析文字內(nèi)容以及關(guān)鍵內(nèi)容標記和屬性,例如 <title>元素和 Alt 屬性、圖片、視頻等。

在索引編制過程中,Google 會確定網(wǎng)頁是否與互聯(lián)網(wǎng)上的其他網(wǎng)頁重復或是否為規(guī)范網(wǎng)頁。 規(guī)范網(wǎng)頁是可能會顯示在搜索結(jié)果中的網(wǎng)頁。為了選擇規(guī)范網(wǎng)頁,我們首先會將在互聯(lián)網(wǎng)上找到的內(nèi)容類似的網(wǎng)頁歸為一組(也稱為聚類),然后從中選擇最具代表性的網(wǎng)頁。該組網(wǎng)頁中的其他網(wǎng)頁可作為備用版本在不同情況下提供,例如用戶在移動設(shè)備上進行搜索時,或他們正在查找該組網(wǎng)頁中的某個具體網(wǎng)頁時。

Google 還會收集關(guān)于規(guī)范網(wǎng)頁及其內(nèi)容的信號,這些信號可能會在下一階段(即在搜索結(jié)果中呈現(xiàn)網(wǎng)頁)時用到。一些信號包括網(wǎng)頁語言、內(nèi)容所針對的國家/地區(qū)、網(wǎng)頁易用性。

所收集的關(guān)于規(guī)范網(wǎng)頁及其網(wǎng)頁群組的相關(guān)信息可能會存儲在 Google 索引(托管在數(shù)千臺計算機上的大型數(shù)據(jù)庫)中。我們無法保證網(wǎng)頁一定會編入索引;并非 Google 處理的每個網(wǎng)頁都會編入索引。

是否會編入索引還取決于網(wǎng)頁內(nèi)容及其元數(shù)據(jù)。一些常見的索引編制問題可能包括:

網(wǎng)頁內(nèi)容質(zhì)量低

Robotsmeta規(guī)則禁止編入索引

網(wǎng)站的設(shè)計可能使索引編制難以進行

呈現(xiàn)搜索結(jié)果

用戶輸入查詢時,我們的機器會在索引中搜索匹配的網(wǎng)頁,并返回我們認為與用戶的搜索內(nèi)容最相關(guān)的優(yōu)質(zhì)結(jié)果。相關(guān)性是由數(shù)百個因素決定的,其中可能包括用戶的位置、語言和設(shè)備(桌面設(shè)備或手機)等信息。例如,在用戶搜索“自行車維修店”后,Google 向巴黎用戶顯示的結(jié)果與向香港用戶顯示的結(jié)果有所不同。

根據(jù)用戶的查詢,搜索結(jié)果頁上顯示的搜索功能也會發(fā)生變化。例如,如果您搜索“自行車維修店”,系統(tǒng)可能會顯示本地搜索結(jié)果,而不會顯示圖片搜索結(jié)果;不過,搜索“現(xiàn)代自行車”更有可能顯示圖片搜索結(jié)果,但不會顯示本地搜索結(jié)果。您可以在我們的視覺元素庫中探索 Google 網(wǎng)頁搜索中最常見的界面元素。

Search Console 可能提示您某個網(wǎng)頁已編入索引,但您在搜索結(jié)果中看不到該網(wǎng)頁。 這可能是因為:

網(wǎng)頁內(nèi)容與用戶查詢無關(guān)

內(nèi)容質(zhì)量低

Robotsmeta規(guī)則阻止提供內(nèi)容

雖然本指南介紹了 Google 搜索的運作方式,但我們一直在努力改進算法。 您可以關(guān)注 Google 搜索中心博客,及時了解這些更改。