搜索引擎每天處理著數(shù)以億計的查詢請求,每個查詢請求都代表了一個用戶對于某種資源的特定需求。多數(shù)時候,通過查詢返回的網(wǎng)頁結(jié)果,這些需求被滿足 了,我們可以認(rèn)為結(jié)果中的某些頁面對特定用戶的特定需求產(chǎn)生了價值。那么對于搜索引擎而言,頁面的價值是指什么,我們?yōu)槭裁匆芯宽撁鎯r值,技術(shù)上怎樣判 斷頁面的價值呢?本文將逐一回答這些問題。
一、什么是頁面價值
前面我們說了,某個頁面滿足了某一用戶的特定需求,就體現(xiàn)了這個頁面對用戶的價值。那么對搜索引擎而言,價值體現(xiàn)在哪些方面呢?一個簡單的推論,所有可能會對用戶產(chǎn)生價值的頁面都是對搜索引擎有價值的,將這些頁面建入搜索引擎的索引中能夠滿足終檢索到它們用戶的需求,我們稱這種價值為檢索價值。只要是能解決某個用戶信息需求的,并且是可以通過某些正常檢索需求到達(dá)的,那么就是有檢索價值的。
小學(xué)生張三喜歡在qzone上寫日記,寫他前天吃了什么,今天玩了什么。這些內(nèi)容,是有價值的。它們對張三的家長、同學(xué)、老師,以及其他小學(xué)生,和對小學(xué)生日記感興趣的人來說,都是有價值的。對于這個信息體來說,“張三”這個名字是檢索的“key”。
有一些信息單元,只有“瀏覽”價值,而沒有到達(dá)該信息的檢索途徑,那么該資源可能是有價值的,但檢索價值就很低。比如一張百度大廈附近的地圖,從瀏 覽角度,是有價值的;但是如果沒有任何周邊文字說明(或者link的anchor text),只有一張光禿禿的地圖,就沒有檢索價值。
當(dāng)然,如果圖片的內(nèi)容識別技術(shù),有朝一日能自動識別出這個是“百度大廈附近地圖”,或者能夠自動分析 出地圖內(nèi)的各種大廈、街道、餐館等的名稱,那么這張圖一樣變得有檢索價值了。所以一個頁面是否有檢索價值,應(yīng)該取決于兩點:
1)是否能解決某個特定的需求(價值)
2)是否可以通過某個常規(guī)的搜索方式獲得該信息(檢索)
那么,沒有檢索價值的頁面,是否對搜索引擎就沒有價值了呢?仔細(xì)想想,答案是否定的。索引只是搜索引擎的一個環(huán)節(jié),對于其他環(huán)節(jié)而言,沒有檢索價值的頁面有可能對我們更好的收錄那些檢索價值高的頁面有幫助。比如對負(fù)責(zé)抓取互聯(lián)網(wǎng)資源的spider而言,有一些頁面,本身沒有檢索價值,但通過這些頁面 的抓取和分析,能夠更快的幫助我們掌握這一類頁面沒有檢索價值這一重要信息,從而節(jié)省更多的流量進(jìn)行更加有效的抓取。
考慮到這種價值可以算作一種“間接的”檢索價值,終還是立足于索引價值的,在本文中就不再展開論述,我們只關(guān)注“檢索價值”這一根本問題。下文中提到的“頁面價值”特指頁面的“檢索價值”。
二、為什么要研究頁面價值
首先,互聯(lián)網(wǎng)上的頁面是無窮盡的,而搜索引擎的硬件資源是有限的,想用有限的資源去覆蓋無窮盡的互聯(lián)網(wǎng),我們就需要對頁面價值做出判斷,不收錄那些無檢索價值的頁面,少收錄那些檢索價值低的頁面。這是頁面價值在收錄控制方面的應(yīng)用。
第二,搜索引擎spider的抓取能力是有限的,出于訪問友好性的考慮,對于一個網(wǎng)站或一個IP抓取速率需要有一個抓取速率的上限。在這一限制下, 抓取或頁面更新就需要有一個先后順序,而這一排序的主要參考依據(jù)就是頁面價值,或者說對頁面價值的預(yù)測(未抓取時)。這是頁面價值在spider調(diào)度方面 的應(yīng)用。
第三,對于某些頁面,頁面內(nèi)容發(fā)生變化,導(dǎo)致它的檢索價值從有到無,典型的就是變?yōu)?ldquo;死鏈”,或者“被黑”。對于這些頁面,好的搜索引擎會在第一時 間將其排除出索引,或在檢索時對其進(jìn)行屏蔽,以保證返回給用戶的結(jié)果是更多檢索價值高的“好頁面”。對于另一些頁面,它不僅具有很高的檢索價值,而且有很 強的“時效性”,能夠第一時間讓用戶檢索到這些頁面對搜索體驗有很大的提升。對搜索引擎而言,越快的收錄和索引頁面意味著越多的額外資源開銷,以多快的速 度收錄和以多短的周期更新索引,需要通過頁面價值的分析來指導(dǎo)。這兩方面是頁面價值在死鏈率和時效性兩大搜索引擎指標(biāo)提升上的應(yīng)用。
后,普遍意義上的頁面價值高低對搜索引擎返回給用戶的結(jié)果排序上也存在著指導(dǎo)意義。理想情況下搜索引擎的結(jié)果是按照與查詢請求的相關(guān)性進(jìn)行排序的,在相關(guān)性大體相當(dāng)?shù)那闆r下,用戶更傾向與瀏覽普遍意義上頁面價值高的網(wǎng)頁。這是頁面價值在ranking方面的應(yīng)用。
可以說,頁面檢索價值的研究是搜索引擎中的一項較為基礎(chǔ)的工作,對頁面價值的認(rèn)識和判斷的準(zhǔn)確程度直接影響著搜索引擎的覆蓋率、死鏈率、時效性等幾大主要指標(biāo)。
三、如何判斷頁面價值
前文中提到過一個小學(xué)生張三qzone日記的例子。我們認(rèn)為這個頁面是有價值的,對張三的同學(xué),朋友,家人都有價值。與此類似的,百度CEO李彥宏 在i貼吧上發(fā)表一條十幾個字的i貼,也是有價值的,對李彥宏的上千萬粉絲都有價值。雖然李彥宏的i貼長度可能遠(yuǎn)小于張三的日記,但就這兩個頁面的價值來 說,我們都會有一個共同的認(rèn)識,即從普遍意義上講,李彥宏的i貼價值遠(yuǎn)大于張三的日記。(當(dāng)然,對于張三的媽媽來說很可能這個價值的關(guān)系是相反的)
再舉個例子,搜索某個人的手機號碼,搜索引擎返回了一個結(jié)果,是這個人在某個論壇上的一個回復(fù)。雖然這個手機號碼關(guān)心的人不多,但因為資源是絕對稀缺的,對于關(guān)心這個手機號碼的查詢需求,這個頁面是完全不可替代的,因此具有極高的價值。
另外,頁面檢索價值,還受到頁面質(zhì)量的影響。相似的頁面,對于滿足用戶需求來說,往往會有很大差異,比如資源下載速度,頁面的布局,廣告的多寡。這類差異,姑且稱之為頁面質(zhì)量。
后,有些頁面具有明顯的公眾話題性質(zhì),且這些資源往往在剛剛產(chǎn)生時有非常高的關(guān)注度,隨著時間的推移熱度顯著下降,有著“新聞”的特征。典型的像各種“門”事件,地震、火災(zāi)等大型的自然災(zāi)害。我們認(rèn)為這類資源具有“時效性”特征。
所以,一個頁面的檢索價值,大致受以下四個要素的影響:
1、感興趣的受眾群大小
2、該頁面的稀缺程度(可替代性)
3、該頁面的質(zhì)量高低
4、該頁面的時效性特征強弱
這四種要素,簡稱受眾,稀缺,質(zhì)量和時效性。
1. 受眾
受眾群體的大小,即代表了用戶檢索需求的大小。評價受眾的大小主要依據(jù)信息發(fā)布源的受眾和信息內(nèi)容本身受眾兩大方面。具體因素包括且不限于:
網(wǎng)站忠實用戶群大小
一般來說,擁有自己忠實用戶群的知名網(wǎng)站,他們的成功,在于他們的內(nèi)容和服務(wù),比別人更能吸引和滿足用戶。從這個角度來說,我們可以推論,擁有更多 忠實用戶群的網(wǎng)站上的內(nèi)容,會比忠實用戶群較少的網(wǎng)站上的內(nèi)容,有更多的既有和潛在受眾群。這樣的話,忠實用戶群大小,就可以變成對站點內(nèi)資源檢索價值的 一種衡量指標(biāo)。忠實用戶群的好處在于,它是變動的。如果一個網(wǎng)站變差了,那么用戶就會用腳投票。超鏈有過期問題,作弊問題,而虛假用戶群作弊很難。一般所 謂的網(wǎng)站知名度,會和忠實用戶群數(shù)量密切相關(guān)。
資源分布規(guī)律
我們再考慮一個網(wǎng)站內(nèi)部的資源分布所體現(xiàn)的受眾群大小問題。比如新浪新聞首頁的那些推介內(nèi)容。新浪編輯為什么要推這些內(nèi)容?因為他們認(rèn)為這些是用戶 感興趣的。那么從索引價值角度而言,相當(dāng)于有一個龐大的編輯團(tuán)隊,已經(jīng)對這些內(nèi)容打上了“符合大眾口味”的標(biāo)簽。搜索引擎只需要樂享其成就行了。這樣的 話,資源相對于某些結(jié)構(gòu)性關(guān)鍵頁面(首頁、頻道頁等)的鏈接深度,也可以成為衡量一個資源受眾群大小的指標(biāo)了。
訪問熱門度
我們再從訪問熱門度角度來考慮受眾群大小問題。這個是直接的,當(dāng)然,它需要第三方的工具來獲取關(guān)鍵數(shù)據(jù)。通過這個途徑,獲取的不應(yīng)僅僅是需要入庫的頁面,還有用戶訪問一個網(wǎng)站的訪問模式。
超鏈
超鏈某種程度上也是受眾群大小的反映。某個資源的質(zhì)量越高,接觸的受眾群越大,那么獲得正常鏈接的數(shù)量往往也越大。
內(nèi)容特征
A:我寫博客:“傳言郭德綱要上春晚了。”
B:我寫博客:“我今天吃早飯了。”
同樣的來源,前者的受眾必然高于后者。即:當(dāng)在發(fā)布源相同的情況下,具有公眾屬性的內(nèi)容分值會更高。
2. 稀缺
稀缺主要是描述頁面在互聯(lián)網(wǎng)中的獨特性。說到稀缺往往會想到重復(fù),稀缺是否等同于無重復(fù),我們應(yīng)該怎樣解讀這一概念呢?可以看一個例子:
某人發(fā)表了一篇針對某新聞事件的原創(chuàng)博客,隨后被新浪轉(zhuǎn)載到了新聞頻道。從描述的內(nèi)容上講,這是一種重復(fù)。但這種重復(fù)僅僅是主體內(nèi)容上的重復(fù),一方面它的轉(zhuǎn)載帶來了訪問速度、穩(wěn)定性等方面的增益,并且之后的檢索用戶還有可能用“新聞事件+新浪”來檢索此新聞。這可以被稱之為站點增益。另一方面,它在轉(zhuǎn)載過程中可能會改變頁面的標(biāo)題,而且依托其受眾,在轉(zhuǎn)載頁面上,還有可能出現(xiàn)更多的有價值評論和回復(fù)等,還有可能存在指向其它相關(guān)事件的新聞鏈接。這些可以被稱之為內(nèi)容增益。因此即使主題內(nèi)容沒有任何變化,新浪的這次轉(zhuǎn)載也是有價值的,其稀缺度也是較高的。
同樣,反過來說,如果轉(zhuǎn)載的網(wǎng)站相當(dāng)不知名,則其無法帶來站點名/穩(wěn)定性/速度的增益。更有甚者,轉(zhuǎn)載之后在頁面上加入大量廣告妨礙閱讀,或者只轉(zhuǎn)載了內(nèi)容中不完整的一部分,這樣的轉(zhuǎn)載,或者說采集,就是純重復(fù)的,與采集源相比,就是沒有檢索價值的了。
綜上所述,對于主體內(nèi)容重復(fù)的頁面,我們應(yīng)該評價其是否存在站點增益和內(nèi)容增益,只有對于大量完全無增益的重復(fù)頁面,我們才應(yīng)該認(rèn)為其稀缺度較低。
3. 質(zhì)量
頁面的質(zhì)量是它對需求的滿足程度的一種體現(xiàn)。判斷頁面質(zhì)量的高低,應(yīng)該是從基礎(chǔ)的需求依次遞進(jìn)的。
首先,不能是死鏈、網(wǎng)站要有一定的穩(wěn)定性、訪問速度要令人滿意。
其次,主體內(nèi)容是否完整、版式和字體是否易讀、各類廣告會不會太多。
后,信息是否豐富、延伸出的次級需求是否滿足。
典型的低質(zhì)量頁面存在以下一些特征:
1、主需求無效/未滿足(過期分類廣告/軟件下載頁面,下載鏈接無效等)
2、死鏈
3、虛假信息/詐騙等
4、點不穩(wěn)定
5、影響主需求的權(quán)限問題(下載/瀏覽需要注冊會員/積分等)
6、信息不完整(轉(zhuǎn)載不全等)
7、瀏覽體驗差(廣告/字體/頁面布局等)
典型的高質(zhì)量頁面存在以下一些特征:
1、訪問速度快(頁面加載快/資源下載速度快)
2、頁面整潔干凈,主體內(nèi)容在顯著位置。
3、頁面信息完整。
4、頁面元素豐富(文字、圖片、評論、相關(guān)推薦等)
4. 時效性
“時效性”是頁面價值的一個屬性,它一般體現(xiàn)在兩個方面:一是頁面所描述的事物本身有著較強的公眾話題性,容易被傳播。這其實是受眾的一個體現(xiàn)。二 是頁面所描述的事物僅在第一時間有較高熱度,隨著時間推移熱度顯著下降。這是一種“新聞”性。對于具有上述兩種屬性的頁面,如果搜索引擎spider發(fā)現(xiàn) 頁面的時間正處于該事物的“爆發(fā)期”或“爆發(fā)期”之前,我們認(rèn)為該頁面具有時效性。
需要說明的是,搜索引擎的廣義“時效性”是指對所有有價值新資源的及時收錄提供檢索,而所有的有價值新資源中,有一大部分其收錄速度的提升對用戶的 搜索體驗改善意義是不大的,比如介紹如何瘦身的知識性文章,張三的日記。頁面價值中的“時效性”指得是一種突發(fā)時效性,也就是所有有價值頁面中需要及時 收錄的那些。對頁面時效性的判斷是為了指導(dǎo)我們將搜索引擎有限的資源投入到關(guān)鍵的地方,產(chǎn)生好的性價比。
判斷頁面的時效性價值,主要通過下面一些途徑:
頁面本身受眾是否有短時間的突增,比如超鏈爆發(fā)。賈君鵬的帖子就是一個典型的例子。
描述相同事物的互聯(lián)網(wǎng)頁面是否有段時間的突增。賈君鵬事件短時間內(nèi)爆發(fā)出大量相關(guān)討論、報道,和這一事件相關(guān)的所有內(nèi)容都具有了時效性屬性。
根據(jù)一個集合內(nèi)的頁面是否具有上述兩種特征,推測該集合的時效性價值。比如魔獸世界吧經(jīng)常爆出一些熱門帖子,公眾話題,我們推測出自魔獸世界吧的帖子其時效性“潛在價值”比較高。
四、頁面價值的研究重點
前文已經(jīng)介紹了頁面價值的含義,研究的意義與價值判斷的方法。后我們再看一下,從技術(shù)角度上,這一方向的研究中的重點方向。對頁面價值的研究工作主要致力于三方面:
1、對頁面價值體系的認(rèn)識。我們目前對頁面價值的認(rèn)識是來源于前文所述的四個維度,這個認(rèn)識是否全面,對于不斷變化的互聯(lián)網(wǎng)環(huán)境與用戶需求,這些維度應(yīng)該如何擴展與變化才能更好的服務(wù)于整體的搜索體驗提升,是一個很重要問題。
2、對于反映頁面價值的頁面特征提取。巧婦難為無米之炊,挖掘更多的頁面特征,更準(zhǔn)確合理的特征提取是頁面價值判定準(zhǔn)確率提升的基礎(chǔ)。
3、對各種頁面特征的組合策略(機器學(xué)習(xí))。針對不用的應(yīng)用方向,需要利用相應(yīng)的特征通過合理且高效的策略擬合出頁面價值的終評價結(jié)果。