2020国产成人精品视频,性做久久久久久久久,亚洲国产成人久久综合一区,亚洲影院天堂中文av色

分享

百度對網(wǎng)頁搜索的檢索質(zhì)量評價

 焦大seo 2014-02-22
這個問題真心能寫一本書,在百度有上百人從事和評估相關(guān)的工作

latent Z 說的七個維度,只是評估網(wǎng)頁搜索效果的指標(biāo)之一:Q-U相關(guān)性的評價標(biāo)準中的一部分(直接從文檔里抄下來的小標(biāo)題?。I(yè)一點好不好……)

所謂檢索滿意度是個很虛的東西,但是可以從用戶行為中看到端倪。通過分析用戶點擊順序、停留時間,點擊數(shù)量等,能夠大概分析出一個用戶是否滿意,花了多長時間滿意,被哪一個結(jié)果所滿足?;蛘咄ㄟ^AB Test,Interleaving等方法,可以對比A、B搜索結(jié)果的好壞,得到一個相對值。舉個簡化了的栗子:
某用戶搜了【知乎】,然后直接點擊了首位的知乎網(wǎng)站,之后沒有點別的。基本可以判斷為滿足了,而且滿足程度非常高;
某用戶搜了【蒼老師最新作品下載】,點了一個結(jié)果,過一會又來點另一個,過一會又來點……翻頁點了十幾個最后走了,他的滿足程度可能就很低(都是無效資源啊,下載不了,只能一個一個換)
這類方法的前提是你能夠得到大量的用戶行為統(tǒng)計,基于這些實際數(shù)據(jù)進行分析。但現(xiàn)實中并不是總有用戶數(shù)據(jù),比如新策略還沒上線,或者你是競爭對手的人等等。
實際上還有五花八門的人工評估從各個角度判斷搜索結(jié)果質(zhì)量。人工評估就是將現(xiàn)實中用戶的偏好抽象為幾個考察點,比如上面說的七個維度,然后模擬這個過程。我說一點眾所周知的思路吧:

對搜索結(jié)果中的前N條URL分別進行Query-URL相關(guān)性評估,并根據(jù)排名賦予權(quán)重,計算出一個值,名曰DCG,通過這個絕對數(shù)值反映單次搜索前N結(jié)果的質(zhì)量
將同一query下的百度搜索結(jié)果和競品結(jié)果進行橫向?qū)Ρ龋袛嗪脡募俺潭?,得出誰家搜索質(zhì)量更好的結(jié)論,名曰Side-by-side。 在評估中如果隱去兩側(cè)所有品牌標(biāo)識,并左右環(huán)境順序隨機互換,即為盲測,盲測的結(jié)論一般都會非常客觀反應(yīng)搜索引擎質(zhì)量差距。

以上是僅關(guān)注搜索結(jié)果及其排序的評估方法舉例。除此之外,摘要、飄紅、sug等感知項目,也都會影響到結(jié)論,每種都有自己的評估方法。

最后如何評估,選取關(guān)注哪些指標(biāo),關(guān)鍵在于你評估的目的是什么了?!皺z索滿意度” 也是個很大的話題啊!


--------------------Update 2013-7-25--------------------
鑒于有人還是覺得這事太抽象,我就舉個具體的栗子

第一步:明確評估的背景、目的、你所掌握的資源
在這里我們假設(shè)一個第三方研究者,想比較百度和谷歌搜索到底哪個好。這個問題在知乎經(jīng)常有人討論,但大家大多只是說自己的使用感受,而沒有人能拿出信服的調(diào)研數(shù)據(jù),現(xiàn)在我們就是要解決這個問題。由于作為第三方研究者很難獲取到兩個搜索引擎完整的用戶行為,即使有了不可控變量也太多,無法得到嚴謹?shù)慕Y(jié)論。但是抓取雙方的搜索結(jié)果是很容易的

第二步:確定評估方法
評估的基本方法是顯而易見的:選定N個query,把每一個query在兩邊同時搜一下就可以對二者進行橫向比較了,最后算一個平均指標(biāo)。
重點在于指標(biāo)如何選取,在這里我們可以用上面提到的兩種角度,即:
1 對前N結(jié)果(一般都是3,有時還有5或10)逐個判斷相關(guān)性,然后根據(jù)位置賦予權(quán)重,分別計算兩側(cè)搜索結(jié)果質(zhì)量值(DCG)
2 對兩側(cè)結(jié)果進行綜合比較,給出一個相對值(左邊好?右邊好?好的程度?)

第三步:制定評估標(biāo)準
這一步很重要,既然要評估,那就一定要先確定下來什么叫“好”,什么叫“差”,標(biāo)準必須盡量反映用戶的真實感受而且始終保持一致。在這個方面,百度也好谷歌也好,都有厚厚的一坨規(guī)定,且基本思想大致相同。如果可以搞到一份,那么這個步驟就省力了。

第四步:數(shù)據(jù)準備
1 抽query:在本次評估的背景下,從數(shù)量上來說,使用1000個query作為樣本是性價比比較高的選擇。太少的話波動大,太多會標(biāo)到吐血(熟練標(biāo)注員每人每天可以標(biāo)100Q左右)。Query必須隨機抽取于近期用戶自然產(chǎn)生的query,而不是自己憑空編出來的1000個詞,這樣能夠確保Query類型(長短冷熱中外...)的分布接近實際比例,進而才有可靠的結(jié)論
2 抓網(wǎng)頁:query確定下來,就要開始抓百度和谷歌的搜索結(jié)果了。為了保證結(jié)果公平可靠,應(yīng)該進行盲測,即隱去兩邊品牌特征,再狠一點的,應(yīng)該在評估過程中隨機調(diào)換左右順序。這里比較麻煩的是阿拉丁啊,知識圖譜啊這類特型展現(xiàn),熟悉搜索引擎的人一眼就看出是誰家的,這個暫時就沒辦法了,評估時盡量保持客觀中立吧。

第五步:評估
最主要的部分來了,這里要對抓取的結(jié)果進行人工評估。你可以自己一個人連評10天;或者找?guī)讉€人一起做,但是要先對他們進行統(tǒng)一培訓(xùn),以免標(biāo)準不一;也可以找一群人,每個人都做一遍,然后取他們平均數(shù)也好多數(shù)投票也好,當(dāng)然也得培訓(xùn)了,還得防著濫竽充數(shù)的。成本和靠譜程度依次遞增。

第六步:統(tǒng)計
這一步?jīng)]啥好說的,按照之前想好的方式統(tǒng)計一下結(jié)果,做個總結(jié)就OK了。百度和谷歌誰更好,哪里好,好多少,一清二楚。

然后下一次再和別人討論百度好還是谷歌好的時候,你“嗖”的一下掏出這份報告,小伙伴們都會驚呆的。那些只知道往外扔一兩個badcase來說明問題的人真是弱爆了……百度對網(wǎng)頁搜索的檢索質(zhì)量評價

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多