客服電話:400-0755-992
客服郵箱:vip@wapadd.cn
服務(wù)時(shí)間:周一至周五 9:00-18:00
本人是搜索引擎優(yōu)化技術(shù)的愛(ài)好者,這篇文章將采用大部分人都可以看得懂的簡(jiǎn)單方式,讓大家欣賞一下中國(guó)三大搜索引擎的分詞技術(shù)。
很幸運(yùn),我們的三大搜索引擎都在他們的快照里把查詢語(yǔ)句拆分,然后用不同顏色的高亮來(lái)顯示,大家可以一目了然地看到他們的分詞方法。搜狗、有道這些非主流的搜索引擎都沒(méi)有這種功能。騰訊搜搜采用的是谷歌的內(nèi)核,快照可以直接看到,但是卻沒(méi)有分詞高亮顯示。谷歌已經(jīng)去掉了“快照”功能,只有上Google去,并且需要使用代理服務(wù)器或者用一點(diǎn)小技巧才能看到。雅虎跟易搜使用相同的搜索核心,這次我使用的是易搜,也就是以前“悲情謝幕”的一搜,現(xiàn)在馬云同志好馬勇吃回頭草,變成了易搜,繼續(xù)造福中國(guó)人民。
分詞技術(shù)第一例:紅色搖滾很搞笑
從拆詞的情況來(lái)看,谷歌竟然并沒(méi)有把“搖滾”看作是一個(gè)詞!它是不是在搞笑?這就意味著,當(dāng)你的谷歌里搜索“搖滾”的時(shí)候,谷歌把這句話也當(dāng)成候選的結(jié)果“斗牛士搖來(lái)?yè)u去,公牛說(shuō):本牛不操無(wú)名之輩,滾!”
雅虎比谷歌更懂中文!人家起碼知道搖滾是一個(gè)詞。
呵呵,這就是業(yè)界一直盛傳的百度很牛逼的分詞技術(shù)了,把“紅色搖滾”整個(gè)兒好地看成一個(gè)詞,贊。它連“很搞笑”都看成是一個(gè)整體!
分詞技術(shù)第二例:比爾蓋茨正在重裝操作系統(tǒng)
谷歌果然不給微軟面子,連“蓋茨”這個(gè)名兒都不算一個(gè)詞,“重裝”自然也不算了,更不要提“操作系統(tǒng)”了,感覺(jué)谷歌就像一個(gè)絕世武林高手,把一張紙 拋向空中,然后吆喝一聲,用手中的寶劍唰唰唰唰地把那張紙碎尸萬(wàn)段。一個(gè)美眉淚奔:人家寫給蓋茨的情書,你怎么把它喜唰唰了?谷歌道:查無(wú)此人。
谷歌拆分的本領(lǐng)太幼稚了,雅虎當(dāng)然勝出,“比爾蓋茨”和“重裝”都成了詞,可見(jiàn)馬云忽悠大家說(shuō)雅虎搜索最好還不算太離譜,起碼分詞比谷歌先進(jìn)。
百度大亨閃亮登場(chǎng),一切完美,可以認(rèn)出“操作系統(tǒng)”。seo優(yōu)化技巧搜索引擎根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。學(xué)習(xí)搜索引擎優(yōu)化SEO,必須先了解什么是搜索引擎。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費(fèi)鏈接列表等。宏哥果然厲害,嘆服。
分詞技術(shù)第三例:誰(shuí)在用吉它彈奏一曲十八摸
谷歌又來(lái)喜唰唰了,不服不行,“吉它”“彈奏”都被棒打鴛鴦兩頭散。注意:我的搜索詞里頭有一個(gè)“在”字,谷歌一腳把它踢飛,我也淚奔~
雅虎還行吧,咦?曲十八是什么?是一個(gè)風(fēng)流才子嗎?反正我是不知道,大家有知道的M我。關(guān)鍵詞優(yōu)化隨著搜索引擎不斷變換它們的排名算法規(guī)則,每次算法上的改變都會(huì)讓一些排名很好的網(wǎng)站在一夜之間名落孫山,而失去排名的直接后果就是失去了網(wǎng)站固有的可觀訪問(wèn)量。
終于輪到終極Boss出場(chǎng)了,老實(shí)說(shuō),我不寫這篇文章還不知道宏哥的分詞技術(shù)能夠強(qiáng)大到如此的地步!它將我的查詢?cè)~用三種方法來(lái)分詞。先下一下這三張快照:
為什么百度會(huì)存在多種分詞版本?正如我在“授谷歌絕殺百度的獨(dú)孤九劍”那篇文章里提到,優(yōu)秀的分詞策略是這樣:盡量不拆分,需要拆分時(shí),先把長(zhǎng)的拆成中的,如果結(jié)果還是少,再把中的拆成短的。
當(dāng)然,這是原則,執(zhí)行過(guò)程中卻并不一定嚴(yán)格按照這種拆分來(lái)排序,要看別的參數(shù)。在百度里搜“誰(shuí)在用吉它彈奏一曲十八摸”,有三條搜索結(jié)果,其中只有第二條是包括了完整的“誰(shuí)在用吉它彈奏一曲十八摸”,排在第一條的結(jié)果是“誰(shuí)在用吉他彈 奏一曲十八摸”,注意,紅色部分與使用的查詢語(yǔ)句不同。使用“吉它”百度一下,找到相關(guān)網(wǎng)頁(yè)約2,490,000篇,使用“吉他”百度一下,找到相關(guān)網(wǎng)頁(yè) 約22,600,000篇。由此可見(jiàn),“吉他”是比“吉它”更常使用的詞語(yǔ),百度把查詢語(yǔ)句拆分之后,發(fā)現(xiàn)“吉它”的同義詞“吉他”可能是更好的詞,于 是,百度將更常用的詞“吉他”代替“吉它”之后將更合適的搜索結(jié)果放到第一!兄弟們,不服不行??!
百度擁有如此強(qiáng)大的分詞技術(shù),加上產(chǎn)品穩(wěn)定、可靠、河蟹,再擁有貼吧、知道等用戶貼性很高的產(chǎn)品,擁有hao123作為把菜鳥(niǎo)導(dǎo)入百度懷抱的利器,怪不得宏哥可以放心地去東京打小日本的主意。關(guān)鍵詞優(yōu)化隨著搜索引擎不斷變換它們的排名算法規(guī)則,每次算法上的改變都會(huì)讓一些排名很好的網(wǎng)站在一夜之間名落孫山,而失去排名的直接后果就是失去了網(wǎng)站固有的可觀訪問(wèn)量。seo優(yōu)化技巧搜索引擎根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。學(xué)習(xí)搜索引擎優(yōu)化SEO,必須先了解什么是搜索引擎。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費(fèi)鏈接列表等。正如百度產(chǎn)品部出來(lái)的一位朋友說(shuō):“競(jìng)爭(zhēng)對(duì)手太不爭(zhēng)氣。”
百度的分詞技術(shù)有什么弊端嗎?
有。
我上次提到過(guò),在搜“上海紫園”的詞時(shí),百度不知道憑什么,把“上海紫”看成了一個(gè)詞,并且在搜索結(jié)果里含有一大堆“上海紫”的結(jié)果,嚴(yán)重違背了先 不拆,后小拆的原則。在這個(gè)詞上,谷歌反倒比百度要好,雖然谷歌的詞庫(kù)很小,可是它用兩個(gè)詞相近則擁有更高優(yōu)先級(jí)的辦法來(lái)彌補(bǔ)。我的本意是表?yè)P(yáng)一下百度的 “先不拆”的良好原則,不料卻發(fā)現(xiàn)了百度的一個(gè)弊端。百度應(yīng)當(dāng)調(diào)整拆詞的參數(shù),不要把“上海紫”這樣的也看作一個(gè)詞。呵呵,應(yīng)該是我的記憶出問(wèn)題,我上次 本意應(yīng)該是讓大家搜索“紫園一號(hào)”的。這個(gè)詞就大概能看出谷歌跟百度的搜索差別。
由于兩詞相近優(yōu)先級(jí)高,所以谷歌的分詞技術(shù)弊端并沒(méi)有想象的那么嚴(yán)重,但是在搜索很多的詞之后,會(huì)發(fā)現(xiàn)它的結(jié)果總差那么一點(diǎn)兒,這就是差距了,在此 做個(gè)小猜測(cè),谷歌使用的詞庫(kù)來(lái)自新華字典,還可能是小學(xué)生版。雅虎的詞庫(kù)則來(lái)自漢語(yǔ)大詞典,百度……估計(jì)是自創(chuàng)的詞典,連“紅色搖滾”都算詞了呀。
其實(shí)我是谷歌的Fans,不喜歡百度和雅虎的商業(yè)氣味太重,寫這個(gè)排名出來(lái),是希望谷歌的領(lǐng)導(dǎo)注意谷歌自身水平的提高,而不是用拉攏迅雷、天涯這樣的招術(shù),這是旁門左道,對(duì)谷歌的進(jìn)步毫無(wú)用處。網(wǎng)站SEO搜索引擎優(yōu)化是一種利用搜索引擎的搜索規(guī)則來(lái)提高目前網(wǎng)站在有關(guān)搜索引擎內(nèi)的自然排名的方式。SEO的目的理解是:為網(wǎng)站提供生態(tài)式的自我營(yíng)銷解決方案,讓網(wǎng)站在行業(yè)內(nèi)占據(jù)領(lǐng)先地位,從而獲得品牌收益。
客服電話:400-0755-992
客服郵箱:vip@wapadd.cn
服務(wù)時(shí)間:周一至周五 9:00-18:00
掃一掃 關(guān)注微加
Copyright © 2021 WapAdd.cn 深圳微加互聯(lián)科技有限公司 粵ICP備14021220號(hào)-1 建站加盟首選,微加建站! 粵公網(wǎng)安備 44030402001656號(hào)
圖片與文章來(lái)源于網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)與我聯(lián)系刪除。