|
网站SEO优化(huà)之Google分词(cí)法 |
|
Google分词算法值得我们好好(hǎo)研究一下。Google的搜索结果页(SERP)与搜索关键字的相关性(xìng),明显大于百度,这是因为Google把搜(sōu)索关键字(zì)都(dōu)拆分成最基本的词组和单字(zì)后,在根(gēn)据相关性去匹配数据库的中内容,而且Google拆分后的最基本词组(zǔ),完全是根据词(cí)典里的词组匹配的,也是说它符合国家语(yǔ)言(yán)文字工(gōng)作委(wěi)员会的(de)规(guī)范和标准的,这只限于普通词组(公众(zhòng)人名(míng)、著(zhe)名品牌名)。
实例1:测试Google是(shì)否有专(zhuān)业名词库
在Google搜索(suǒ)“搜索引擎(qíng)关键字”,Google会把这个关键字短语拆分为(wéi)“搜索—引擎—关键—字”,这是因为“搜索(suǒ)引擎(qíng)”和“关键字(zì)”都是网(wǎng)络专业词组(zǔ),可能Google没有专业词(cí)组库,所(suǒ)以就被(bèi)拆(chāi)分(fèn)成(chéng)了“搜索—引擎—关(guān)键—字(zì)”。
实例2:测试Google拆分长关键字
在Google搜索“他舅WAP流量统计分析”,Google把这个关键字短(duǎn)语拆分为“他—舅—wap—流量—统计(jì)—分析(xī)”六部分,“WAP”是一个英文词(cí)组,包括Google和其他搜索引擎一般是不拆分英文词组(zǔ)的(就算(suàn)它不是英(yīng)文单词),“流量”、“统计”、“分析”都是符合国(guó)家语言规范的标准词组(zǔ),“他舅(jiù)”只是(shì)中国老百(bǎi)姓一个口头(tóu)称谓用语,不符合国家语言规范,在词典中根本就查不到这,所以Google就把“他舅”拆分成了两(liǎng)个(gè)单字。
实例3:测试(shì)品牌名是否被Google收录为词(cí)组
在Google搜索“海尔冰箱”、“惠普(pǔ)电脑”、“华(huá)为通讯”、“美(měi)的电器”,“五粮液酒(jiǔ)”,“夏利汽车(chē)”、“北(běi)京(jīng)同仁堂”这七(qī)个都是著名的品牌(pái),结(jié)果是“海(hǎi)尔”、“惠普(pǔ)”、“华为”、“五粮液”、“同仁堂(táng)”都是(shì)单(dān)独(dú)的词(cí)组,没(méi)有被拆分(fèn)为单字(zì),“夏利”、“美的”这两个品牌却被拆分成了单字。不是所(suǒ)有品牌都能被Google作为一个词组收录进品牌词库,Google有自己(jǐ)的收录标准的。
实例4:测试Google是(shì)否(fǒu)会拆分成语
下(xià)面我们搜索(suǒ)一下韩乔生的(de)经(jīng)典名句“迅雷不及掩耳之势(shì)”和“山清水秀丽”,结果“迅雷(léi)不及掩耳之势”这个短句被(bèi)拆分成了(le)“迅(xùn)雷—不(bú)及—掩耳盗铃—之—势”,“迅(xùn)雷”是一个符合汉(hàn)语言规范的标准词组,不是指下载工具那个“迅雷”,“不及”也是一个(gè)词(cí)组,“掩耳盗铃(líng)”也是符合国家语(yǔ)言规范的成语,“之势”不(bú)是标(biāo)准词组,所以(yǐ)就被拆分为两(liǎng)个单字。“山清(qīng)水(shuǐ)秀丽”被拆分(fèn)为了“山清水秀—丽”,“山清(qīng)水秀”是一个(gè)成(chéng)语(yǔ)没有拆分。Google把成(chéng)语作为(wéi)几个基本词(cí)组,不(bú)会进一步拆分。
实例5:测试(shì)普(pǔ)通之间是(shì)否有(yǒu)权重高低之分
搜索“山河水灾”这个关键字短语,结(jié)果Google拆(chāi)分为“山河”和“水灾”两个词组;然后(hòu)搜素“山河水灾情(qíng)”这个关(guān)键字短(duǎn)语(yǔ),结果Google拆分(fèn)为“山河(hé)”、“水”、“灾情”三部分,“水”字没有(yǒu)和“灾”组成词组(zǔ),反而“灾(zāi)”和“情”组成了词(cí)组,这(zhè)说(shuō)“灾情”这个词的权重高(gāo)于“水灾”的权重。这说明(míng)词组之(zhī)间也是有(yǒu)权重之分的。
根据实例测试推(tuī)断:Google会把搜索的(de)关键字(短语)拆分(fèn)为(wéi)最基本的词组,这(zhè)些普通词组都是符合汉语(yǔ)言规(guī)范的标准词组,不(bú)像百(bǎi)度那样收录“人造名词”。Google的词组大(dà)致可分为普通名词、地名、人名(míng)等几类,关(guān)键字(短语)都是(shì)从左(zuǒ)向右,按权重高低拆分。这(zhè)些词组权重从低到高依次如下(xià):人名(míng)<普通词组<地(dì)名<成语<领导人名字。进一(yī)步测试(shì)品(pǐn)牌(pái)名和人名的权重是一样,都是(shì)最低的(de),这(zhè)只(zhī)是一个大致顺序,因(yīn)为(wéi)同一类词(cí)组还会根据日常使用的频率进一步(bù)的分级,每一级的(de)分配不同(tóng)的权重,所(suǒ)以同一类词(cí)组之间也有权重(chóng)高低之分。
|
|