网站性能检测评分
注:本网站页面html检测工具扫描网站中存在的基本问题,仅供参考。
分词
PHP+MYSQL 简单实现中文分词全文索引 互联网视频课程
相信很多人都研究过MYSQL的中文全文索引问题,目前MYSQL不支持中文全文索引,无奈~~~ 网上找了N多关于PHP+MYSQL中文全文索引的文章都没有一个好用的,对于一般的菜鸟根本不知道怎么使用,PHP中文分词有DDEDE的,DEDE的词库不是很强大,还算可以用吧! 还有一个是《SCWS-简易中文分词系统》这个目前对于一般菜鸟根本不知道怎么用,虽然有人编译了Windows版的,但安装还是挺麻烦的,我尚未测试过! //========================== 废话不多说了,首先去DEDE下载分词算法函数和词库;下载地址:http://www.dedecms.com/html/chanpinxiazai/20061229/3.html 里面有详细的使用说明,我在这里举一个使用的例子; MYSQL表名:music 字段:title,tag require("lib_splitword_full.php"); $str="这里是你要分词的内容,一般不要超过1024KB会好一点,否则会很慢!"; $sp=newSplitWord();//实例化 $dd=explode("",$sp->SplitRMM($str)); $i=0; foreach($ddas$key=>$var){ if(strlen($var)>2)//UTF8编码的请设置为3,因为UTF8编码的中文一般为3个字节以上,过滤单个字不保存! { $str.=base64_encode($var)."";//由于MYSQL不支持中文全文索引,所以在分词中我们必须把词转换成字母或者数字,这里我选择了base64编码 //当然大家还可以把中文转成区码,但我测试过区码的方法,感觉很一般,所以在这样我推荐大家使用base64 $i++; } if($i>=50)break;//这里是设置你要存储多少个词组,如果是文章可能会有N多词组,你可以设置大一点,但如果你对标题分词的话,50个已经足够了! //这样运行未编码得出来的结果:这里分词内容一般不要超过1024KB一点否则 //base64编码后的结果:1eLA7w==t9a0yg==xNrI3Q==0ruw4w==srvSqg==s6y5/Q==MTAyNEtC0ru14w==t/HU8g== } ?> 这样我们就可以把分好词而且转换成编码的分词存进tag字段了,当然tag字段必须设置成全文索引fulltext而且数据表类型必须为MyISAM。 tag字段数据类型为CHAR和VARCHAR、text,有关如何创建MYSQL全文索引,大家可以搜索一下《mysql创建索引》遍地开花,到处都是! 下面的例子是根据TAG字段的内容进行全文索引查询: include("Mysql.class.php"); $rs=$DB->get_one("selecttitle,tagfrommusicwhereid=$id");//根据ID读取title和tag字段内容 $title=$rs['title']; $sql=$DB->query("selecttitle,MATCH(tag)AGAINST('".trim($rs['tag'])."'INBOOLEANMODE)ASscorefrommusicwhereMATCH(tag)AGAINST('".trim($rs['tag'])."'INBOOLEANMODE)ORDERBYscoreDESClimit21");//这里是查询20条相似的内容,而且按相似的排序,21是因为同一条记录都会匹配出来! while($rs=$DB->fetch_array($sql)) { if($rs['title']!=$title) { echo$rs['title']."
"; } } $DB->close(); ?> 如果大家想看效果可以到我的小站看演示:http://www.dj965.com 以上的例子就实现了PHP+MYSQL简单的中文分词全文索引! 希望对跟我一样的菜鸟有一定的帮助吧! 本人BLOG:
"; } } $DB->close(); ?> 如果大家想看效果可以到我的小站看演示:http://www.dj965.com 以上的例子就实现了PHP+MYSQL简单的中文分词全文索引! 希望对跟我一样的菜鸟有一定的帮助吧! 本人BLOG:
百度和谷歌关键词密度算法及分词技术分析 关键词视频课程
各位站长在做优化的时候都会刻意的注意网站的关键词密度,关键词太少对网站的排名会有一些影响,但是关键词密度太高又怕被惩罚,那么我们在做网站优化的时候关键词密度多少才算合适呢?另外百度和谷歌的关键词分词技术有哪些区别呢,我们如下做剖析。普通而言网站关键词密度在3%-5%左右,但是是否代表我们用普通的网站关键词密度分析工具或软件测试出来的关键词密度就是网站关键词的真实密度呢?这个密度的准确性主要看是针对百度还是谷歌而言了,根据雪域长久以来的分析发现百度和谷歌的关键词密度算法是不同的,如下图我们通过工具测试的保安公司这个关键词的关键词密度。(版权所有:雪域北京信息网转载请保留版权) 通过计算我们得到的关键词出现频率是22次。密度已经达到11.2%可以说已经超标了,但是是否真的属于关键词密度过高呢,我们接下来分析百度的关键词密度算法。(版权所有:雪域北京信息网转载请保留版权) 我们现在可以看到的保安公司这个关键词的频度是14次,再加上描述和标题里面的关键词频度基本上接近上面我们用工具检测到的关键词频度。现在可以确认关键词密度检测工具的算法和百度基本吻合,那么是否谷歌也是这样算密度的呢?我们下面分析谷歌的密度算法模式。(版权所有:雪域北京信息网转载请保留版权) 现在我们看到上面图片是谷歌的关键词密度分布图,按照谷歌这样的统计模式我们的关键词已经远远超出了关键词密度检测工具的关键词频度,显然关键词密度检测工具是按照百度的模式算密度的。各位也许看到这两张百度和谷歌的关键词分布图可以看出,百度的关键词算法模式是严格按照网民搜索的关键词来匹配的。而谷歌则是可以分散模式拼合关键词,这就是我们网站优化师经常说到的分词技术。那么这两个搜索引擎的关键词布局是否已经给了大家一些网站优化方面的感想呢?雪域在此给大家具体分析一下百度和谷歌关键词优化技法及布局方式介绍。 大家在做百度优化时网站内容中关键词最好是和你所优化的关键词吻合,比如我们要突出保安公司这个关键词,那么我们就需要在网站内容中增加一些关于保安公司的文章,在关键词之间不要加多余的符号,比如保安,公司这对于百度来说是两个关键词,所以各位在做网站优化时每一个细节都需要严格审核。(版权所有:雪域北京信息网转载请保留版权) 谷歌关键词优化的话我们就可以采取相对轻松的模式了,假如我们在做多个关键词时,可以采用一句话来描述如:北京保安公司那么对于谷歌而言可以拆解为北京保安、保安公司、北京保安公司、保安这四个关键词,也就是说如果我们要优化这四个词的话可以用这一个词就可以把四个关键词搞定。下面我们看看谷歌中排名不错的网站,谷歌是如何抓词的。 谷歌中输入保安公司,大家可以看到谷歌标题抓取模式 (版权所有:雪域北京信息网http://www.010xxw.com/转载请保留版权)
搜索引擎中文分词技术 企业视频课程
由于很多朋友要求写一篇搜索引擎分词技术的文章,特别是关于百度分词的。我今天就发发给大家 Moon10月9号在SEOWHY周四答疑群给讲解的分词技术今天给大家帖出来供大家学习一下。 分词技术:什么是分词,如何分词搜索引擎会承认,这次第一位朋友提的问题,想必大家也听说过,很好奇,什么是分词技术,什么又是百度分词呢?分词大家容易理解。就是一段词用字符分开,比如标点符号,空格等。 那什么叫分词技术呢?分词技术就是SE针对用户提交查询的关键串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。大家好好理解。那么我们要理解分词技术先要理解一个概念。那就是查询处理,当用户向搜索引擎提交查询后,搜索隐藏接收到用户的信息要做一系列的处理。首先是到数据库里面索引相关的信息, 这就是查询处理,那么查询处理又是如何工作的呢?很简单,把用户提交的字符串没有超过3个的中文字,就会直接到数据库索引词汇。超过4个中文字的,首先用分隔符比如空格,标点符号,将查询串分割成若干子查询串。举个例子。“什么是百度分词技术”我们就会把这个词分割成“什么是,百度,分词技术。”这种分词方法叫做反向匹配法。2.然后再看用户提供的这个词有没有重复词汇。 如果有的话,会丢弃掉,默认为一个词汇。接下来检查用户提交的字符串,有没有字母和数字。如果有的话,就把字母和数字认为一个词。好了,这就是SE的查询处理。 讲了查询处理后,大家对分词技术,尤其是中文分词技术有了一个基本的了解。 其实我讲的都是搜索引擎的原理。好了,我接下来讲分词的原理。我们用百度来举例 百度是如何来分词的呢?分词技术现今非常成熟了。他分为3种技术。 1.字符串匹配的分词方法 2.词义分词法。 3.统计分此法。 先说第一种。 也是常用的分词法,百度就是用此种分词。字符串匹配的分词方法,他又分为3中分词方法。 1.正向最大匹配法 什么意思呢?就是把一个词从左至右来分词。 举个例子。 “不知道你在说什么” 这句话采用正向最大匹配法是如何分的呢?“不知道,你,在,说什么”与正向最大匹配法相对应的是反向最大匹配发。这是第二种分词方法。 2.反向最大匹配法来分上面我举的例子是如何分的呢"不知道你在说什么"。反向最大匹配法来分上面这段是如何分的。“不,知道,你在,说,什么”,这个就分的比较多了,反向最大匹配法就是从右至左。 3.就是最短路径分词法。 这个什么理解呢,就是说我一段话里面要求切出的词数是最少的。还是上面哪句话 “不知道你在说什么”最短路径分词法就是指,我把上面哪句话分成的词要是最少的。不知道,你在,说什么,这就是最短路径分词法,分出来就只有3个词了。好了,当然还有上面三种可以相互结合组成一些分词方法。比如正向最大匹配法和反向最大匹配法组合起来就可以叫做双向最大匹配法。好了,第一种说完了, 2.词义分词法。 这种其实就是一种机器语音判断的分词 方法。很简单,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词,这种分词方法,现在还不成熟。处在测试阶段。 第三种,统计的分词方法。 这个很简单,就是根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符。这样来分词。比如,“我的,你的,许多的,这里,这一,那里”。等等,这些词出现的比较多,就从这些词里面分开来。好了,分词技术讲完了。 那么我们刚刚学了分词技术,又如何来运用他们为我们的站点获得流量呢 1.我们可以利用分词技术来增加我们站点长尾词。这样就可以获取流量排名。 不但这些分出来的长尾词能够获取一定的排名,也能够推动站点的目标关键词获取很好的排名。这个原理就是内链原理,这里不再讲了。讲了这么多,我们举个例子。 例如:三亚酒店预定,如何来分呢? 正向最大匹配,反向最大匹配,双向最大匹配,最短链接匹配。 1.正向最大匹配 “三亚,酒店预定” 2.反向最大匹配 “三亚酒店,预定” 3.双向最大匹配 “三亚,酒店,预定” 4.最短路径最大匹配。 “三亚酒店预定”好了,我们分了词为 “三亚,“酒店预定,预定,三亚酒店,三亚,酒店,三亚酒店预定。” 这些词每个都可以做一个主题页为目标关键词 这些分出来的词,把他们都作为你站点的主题页,导入链接权重上来了,竞争力就大了,因为这些页面把他内链起来。用锚链接,指向主页的目标关键词。呵呵,这就是分词的好处。他能够提升目标关键词的排名的竞争力也同时给站点带来一定流量。一旦导入链接权重上来了,竞争力就大了,因为这些页面把他内链起来。 用锚链接,指向主页的目标关键词。呵呵,这就是分词的好处。他能够提升目标关键词的排名的竞争力也同时给站点带来一定流量。分词还有一种好处。那就是提升内页的排名。好的,这个我就不详细讲了。因为我在SEOWHY已经写了一篇文章。大家可以去看一下。就是关于百度,捕获描述的文章。如果你的内页不做描述,那么百度就会给你定义一个描述或者从你的页面捕获一个描述。在捕获描述的时候,如果你的知道他会捕获哪一段,那么你说,你的排名会不会上升。你就刻意写哪一段。 我写的那篇文章地址如下。大家可以去看一下。 http://www.seowhy.com/bbs/thread-4451-1-1.html 最近有朋友整理出来并且转载了,转载没有关系,请注明作者和出处(SEOWHY) 编辑推荐:学习网站优化推广的专业网站——选学网 ,内容非常不错,学习,网站推广的朋友一定不要错过。