前言:整篇文章的篇幅很小,所有都是点到为止,如果想要看完整的其实还得自己去网上找资料,整篇文章的思路来自目前专从国外网站进行翻译采集的网站得到的,文章名字叫《PR值是什么》,在国内所有采集类型网站上基本都有转载。作为站长来讲,是非常痛恨那些采集的人,本站也因被一些网站采集,而降权过一段时间。作为首先直接从国外翻译过来的文章来讲,她对于中文索引库来讲,就是原创。所以还是鼓励大家去翻译一些比较好的文章来作为原创的动力。
分词是什么?
搜索引擎搜索一个词,可能就是在一秒内可以得到结果,而整个走过的过程那是相当繁杂的。世界上最快的速度并不是光速,而是搜索引擎速度。搜索引擎得到一个词首先需要做的就是去停止词,再就是进行分词了。如小杰seo就可以分词成为小杰、seo、小杰seo,而当关键词是小杰的 seo分词也是这个,因为搜索引擎去除停止词的,直接分词成为上面的几个词。这里需要强调的是seo与SEO是两个词,但是同属于一个关键词索引库。索引库出来了,但是我们先继续唠叨下这个词的问题。
如果你在搜索中出现了您找的是不是&&的话,那么搜索引擎是没有这个词的关键词索引数据库的,如果你想有的话,应该要在搜索引擎中增加大批量的含有完全匹配的关键词的网页来让搜索引擎知道,其实这个就是跟现代汉语词典一样,虽然被认知了这个词,而且已经收录,但是官方并没有放出来,来为这个词正身。
我们还可以对于所有可以分词出来的词进行搜索引擎指数的查询,这是对于该词在整个搜索引擎中被搜索的次数及热度的,而且会有一些新闻垂直搜索的索引数量,所以需要搜索引擎建立搜索引擎索引数据库的第二个条件就是这个词需要有人搜索,并且有热量。一些在某一段时间搜索及使用人群多的话,索引数据库建立也会快的。
关键词索引库是什么?
什么是搜索引擎索引数据库?库里又有些什么东西?搜索引擎数据库其实就是含有某个分词的网页的URL集合,简单来说,如果网页中含有seo这个词,那么他就会被收录到seo索引数据中去。如果没有这个索引数据库就会找相同音或意的关键词索引数据进行收录,这是目前搜索引擎唯一进行用户意图算法中的应用,不过随着SNS的发展,搜索引擎已经在这个地方发力,在网页优先级排序中进行该项应用的优化及推广,谷歌已在该处试用了。
索引数据中有的就是你的网页URL,就是那个网址域名,其他的没有任何东西。在上面已经提到如果你搜索的词没有数据库,甚至是没有收录,搜索引擎会到相同(近似)音或意的数据库中进行调取,所以在设置网站URL的时候,对于URL不能简称或者是随意定,需要的是全拼,这样你关键词匹配度就会相对较高,用户找到的机会就更高。
分词及关键词索引库之间的联系是倒排索引与正排索引
到目前为止还没有到网页优先等级(PR值)的负责的运行,目前搜索引擎还要加入用户意图算法,这个搜索引擎核心算法将会更加复杂,我们会越来越不清楚。从去停止词和分词之后,其实就是对网页的数组分组运算,这个过程就是倒排索引及正排索引,随后就会将这些URL分配到数据中去:
小杰:A1、A2、B2…..
seo:A1、B2、C3….
小杰seo:A2、B2、C3….
这是倒排索引,就是将这些词放到对应的关键词索引数据库中,而正排索引就是相反的,也就是在搜索的时候,看那些网页中有这些词,需要到那些关键词索引数据中调用出来,弄出来以后就是优先等级运算,也就是给搜索引擎排序。我们最先优先等级排序时比较落后的。而在我们当前的搜索引擎排序中其实是很多数组之间的矩阵运算。
首先就是我们所有网站都会有的一种排序方法,按照更新时间排序,或者是正或者是倒序排列,这种其实是一种无序排列;还有一种就是一些网站列表中进行的排序方法,也就是按照点击次数,这也是一种无序排列,在搜索引擎的排序中有所参考值的。
再就是现在很多人讲到的关键词密度值,也就是网络中的所有关键词出现的次数/该网页中关键词出现的次数或者是整个网站中出现的次数*100%得到的百分比就是网页或者是网站的关键词密度值来排序。这个是很容易作弊的,你如果在网页中的样式中出现关键词一千次,那不是对很多人不公平,所以现在的搜索引擎对于这个不是很在意的,在意更多的而是在于关键词在网站的布局。对于优先等级排序的讨论,期待下篇吧