图片展示

搜索引擎的分词与索引

发表时间: 2022-04-13 16:40:59

作者: 天津云搜科技有限公司

浏览:

怎样从上百亿网页中查找出匹配的网页?

   ----应该建立像《新华字典》一样的索引库

搜索引擎是以偏旁部首还是字母或者其他方式分类的?

     搜索引擎如果以字母列表的方式排列索引库,那么平均每个字母下要查询的网页数量是  100亿÷26=3.85亿 。***,终于找到一个解决办法:索引库里用词语来分类。

因为尽管互联网上的网页是不断激增的,但是每一种语言里,词语的数量都是相对固定的。比如英语就是一百多万个单词,100亿 ÷ 1百万 =  1 万;汉语是8万多个词语,100亿÷8万=12万5千。都是计算机很容易处理得过来的。

用词语来分类还有一个好处,就是可以匹配用户查询的那个词语。本来用户就是要查这个词语的,那么就可以按这个词语去分类。

当搜索引擎把一个网站抓取下来后,接着要做的事情就是把网页里的词语分开放到索引库里。分词在这个时候就要应用到了,所谓的分词,其实很简单,就是把词语分开。

英语的分词好处理一点,因为英语的每个单词之间是用空格分开的,基本上就只要处理一些虚词、介词,还有一些词语的单复数,变形词等等。但是中文的分词就复杂很多了,句子中的每个字都连在一起,有时候即使是人来判断,都还有产生歧义的时候。中文的分词有很多方法,也很容易弄懂的,如正向切分法,逆向切分法等等,网上有很多相关的资料。


联系我们

天津云搜科技有限公司

手机:17822187312

座机:022-23756781

电子邮箱:1745569011@qq.com

公司地址:天津南开区华苑鑫茂科技园军民园1号楼B座503

版权所有 © 天津云搜科技有限公司

ICP备案号:津ICP备2022002394号-1

热线电话
17822187312
上班时间
周一到周五
添加微信好友,详细了解产品
使用企业微信
“扫一扫”加入群聊
复制成功
添加微信好友,详细了解产品
我知道了