发表时间: 2022-04-13 16:40:59
作者: 天津云搜科技有限公司
浏览:
怎样从上百亿网页中查找出匹配的网页?
----应该建立像《新华字典》一样的索引库
搜索引擎是以偏旁部首还是字母或者其他方式分类的?
搜索引擎如果以字母列表的方式排列索引库,那么平均每个字母下要查询的网页数量是 100亿÷26=3.85亿 。***,终于找到一个解决办法:索引库里用词语来分类。
因为尽管互联网上的网页是不断激增的,但是每一种语言里,词语的数量都是相对固定的。比如英语就是一百多万个单词,100亿 ÷ 1百万 = 1 万;汉语是8万多个词语,100亿÷8万=12万5千。都是计算机很容易处理得过来的。
用词语来分类还有一个好处,就是可以匹配用户查询的那个词语。本来用户就是要查这个词语的,那么就可以按这个词语去分类。
当搜索引擎把一个网站抓取下来后,接着要做的事情就是把网页里的词语分开放到索引库里。分词在这个时候就要应用到了,所谓的分词,其实很简单,就是把词语分开。
英语的分词好处理一点,因为英语的每个单词之间是用空格分开的,基本上就只要处理一些虚词、介词,还有一些词语的单复数,变形词等等。但是中文的分词就复杂很多了,句子中的每个字都连在一起,有时候即使是人来判断,都还有产生歧义的时候。中文的分词有很多方法,也很容易弄懂的,如正向切分法,逆向切分法等等,网上有很多相关的资料。