全球搜天津总代理

咨询电话:17822187312

新闻资讯

NEWS

搜索引擎的分词与索引

作者:天津云搜科技有限公司 浏览: 发表时间:2022-04-13 16:40:59

怎样从上百亿网页中查找出匹配的网页?

   ----应该建立像《新华字典》一样的索引库

搜索引擎是以偏旁部首还是字母或者其他方式分类的?

     搜索引擎如果以字母列表的方式排列索引库,那么平均每个字母下要查询的网页数量是  100亿÷26=3.85亿 。***,终于找到一个解决办法:索引库里用词语来分类。

因为尽管互联网上的网页是不断激增的,但是每一种语言里,词语的数量都是相对固定的。比如英语就是一百多万个单词,100亿 ÷ 1百万 =  1 万;汉语是8万多个词语,100亿÷8万=12万5千。都是计算机很容易处理得过来的。

用词语来分类还有一个好处,就是可以匹配用户查询的那个词语。本来用户就是要查这个词语的,那么就可以按这个词语去分类。

当搜索引擎把一个网站抓取下来后,接着要做的事情就是把网页里的词语分开放到索引库里。分词在这个时候就要应用到了,所谓的分词,其实很简单,就是把词语分开。

英语的分词好处理一点,因为英语的每个单词之间是用空格分开的,基本上就只要处理一些虚词、介词,还有一些词语的单复数,变形词等等。但是中文的分词就复杂很多了,句子中的每个字都连在一起,有时候即使是人来判断,都还有产生歧义的时候。中文的分词有很多方法,也很容易弄懂的,如正向切分法,逆向切分法等等,网上有很多相关的资料。


0

相关文章

图片展示

专注于外贸搜索推广

 

图片展示

联系地址:天津南开区华苑鑫茂科技园军民园1号楼B座503

联系电话:17822187312

版权所有 天津云搜科技有限公司   津ICP备2022002394号-1

主营:外贸推广,谷歌推广,外贸网站推广,谷歌广告,外贸网站建设

关注我们

添加微信好友,详细了解产品
使用企业微信
“扫一扫”加入群聊
复制成功
添加微信好友,详细了解产品
我知道了