搜索引擎的倒排文件缓存

作者:安梵希
时间:2017-12-20
浏览:393

一般认为一个词被查询的频率与其被使用的频率相当(如深圳SEO被查询的频率和被用的深圳SEO这个词的频率),即频率高的词往往也是查询的热词,查询的频率依然符合齐普夫法则。即查询频率排名为i的关键词,其查询的实际频率与1/i成比例。大量的实验科学证明,在一段时间内那些有机会被检索到的检索词总是少数的,将这些少数的检索词存放在内存中可以大大降低读取磁盘中倒排文件的机会。关于倒排文件的缓存,可以参考文献(李晓明2004)。这里只给出一个结论,如果一个索引结点需要10GB的倒排文件,

www.urospa.cn

那么在这个10GB的倒排文件中,只有不到20%的索引词及其主应该进缓存。然而这20%的索引词占用的空间几乎是80%,即需要8GB的内存,这显然是难以实现的。因此业界采用了很多特有技术来完成这个工作,由于超出本书的范畴,再深入下去。



倒排文件的第六章中提到的搜索结果页缓存的基本原理大致大梁,读者可以参考第六章中的想送内容,深刻地理解在查询系统和索引系统这种缓存机制的重要性。

    0 人参与评论
该文章尚未收到评论 :(
提交评论禁止带推广链接、违法词及灌水,违规将封禁账号!!了解合理带链接的方法