搜外网>搜外问答>问答页面

搜索引擎分词技术与链接数量分析

搜索引擎分词技术与链接数量分析
我这边已经成功做出了一款比较落后的搜索引擎,但是遇到俩个非常棘手的问题。
第一,搜索引擎分词,这些词典有没有成品的中国汉字具体数量统计的工具,求推荐个。
例如:字典根据,词典根据,整站源码带数据的程序。
————————分割线————————
第二,链接数量分析,这个技术是搜索引擎怎么实现的?
第三,搜狗知立方与百度框计算内容相关度,是不是根据百科来计算的?
第四,百度对用户需求度,拿问答平台来衡量的,那么搜狗又拿什么来衡量的?会不会是输入法。
求助这四个问题,感谢回答。

追加问题
    3 人参与回答
吴志强
吴志强 · 一个小PM
吴星 等 1 人赞同该回答

1、有专门免费的分词工具,你可以用下,但准确性肯定不如百度的,毕竟人家分词技术与数据已经沉淀了那么多年,已经很成熟了,你只能是根据初步简单的分词工具来慢慢结合数据做改进。

2、超链接数量,你可以使用下百度站长的抓取工具来抓取一个网页,成功后,查看抓取的网页状态,你就会发现它其实就是目标网页的源代码,源代码中包含多少个超链接,超链接文本,图片链接基本就很清晰了。

3、百度框计算我认为是基于两个重点来得出的结果,其一当然是达到一定搜索量,其二是某搜索词与搜索框搜索词被搜索的结果页面都包含了同一网页或相同相关的网页,就可以认为是相关词,相关网页。重点是这两个,至于是否还有其他因素暂不知晓,但实现这两个重点,相信就可以实现相关度。

4、抱歉,基本不用搜狗

吴星
吴星 · 文艺极客QQ群 255363059

站内搜索还是比较好做的,第一代搜索引擎使用布尔匹配就够了。

  1. 中文的分词、语义分析,百度都不尽如意,先从简单的开始,以后再慢慢完善。



百度搜索框的知心废弃功能,就表明了知心搜索的语义分析也不靠谱。
  1. 链接分析功能建立在爬虫抓取海量页面的基础上。爬虫要能够分辨链接与文本。
  2. 是根据用户搜索行为的数据统计得出的,可以刷。
  3. 第 4 个用户需求没研究过,不用搜狗输入法。。。
仲彪
仲彪 · 在寻找南京8K-10K的工作

索引擎不是一个人能做的。

SEO培训招生中
155