自顶向下学搜索引擎——北大天网搜索引擎TSE分析及完全注释[4]小结

通过前面的三篇文章相信你已经对神秘的搜索引擎有了一个感性的认识，和普通的php类似的脚本语言服务器类似，通过获取前台关键字，通过字典分词，和事先建立建立好的倒排索引进行相关性分析，得出查询结构格式化输出结果。而这里的技术难点在于

1、字典的选取（事实上根据不同时代不同地方人们的语言习惯是不一样的所以说字典的最小元的取值是不同的）

2、倒排索引的建立（这里就要涉及到爬虫的抓取和索引的建立后面将重点介绍这2点，搜索引擎的效率和服务质量实效性瓶颈在这里）

3、相关性分析（对抓回来的文档分词建索引和用户关键字分词算法上要对应）

后面文章会重点介绍爬虫的抓取和索引的建立。

只有注册用户登录后才能发表评论。
【推荐】100%开源！大型工业跨平台软件C++源码提供，建模，组态！

相关文章: 自顶向下学搜索引擎——北大天网搜索引擎TSE分析及完全注释[6]倒排索引的建立的程序分析(4) 自顶向下学搜索引擎——北大天网搜索引擎TSE分析及完全注释[6]倒排索引的建立的程序分析(3) 自顶向下学搜索引擎——北大天网搜索引擎TSE分析及完全注释[6]倒排索引的建立的程序分析(2) 自顶向下学搜索引擎——北大天网搜索引擎TSE分析及完全注释[6]倒排索引的建立的程序分析(1) 自顶向下学搜索引擎——北大天网搜索引擎TSE分析及完全注释[5]倒排索引的建立及文件介绍自顶向下学搜索引擎——北大天网搜索引擎TSE分析及完全注释[4]小结自顶向下学搜索引擎——北大天网搜索引擎TSE分析及完全注释[3]来到关键字分词及相关性分析程序自顶向下学搜索引擎——北大天网搜索引擎TSE分析及完全注释[2]路过查询处理程序自顶向下学搜索引擎——北大天网搜索引擎TSE分析及完全注释[1]寻找搜索引擎入口

网站导航: 博客园 IT新闻 BlogJava 博问 Chat2DB 管理

学着站在巨人的肩膀上