Hawk 搜索引擎平台是面向中小型网站,可以定制的垂直搜索引擎平台。本搜索引擎平台
目标是方便用户搭建站内搜索、某个领域的垂直搜索、以及检索个人文档以及自己关注的
网站信息的桌面搜索等应用领域。它改造自Lucene/Hadoop/Nutch系统,是纯Java的搜索平台软件,
可以运行于Windows及Linux等平台。目前发布版本为初始版本Hawk-0.4.35-test版,具备基本的
抓取、索引和检索功能,本搜索引擎将免费提供,欢迎大家测试和使用,谢谢!
下一个版本将实现可根据语法以及新词进行分词的分词模块,以及抓取数据的过滤及优化,
索引的消重等方面,以实现可以应用于实际在线产品的版本。
下面介绍本搜索引擎的使用和演示版本:
1, 下载和安装
a. 请下载Java运行环境,推荐Java SE 1.6版本
b. 下载Hawk-0.4.35-test(稍后提供,谢谢)
c. 解压:tar -zxf hawk-0.4.35-test.tar.gz
d. 假设Hawk已被解压到 ~/hawk-0.4.35 目录,以下叙述以 $HAWK表示
2, 配置
a. 将Java运行环境的bin目录添加到系统PATH环境变量中,同时修改$HAWK/conf/hawk-env.sh
文件设置正确的Java路径。备注:Java缺省会安装在/usr/java目录下
b. 也可以将hawk解压后目录 $HAWK/bin 添加到PATH环境变量中,方便启动和停止Hawk服务。
c. 修改 $HAWK/conf/hawk-site.xml 文件中的“search.dir”的值为索引数据存放路径,如
<property>
<name>searcher.dir</name>
<value>/tmp/hawkdb</value>
</property>
d. Hawk系统服务会绑定若干个端口,请查看$HAWK/conf/site.xml,酌情修改
3, 访问
a. 启动Hawk服务:运行 $HAWK/bin/start-hawk.sh 和 $HAWK/bin/start-server.sh 脚本
b. 访问Hawk管理界面(缺省端口为20090),例如:http://localhost:20090/
4, 抓取网页 a. 编辑一个文本文件,录入要抓取网站地址,并放入一个独立的目录中,
如:vi /tmp/test/urls.txt 录入 http//www.sina.com.cn
b. 执行命令:$HAWK/bin/hawk crawl /tmp/test/ -depth 2 (指定抓取深度为2层网页)
c. 点击管理界面上方的“任务”按钮,可以监控任务的执行情况,如下
d. 完成后控制台显示如下所示:
5,检索网页
a. 在管理界面的搜索框中输入要检索的关键词,点击“搜索”按钮,即可查询到上面
抓取的网页,如下所示:
到此基本介绍完了搜索引擎平台的使用步骤,由于还未完成分词等模块,所以相关性还不
尽入如人意,敬请期待,谢谢!
作者:naven 2008-02-20