Javen-Studio 咖啡小屋

http://javenstudio.org - C++ Java 分布式搜索引擎
Naven's Research Laboratory - Thinking of Life, Imagination of Future

:: 管理 ::

24 随笔 :: 57 文章 :: 170 评论 :: 4 Trackbacks

Hawk-0.4.35开发版搜索引擎平台发布

      Hawk 搜索引擎平台是面向中小型网站，可以定制的垂直搜索引擎平台。本搜索引擎平台
目标是方便用户搭建站内搜索、某个领域的垂直搜索、以及检索个人文档以及自己关注的
网站信息的桌面搜索等应用领域。它改造自Lucene/Hadoop/Nutch系统，是纯Java的搜索平台软件，
可以运行于Windows及Linux等平台。目前发布版本为初始版本Hawk-0.4.35-test版，具备基本的
抓取、索引和检索功能，本搜索引擎将免费提供，欢迎大家测试和使用，谢谢！
      下一个版本将实现可根据语法以及新词进行分词的分词模块，以及抓取数据的过滤及优化，
索引的消重等方面，以实现可以应用于实际在线产品的版本。
      下面介绍本搜索引擎的使用和演示版本：

      1, 下载和安装
      a. 请下载Java运行环境，推荐Java SE 1.6版本
      b. 下载Hawk-0.4.35-test（稍后提供，谢谢）
      c. 解压：tar -zxf hawk-0.4.35-test.tar.gz
      d. 假设Hawk已被解压到 ~/hawk-0.4.35 目录，以下叙述以 $HAWK表示

      2, 配置
      a. 将Java运行环境的bin目录添加到系统PATH环境变量中，同时修改$HAWK/conf/hawk-env.sh
文件设置正确的Java路径。备注：Java缺省会安装在/usr/java目录下
      b. 也可以将hawk解压后目录 $HAWK/bin 添加到PATH环境变量中，方便启动和停止Hawk服务。
      c. 修改 $HAWK/conf/hawk-site.xml 文件中的“search.dir”的值为索引数据存放路径，如
<property>
<name>searcher.dir</name>
<value>/tmp/hawkdb</value>
</property>

      d. Hawk系统服务会绑定若干个端口，请查看$HAWK/conf/site.xml，酌情修改

      3, 访问
      a. 启动Hawk服务：运行 $HAWK/bin/start-hawk.sh 和 $HAWK/bin/start-server.sh 脚本
      b. 访问Hawk管理界面（缺省端口为20090），例如：http://localhost:20090/

4, 抓取网页
a. 编辑一个文本文件，录入要抓取网站地址，并放入一个独立的目录中，
如：vi /tmp/test/urls.txt 录入 http//www.sina.com.cn

b. 执行命令：$HAWK/bin/hawk crawl /tmp/test/ -depth 2 （指定抓取深度为2层网页）

c. 点击管理界面上方的“任务”按钮，可以监控任务的执行情况，如下

d. 完成后控制台显示如下所示：

5，检索网页

a. 在管理界面的搜索框中输入要检索的关键词，点击“搜索”按钮，即可查询到上面
抓取的网页，如下所示：

到此基本介绍完了搜索引擎平台的使用步骤，由于还未完成分词等模块，所以相关性还不
尽入如人意，敬请期待，谢谢！

作者：naven 2008-02-20

posted on 2008-02-21 01:29 Javen-Studio 阅读(848) 评论(3) 编辑收藏引用

# re: Hawk-0.4.35开发版搜索引擎平台发布 2008-02-25 10:21 Puserchen

期待下面的举措！回复更多评论

# re: Hawk-0.4.35开发版搜索引擎平台发布 2008-03-04 02:44 Connor

Hello,

I am Connor Avery and I am interested in your search alot.
I am Ceo of Crystal Productions and I am offering you the chance to come work alongside me?

E-Mail me: cjavo@hotmail.co.uk

Note: I translated this page by google, I do not speak chineese. 回复更多评论

# re: Hawk-0.4.35开发版搜索引擎平台发布 2008-03-04 10:21 Javen-Studio

To Connor, Thanks for your interested in my project, Sorry I dosent plan to go abroad in the near future, but I will persist in this project. thanks for your invitation. 回复更多评论

刷新评论列表

只有注册用户登录后才能发表评论。
【推荐】100%开源！大型工业跨平台软件C++源码提供，建模，组态！



网站导航: 博客园 IT新闻 BlogJava 博问 Chat2DB 管理

Javen-Studio 咖啡小屋

常用链接

留言簿(42)

文章档案

blogs

friends

myblogs

最新评论

评论