Benjamin

静以修身,俭以养德,非澹薄无以明志,非宁静无以致远。
随笔 - 397, 文章 - 0, 评论 - 196, 引用 - 0
数据加载中……

数据采集搜索平台 Gather Platform(网络爬虫)在win10部署

1、安装 JDK 8 以上版本, ORACLE,需要设置环境变量JAVA_HOME; 下载安装Mvnen,down maven,将mvn路径加入到环境变量Path
2、下载并安装Elasticsearch 5.2.2, elastic.co ,版本必须是5.2.2,不要选最新的。
3、安装ansj-elasticsearch插件, github;这里不需要编译安装,直接下载插件
     进入Elasticsearch目录运行如下命令 ./bin/elasticsearch-plugin install https://github.com/NLPchina/elasticsearch-analysis-ansj/releases/download/v5.2.2/elasticsearch-analysis-ansj-5.2.2.0-release.zip
     运行Elasticsearch
4、安装Tomcat 8, Apache Tomcat,安装路径中不能有空格,最好是英文目录
5、下载本项目源码包  spider
       main/src/resource/staticvalue.json 配置文件, 将 needEs 配置项改为true
       main/src/resource/mvc-dispatcher-servlet.xml 配置文件,找到输出源配置项,按照下面进行配置:
     <property name="pipelineList">
         <list>
             <ref bean="commonWebpagePipeline"/>
             <!--<ref bean="jsonFilePipeline"/>-->
         </list>
     </property>
      这样的配置就是不再向Json文件进行输出,而将数据输出至ES进行存储.
      执行 mvn package 编译打包
6、将spider.war放入Tomcat下面的webapp文件夹
     运行tomcat
7、安装phantomjs,然后下载脚本https://raw.githubusercontent.com/gsh199449/spider/master/ajaxDownloader/phantomjs_fetcher.js。
     建议将此脚本放在phantomjs的bin目录下。需要注意的是,phantomjs需要安装在不包含空格和中文的路径下。 
     安装完毕之后,使用phantomjs启动此脚本即可,启动时需要带一个端口参数,建议值:7788.启动命令:phantomjs.exe phantomjs_fetcher.js 7788
     如果ajax渲染器与采集平台不在同一台机器或者不使用此端口(7788),需要在src/resource/staticvalue.json 配置文件中修改。
8、localhost:8080/spider进入数采页面(需要启动Elasticsearch、tomcat、phantomjs)

注意:Elasticsearch版本必须是5.2.2,tomcat的安装目录必须不能有空格。

posted on 2019-01-05 21:40 Benjamin 阅读(815) 评论(0)  编辑 收藏 引用 所属分类: 杂谈


只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   知识库   博问   管理