1、安装 JDK 8 以上版本,
ORACLE,需要设置环境变量JAVA_HOME; 下载安装Mvnen,
down maven,将mvn路径加入到环境变量Path
2、下载并安装Elasticsearch 5.2.2,
elastic.co ,版本必须是5.2.2,不要选最新的。
3、安装ansj-elasticsearch插件,
github;这里不需要编译安装,直接下载插件
进入Elasticsearch目录运行如下命令 ./bin/elasticsearch-plugin install https://github.com/NLPchina/elasticsearch-analysis-ansj/releases/download/v5.2.2/elasticsearch-analysis-ansj-5.2.2.0-release.zip
运行Elasticsearch
4、安装Tomcat 8,
Apache Tomcat,安装路径中不能有空格,最好是英文目录
5、下载本项目源码包
spider main/src/resource/staticvalue.json 配置文件, 将 needEs 配置项改为true
main/src/resource/mvc-dispatcher-servlet.xml 配置文件,找到输出源配置项,按照下面进行配置:
<property name="pipelineList">
<list>
<ref bean="commonWebpagePipeline"/>
<!--<ref bean="jsonFilePipeline"/>-->
</list>
</property>
这样的配置就是不再向Json文件进行输出,而将数据输出至ES进行存储.
执行 mvn package 编译打包
6、将spider.war放入Tomcat下面的webapp文件夹
运行tomcat
7、安装
phantomjs,然后下载脚本https://raw.githubusercontent.com/gsh199449/spider/master/ajaxDownloader/phantomjs_fetcher.js。
建议将此脚本放在phantomjs的bin目录下。需要注意的是,phantomjs需要安装在不包含空格和中文的路径下。
安装完毕之后,使用phantomjs启动此脚本即可,启动时需要带一个端口参数,建议值:7788.启动命令:
phantomjs.exe phantomjs_fetcher.js 7788 如果ajax渲染器与采集平台不在同一台机器或者不使用此端口(7788),需要在src/resource/staticvalue.json 配置文件中修改。
8、localhost:8080/spider进入数采页面(需要启动
Elasticsearch、tomcat、phantomjs)
注意:Elasticsearch版本必须是5.2.2,tomcat的安装目录必须不能有空格。