scrapy cluster搭建实录

来源:互联网 时间:2017-06-01

一、环境依赖

python2.7
redis
kafka(zookeeper)
scrapy cluster

二、预备工作
我的操作系统为Ubuntu

sudo ufw disable #关闭防火墙sudo apt-get install git #安装git 下载scrapy cluster用sudo apt-get install net-tools #我主要是用到ifconfig看ip用sudo apt-get install python-pip python-scrapy #不必多说sudo apt-get install vimsudo apt-get install openjdk-8-jdk-headless #kafka的依赖#dns映射sudo vim /etc/hosts

三、redis搭建

wget http://download.redis.io/releases/redis-3.0.0.tar.gz #下载redistar xzvf redis-3.0.0.tar.gz #解压cd redis-3.0.0makemake test #可能会报错 根据错误指令 apt-get install tcl解决src/redis-server redis.conf & #后台运行redis服务

四、kafka搭建

wget http://apache.fayea.com/kafka/0.10.2.1/kafka_2.10-0.10.2.1.tgztar xzvf kafka_2.10-0.10.2.1.tgzcd kafka_2.10-0.10.2.1
  1. zookeeper
vim config/zookeeper.properties#修改zookeeper配置文件,其中包括端口,dataDir等nohup ./bin/zookeeper-server-start.sh config/zookeeper.properties > logs/zookeeper.log 2>1 & #启动zk logs文件夹自己建(2>1什么鬼)#查看zookeeper.log 没有报错即为成功 (我挂在这里 各种问题 可能是防火墙,可能是权限)
  1. kafka
cd configcp server.properties server1.propertiescp server.properties server2.propertiesvim #修改就不说了cd ../bin/kafka-server-start.sh config/server1.properties & #还有server2 看你要多少喽(启动成功)bin/kafka-topics.sh start --create --zookeeper localhost:2181(按需) --replication-factor 1(可以按zk几个节点来) --partitions 1 --topic test #创建topicbin/kafka-topics.sh --describe --zookeeper localhost:2181(按需) --topic test

五、scrapy cluster

git clone http://github.com/istresearch/scrapy-cluster.gitcd scrapy-clusterpip install -r requirements.txt #安装所需插件,但是会出错,需要自行安装其他的#sudo apt-get install libssl-dev openssl libxml2-dev libxslt-dev python-dev python-nose python-coverage#pip install lxml./run_offline_tests.sh #离线测试./run_online_tests.sh #在线测试

相关阅读:
Top