...
注意 |
---|
|
集群部署数据挖掘组件环境如下: 服务器IP | 主机名 | 组件实例 | 部署目录 |
---|
10.10.35.64 | 10-10-35-64 | 数据挖掘-1,Zookeeper-1,Python-1 | /data | 10.10.35.65 | 10-10-35-65 | 数据挖掘-2,Spark-1,Hadoop-1 | /data | 10.10.35.66 | 10-10-35-66 | Spark-2,Zookeeper-2,Hadoop-2 | /data | 10.10.35.67 | 10-10-35-67 | Spark-3,Zookeeper-3,Hadoop-3,Python-2 | /data | 10.10.204.250 | 10-10-204-250 | Smartbi-Proxy | /data |
|
注意 |
---|
|
数据挖掘数据量2000万以下时,可以不单独部署hadoop组件,提高数据挖掘服务器配置即可 |
1、系统环境准备
1.1 防火墙配置
为了便于安装,建议在安装前关闭防火墙。使用过程中,为了系统安全可以选择启用防火墙,但必须启用服务相关端口。
...
代码块 |
---|
|
tar -zxvf hadoop-3.2.23.tar.gz -C /data |
2.4.3.修改Hadoop配置
...
代码块 |
---|
|
cd /data/hadoop-3.2.23/etc/hadoop
vi hadoop-env.sh |
...
代码块 |
---|
|
cd /data/hadoop-3.2.23/etc/hadoop
vi core-site.xml |
...
④修改hdfs-site.xml
代码块 |
---|
cd /data/hadoop-3.2.23/etc/hadoop
vi hdfs-site.xml |
...
代码块 |
---|
language | bash |
---|
linenumbers | true |
---|
|
cd /data/hadoop-3.2.23/etc/hadoop
vi hadoop-policy.xml |
...
代码块 |
---|
|
cd /data/hadoop-3.2.23/etc/hadoop
vi workers |
把所有datanode节点的机器名加到worker文件,参考如下:
...
代码块 |
---|
|
scp -r /data/hadoop-3.2.23 root@10-10-35-66:/data/
scp -r /data/hadoop-3.2.23 root@10-10-35-67:/data/ |
2.4.4.配置Hadoop环境变量
...
代码块 |
---|
|
export HADOOP_HOME=/data/hadoop-3.2.23
export PATH=$PATH:$HADOOP_HOME/bin |
...
代码块 |
---|
|
cd /data/hadoop-3.2.23/
./bin/hdfs namenode -format |
...
代码块 |
---|
|
cd /data/hadoop-3.2.23/
./sbin/start-dfs.sh |
③创建中间数据存储目录
...
代码块 |
---|
|
cd /data/hadoop-3.2.23/
./sbin/stop-dfs.sh |
启动Hadoop集群
代码块 |
---|
|
cd /data/hadoop-3.2.23/
./sbin/start-dfs.sh |
查看日志
Hadoop的日志路径:/data/hadoop-3.2.23/logs
安装部署或者使用中有问题,可能需要根据日志来分析解决。
...