页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。

...

注意
title文档环境

集群部署数据挖掘组件环境如下:

服务器IP主机名组件实例部署目录
10.10.35.6410-10-35-64数据挖掘-1,Zookeeper-1,Python-1/data
10.10.35.6510-10-35-65数据挖掘-2,Spark-1Hadoop-1/data
10.10.35.6610-10-35-66Spark-2,Zookeeper-2,Hadoop-2/data
10.10.35.6710-10-35-67Spark-3,Zookeeper-3Hadoop-3,Python-2/data
10.10.204.25010-10-204-250Smartbi-Proxy/data



注意
title注意事项

数据挖掘数据量2000万以下时,可以不单独部署hadoop组件,提高数据挖掘服务器配置即可

1、系统环境准备

1.1 防火墙配置

为了便于安装,建议在安装前关闭防火墙。使用过程中,为了系统安全可以选择启用防火墙,但必须启用服务相关端口。

...

代码块
languagebash
tar -zxvf hadoop-3.2.23.tar.gz -C /data


2.4.3.修改Hadoop配置

...

代码块
languagebash
cd /data/hadoop-3.2.23/etc/hadoop
vi hadoop-env.sh

...

代码块
languagebash
cd /data/hadoop-3.2.23/etc/hadoop
vi core-site.xml

...

修改hdfs-site.xml

代码块
cd /data/hadoop-3.2.23/etc/hadoop
vi hdfs-site.xml

...

代码块
languagebash
linenumberstrue
cd /data/hadoop-3.2.23/etc/hadoop
vi hadoop-policy.xml

...

代码块
languagebash
cd /data/hadoop-3.2.23/etc/hadoop
vi workers

把所有datanode节点的机器名加到worker文件,参考如下:

...

代码块
languagebash
scp -r /data/hadoop-3.2.23  root@10-10-35-66:/data/
scp -r /data/hadoop-3.2.23  root@10-10-35-67:/data/


2.4.4.配置Hadoop环境变量

...

代码块
languagebash
export HADOOP_HOME=/data/hadoop-3.2.23
export PATH=$PATH:$HADOOP_HOME/bin

...

代码块
languagebash
cd /data/hadoop-3.2.23/ 
./bin/hdfs namenode -format

...

代码块
languagebash
cd /data/hadoop-3.2.23/ 
./sbin/start-dfs.sh


③创建中间数据存储目录

...

代码块
languagebash
cd /data/hadoop-3.2.23/
./sbin/stop-dfs.sh

启动Hadoop集群

代码块
languagebash
cd /data/hadoop-3.2.23/
./sbin/start-dfs.sh

查看日志
Hadoop的日志路径:/data/hadoop-3.2.23/logs
安装部署或者使用中有问题,可能需要根据日志来分析解决。

...