code学习

CDH 部署教程

CDH 介绍

CDH 全称 Cloudera’s Distribution Including Apache Hadoop,是 Cloudera 公司提供的一个 Apache Hadoop 发行版。CDH 将 Hadoop 与其他十几个关键的开源项目集成,并且加入了集群自动化安装、中心化管理、集群监控、报警等功能。通过 CDH 可以使集群的安装从几天的时间缩短为几个小时。

CDH 部署教程

Cloudera Manager Server 节点提供 WebUI 操作界面,管理 Cloudera Manager Agent 节点,在运行 Agent 的机器上部署大数据相关组件。

IP 地址 主机名 角色 硬件配置 操作系统
192.168.1.215 cm-server Server,Agent 4C8G Centos7
192.168.1.216 cm-agent-1 Agent
192.168.1.217 cm-agent-2
192.168.1.14 cm-mysql 数据库

安装包下载

CDH 的官方网站现在已经无法直接下载安装包了(需要账号密码),这里提供之前下载的安装包。百度网盘链接:

https://pan.baidu.com/s/1dVk2j_UBtorQ4vyBda8nrA

密码: 1bsr

CDH 部署教程

为了方便在机器之间拷贝数据文件,将 cm-server 的公钥拷贝到其他两台 cm-agent 机器上,实现免密登录。后续需要拷贝的文件都是在 cm-server 上先配置好,然后通过 scp 命令拷贝到其他两台机器上。

在 cm-server 节点上生成公钥:

[root@cm-server ~]# ssh-keygen 
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa): 
Enter passphrase (empty for no passphrase): 
Enter same passphrase again: 
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
The key fingerprint is:
SHA256:57wmDSyaKv2aq487Y9mSgdMCU5A6HSnrXUn4HC6PFuM root@cm-server
The key's randomart image is:
+---[RSA 2048]----+
|.o ..            |
|o +. o           |
|.= .= o          |
|* .+ *           |
|++o B  .S .      |
|+o.E .. o+       |
| +*  o . oo      |
|+*.oo   . o.     |
|=BB=.    o.      |
+----[SHA256]-----+      

拷贝公钥至其他两台机器:

[root@cm-server ~]# ssh-copy-id root@192.168.1.215
[root@cm-server ~]# ssh-copy-id root@192.168.1.216      

以下步骤除非在括号内注明了在哪台机器上操作,否则都需要在三台机器上执行。

配置 Host 文件

配置 host 文件,集群节点间通信都使用主机名。

#vim /etc/hosts
192.168.1.215 cm-server
192.168.1.216 cm-agent-1
192.168.1.217 cm-agent-2      

配置完毕后拷贝文件到其他两台机器。

[root@cm-server ~]# scp /etc/hosts cm-agent-1:/etc/hosts
[root@cm-server ~]# scp /etc/hosts cm-agent-2:/etc/hosts      

关闭 SeLinux

执行 getenforce 指令查看 selinux 状态:

[root@cm-server ~]# getenforce 
Permissive      

如果输出为 Enforcing,则需要处理一下,否则可以跳过这一步。修改 /etc/selinux/config 文件,将

SELINUX=enforcing

修改为

SELINUX=disabled

,使用以下命令修改并立即生效:

[root@cm-server ~]# sed -i s/SELINUX=enforcing/SELINUX=disabled/g /etc/selinux/config 
[root@cm-server ~]# setenforce 0      

配置时间同步

所有服务器都以 cm-server 作为 NTP 服务器,修改 /etc/chrony.conf 文件,配置如下:

# Use public servers from the pool.ntp.org project.
# Please consider joining the pool (http://
server cm-server iburst
# Record the rate at which the system clock gains/losses time.
driftfile /var/lib/chrony/drift
# Allow the system clock to be stepped in the first three updates
# if its offset is larger than 1 second.
makestep 1.0 3
# Enable kernel synchronization of the real-time clock (RTC).
rtcsync
# Enable hardware timestamping on all interfaces that support it.
#hwtimestamp *
# Increase the minimum number of selectable sources required to adjust
# the system clock.
#minsources 2
# Allow NTP client access from local network.
allow 192.168.1.0/24
# Serve time even if not synchronized to a time source.
local stratum 10
# Specify file containing keys for NTP authentication.
#keyfile /etc/chrony.keys
# Specify directory for log files.
logdir /var/log/chrony
# Select which information is logged.
#log measurements statistics tracking      

修改完成后重启 chronyd 服务并配置随机启动:

[root@cm-server ~]# systemctl restart chronyd && systemctl enable chronyd      

检查时间状态:

[root@cm-server ~]# chronyc sources
210 Number of sources = 1
MS Name/IP address         Stratum Poll Reach LastRx Last sample               
===============================================================================
^* cm-server                    10   6   377    77   +445ns[  -16us] +/-   26us
[root@cm-agent-1 ~]# chronyc sources
210 Number of sources = 1
MS Name/IP address         Stratum Poll Reach LastRx Last sample               
===============================================================================
^* cm-server                    11   6    17    27  -1082ns[-3591ns] +/-   45ms
[root@cm-agent-2 ~]# chronyc sources
210 Number of sources = 1
MS Name/IP address         Stratum Poll Reach LastRx Last sample               
===============================================================================
^* cm-server                    11   6    17    27    -18us[  +48us] +/-   47ms      

主机参数配置

CDH Manager 需要做一些 Linux 系统层面的优化,主要包括两类:禁止透明大页面及交换分区设置。详情请参考 Cloudera 官方网址。

修改swappiness

vm.swappiness 参数可以调整机器使用内存、交互分区的比例。vm.swappiness 的取值范围在 0-100 之间,当 vm.swappiness 为 0 时,表示最大限度地使用物理内存,而后使用 swap 空间;当 swappiness 为 100 时,表示最大限度地使用 swap 空间,把内存中的数据及时搬运到 swap 空间中去。

[root@cm-server ~]# echo vm.swappiness=0 >>  /etc/sysctl.conf 
[root@cm-server ~]# sysctl -p      

关闭透明大页面

大多数 Linux 平台都包含一个称为透明大页面的功能,该功能与 Hadoop 工作节点的交互很差,并且会严重降低性能。

查看透明大页是否启用,[always] never 表示已启用,always [never] 表示已禁用。

[root@cm-server ~]#  cat /sys/kernel/mm/transparent_hugepage/defrag
always madvise [never]      

如果是启用状态,则执行以下操作关闭透明大页面:

[root@cm-server ~]# echo never > /sys/kernel/mm/transparent_hugepage/enabled
[root@cm-server ~]# echo never > /sys/kernel/mm/transparent_hugepage/defrag      

并将以上命令添加到 /etc/rc.d/rc.local 文件中,使系统重启时依然生效。

关闭防火墙

systemctl disable firewalld
systemctl stop firewalld      

安装 Python

Centos7 默认已经安装了 Python 2.7.5 版本,如果没有安装则使用以下命令安装:

yum install python275      

安装 JDK

下载 JDK 安装包:

https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html

安装 JDK:

rpm -ivh jdk-8u211-linux-x64.rpm      

配置 JAVA 环境变量, 在 /etc/profile 中追加以下内容:

export JAVA_HOME=/usr/java/default
export CLASSPATH=./:$JAVA_HOME/lib
export PATH=$JAVA_HOME/bin:$PATH      

安装 MySQL 数据库(cm-mysql)

下载安装包

MySQL 5.7 Linux 安装包下载地址:

https://dev.mysql.com/downloads/mysql/5.7.html
CDH 部署教程

查询并卸载系统自带的 Mariadb

rpm -qa | grep mariadb
rpm -e --nodeps 文件名      

创建 mysql 用户

为了方便数据库管理,对于安装的 MySQL 数据库,生产上我们都会建立一个 mysql 用户和 mysql 用户组:

# 添加mysql用户组
groupadd mysql
# 添加mysql用户
useradd -g mysql mysql -d /home/mysql
# 修改mysql用户的登陆密码
passwd mysql      

创建临时目录,数据目录和日志目录:

mkdir -p /home/mysql/3306/data
mkdir -p /home/mysql/3306/log
mkdir -p /home/mysql/3306/tmp      

将下载的安装包移至 /usr/local 目录

# 解压缩
tar -xvf mysql-5.7.32-linux-glibc2.12-x86_64.tar
# 会得到一个mysql-5.7.32-linux-glibc2.12-x86_64.tar.gz文件,再解压缩
tar -zxvf mysql-5.7.32-linux-glibc2.12-x86_64.tar.gz -C /usr/local/mysql
# 修改mysql文件夹下所有文件的用户和用户组
chown -R mysql:mysql /usr/local/mysql      

创建配置文件

vim /etc/my.cnf:

[client]                                        # 客户端设置,即客户端默认的连接参数
port = 3306                                    # 默认连接端口
socket = /home/mysql/3306/tmp/mysql.sock                        # 用于本地连接的socket套接字,mysqld守护进程生成了这个文件
[mysqld]                                        # 服务端基本设置
# 基础设置
server-id = 1                                  # Mysql服务的唯一编号 每个mysql服务Id需唯一
port = 3306                                    # MySQL监听端口
basedir = /usr/local/mysql                      # MySQL安装根目录
datadir = /home/mysql/3306/data                      # MySQL数据文件所在位置
tmpdir  = /home/mysql/3306/tmp                                  # 临时目录,比如load data infile会用到
socket = /home/mysql/3306/tmp/mysql.sock        # 为MySQL客户端程序和服务器之间的本地通讯指定一个套接字文件
pid-file = /home/mysql/3306/log/mysql.pid      # pid文件所在目录
skip_name_resolve = 1                          # 只能用IP地址检查客户端的登录,不用主机名
character-set-server = utf8mb4                  # 数据库默认字符集,主流字符集支持一些特殊表情符号(特殊表情符占用4个字节)
transaction_isolation = READ-COMMITTED          # 事务隔离级别,默认为可重复读,MySQL默认可重复读级别
collation-server = utf8mb4_general_ci          # 数据库字符集对应一些排序等规则,注意要和character-set-server对应
init_connect='SET NAMES utf8mb4'                # 设置client连接mysql时的字符集,防止乱码
lower_case_table_names = 1                      # 是否对sql语句大小写敏感,1表示不敏感
max_connections = 400                          # 最大连接数
max_connect_errors = 1000                      # 最大错误连接数
explicit_defaults_for_timestamp = true          # TIMESTAMP如果没有显示声明NOT NULL,允许NULL值
max_allowed_packet = 128M                      # SQL数据包发送的大小,如果有BLOB对象建议修改成1G
interactive_timeout = 1800                      # MySQL连接闲置超过一定时间后(单位:秒)将会被强行关闭
wait_timeout = 1800                            # MySQL默认的wait_timeout值为8个小时, interactive_timeout参数需要同时配置才能生效
tmp_table_size = 16M                            # 内部内存临时表的最大值 ,设置成128M;比如大数据量的group by ,order by时可能用到临时表;超过了这个值将写入磁盘,系统IO压力增大
max_heap_table_size = 128M                      # 定义了用户可以创建的内存表(memory table)的大小
query_cache_size = 0                            # 禁用mysql的缓存查询结果集功能;后期根据业务情况测试决定是否开启;大部分情况下关闭下面两项
query_cache_type = 0
# 用户进程分配到的内存设置,每个session将会分配参数设置的内存大小
read_buffer_size = 2M                          # MySQL读入缓冲区大小。对表进行顺序扫描的请求将分配一个读入缓冲区,MySQL会为它分配一段内存缓冲区。
read_rnd_buffer_size = 8M                      # MySQL的随机读缓冲区大小
sort_buffer_size = 8M                          # MySQL执行排序使用的缓冲大小
binlog_cache_size = 1M                          # 一个事务,在没有提交的时候,产生的日志,记录到Cache中;等到事务提交需要提交的时候,则把日志持久化到磁盘。默认binlog_cache_size大小32K
back_log = 130                                  # 在MySQL暂时停止响应新请求之前的短时间内多少个请求可以被存在堆栈中;官方建议back_log = 50 + (max_connections / 5),封顶数为900
# 日志设置
log_error = /home/mysql/3306/log/error.log                          # 数据库错误日志文件
slow_query_log = 1                              # 慢查询sql日志设置
long_query_time = 1                            # 慢查询时间;超过1秒则为慢查询
slow_query_log_file = /home/mysql/3306/log/slow.log                  # 慢查询日志文件
log_queries_not_using_indexes = 1              # 检查未使用到索引的sql
log_throttle_queries_not_using_indexes = 5      # 用来表示每分钟允许记录到slow log的且未使用索引的SQL语句次数。该值默认为0,表示没有限制
min_examined_row_limit = 100                    # 检索的行数必须达到此值才可被记为慢查询,查询检查返回少于该参数指定行的SQL不被记录到慢查询日志
expire_logs_days = 5                            # MySQL binlog日志文件保存的过期时间,过期后自动删除
# 主从复制设置
log-bin = mysql-bin                            # 开启mysql binlog功能
binlog_format = ROW                            # binlog记录内容的方式,记录被操作的每一行
binlog_row_image = minimal                      # 对于binlog_format = ROW模式时,减少记录日志的内容,只记录受影响的列
# Innodb设置
innodb_open_files = 500                        # 限制Innodb能打开的表的数据,如果库里的表特别多的情况,请增加这个。这个值默认是300
innodb_buffer_pool_size = 64M                  # InnoDB使用一个缓冲池来保存索引和原始数据,一般设置物理存储的60% ~ 70%;这里你设置越大,你在存取表里面数据时所需要的磁盘I/O越少
innodb_log_buffer_size = 2M                    # 此参数确定写日志文件所用的内存大小,以M为单位。缓冲区更大能提高性能,但意外的故障将会丢失数据。MySQL开发人员建议设置为1-8M之间
innodb_flush_method = O_DIRECT                  # O_DIRECT减少操作系统级别VFS的缓存和Innodb本身的buffer缓存之间的冲突
innodb_write_io_threads = 4                    # CPU多核处理能力设置,根据读,写比例进行调整
innodb_read_io_threads = 4
innodb_lock_wait_timeout = 120                  # InnoDB事务在被回滚之前可以等待一个锁定的超时秒数。InnoDB在它自己的锁定表中自动检测事务死锁并且回滚事务。InnoDB用LOCK TABLES语句注意到锁定设置。默认值是50秒
innodb_log_file_size = 32M                      # 此参数确定数据日志文件的大小,更大的设置可以提高性能,但也会增加恢复故障数据库所需的时间      

安装数据库

# 初始化数据库,并指定启动mysql的用户
/usr/local/mysql/bin/mysqld --initialize --user=mysql      

安装完成后,在 my.cnf 中配置的 /home/mysql/3306/error.log 文件里面记录了 root 用户的随机密码。

设置开机自启动服务

# 复制启动脚本到资源目录
cp /usr/local/mysql/support-files/mysql.server /etc/rc.d/init.d/mysqld
# 增加mysqld服务控制脚本执行权限
chmod +x /etc/rc.d/init.d/mysqld
# 将mysqld服务加入到系统服务
chkconfig --add mysqld
# 检查mysqld服务是否已经生效
chkconfig --list mysqld
# 启动mysql
service mysqld start      

配置环境变量

# 切换至mysql用户
su - mysql
# 修改配置文件,增加export PATH=$PATH:/usr/local/mysql/bin
vi .bash_profile
# 立即生效
source .bash_profile      

登陆并修改密码

# 登陆mysql
mysql -uroot -p
# 修改root用户密码
set password for root@localhost=password("123456");      

设置远程登录

grant all privileges on *.* to root@'%' identified by '123456';      

创建 CDH 所需数据库和用户

把后面可能用到的大数据组件的数据库和用户都提前创建好:

CDH 部署教程
CREATE DATABASE scm DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
CREATE DATABASE amon DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
CREATE DATABASE rman DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
CREATE DATABASE hue DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
CREATE DATABASE metastore DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
CREATE DATABASE sentry DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
CREATE DATABASE nav DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
CREATE DATABASE navms DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
CREATE DATABASE oozie DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
CREATE DATABASE hive DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
GRANT ALL ON scm.* TO 'scm'@'%' IDENTIFIED BY '123456';
GRANT ALL ON amon.* TO 'amon'@'%' IDENTIFIED BY '123456';
GRANT ALL ON rman.* TO 'rman'@'%' IDENTIFIED BY '123456';
GRANT ALL ON hue.* TO 'hue'@'%' IDENTIFIED BY '123456';
GRANT ALL ON metastore.* TO 'metastore'@'%' IDENTIFIED BY '123456';
GRANT ALL ON sentry.* TO 'sentry'@'%' IDENTIFIED BY '123456';
GRANT ALL ON nav.* TO 'nav'@'%' IDENTIFIED BY '123456';
GRANT ALL ON navms.* TO 'navms'@'%' IDENTIFIED BY '123456';
GRANT ALL ON oozie.* TO 'oozie'@'%' IDENTIFIED BY '123456';
GRANT ALL ON hive.* TO 'hive'@'%' IDENTIFIED BY '123456';      

拷贝 JDBC 驱动包到指定目录

cp mysql-connector-java-8.0.16.jar /usr/share/java/mysql-connector-java.jar      

安装 Clouder Manager Server(cm-server)

只在 cm-server 上安装 Clouder Manager Server。

[root@cm-server software]# yum install -y  cloudera-manager-agent-6.3.1-1466458.el7.x86_64.rpm      

安装 Clouder Manager Agent

[root@cm-agent-1 software]# yum install -y cloudera-manager-agent-6.3.1-1466458.el7.x86_64.rpm  cloudera-manager-daemons-6.3.1-1466458.el7.x86_64.rpm      

修改 Agent 配置文件:/etc/cloudera-scm-agent/config.ini 将

server_host=localhost

改为

server_host=cm-server

初始化 Clouder Manager 数据库表(cm-server)

# 命令参数
#/opt/cloudera/cm/schema/scm_prepare_database.sh [options] <databaseType> <databaseName> <databaseUser> <password>
[root@cm-server schema]# /opt/cloudera/cm/schema/scm_prepare_database.sh -h 192.168.1.14 mysql scm scm 123456
JAVA_HOME=/usr/java/default
Verifying that we can write to /etc/cloudera-scm-server
Creating SCM configuration file in /etc/cloudera-scm-server
Executing:  /usr/java/default/bin/java -cp /usr/share/java/mysql-connector-java.jar:/usr/share/java/oracle-connector-java.jar:/usr/share/java/postgresql-connector-java.jar:/opt/cloudera/cm/schema/../lib/* com.cloudera.enterprise.dbutil.DbCommandExecutor /etc/cloudera-scm-server/db.properties com.cloudera.cmf.db.
Loading class `com.mysql.jdbc.Driver'. This is deprecated. The new driver class is `com.mysql.cj.jdbc.Driver'. The driver is automatically registered via the SPI and manual loading of the driver class is generally unnecessary.
[                          main] DbCommandExecutor              INFO  Successfully connected to database.
All done, your SCM database is configured correctly!      

拷贝 Parcel 文件到指定目录(cm-server)

[root@cm-server software]# cp CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel /opt/cloudera/parcel-repo/
[root@cm-server software]# cp CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel.sha /opt/cloudera/parcel-repo/      

启动 Clouder Manager Server (cm-server)

在 cm-serer 上启动 Clouder Manager Server:

[root@cm-server software]# systemctl start cloudera-scm-server 
[root@cm-server software]# systemctl enable cloudera-scm-server      

启动 Clouder Manager Agent

在三台机器上启动 Clouder Manager Agent:

[root@cm-server software]# systemctl start cloudera-scm-agent
[root@cm-server software]# systemctl enable cloudera-scm-agent      

登录 Clouder Manager 完成集群安装

登录 Clouder ManaManagerger Server 管理界面,浏览器访问地址:

http://192.168.1.215:7180

,默认用户密码为 admin/admin。

CDH 部署教程
CDH 部署教程
CDH 部署教程
CDH 部署教程
CDH 部署教程
CDH 部署教程
CDH 部署教程
CDH 部署教程
CDH 部署教程
CDH 部署教程
CDH 部署教程
CDH 部署教程
CDH 部署教程
CDH 部署教程
CDH 部署教程
CDH 部署教程
CDH 部署教程
CDH 部署教程
CDH 部署教程