Clouderaのチュートリアルでビッグデータクラスタをセットアップ

Clouderaのチュートリアルでビッグデータクラスタをセットアップのイメージ画像
目次

Clouderaのチュートリアルでビッグデータクラスタをセットアップ

CDHは、Clouderaが提供する100%オープンソースプラットフォームのディストリビューションです。Apache Hadoopも含まれており、企業ニーズに対応できるよう特別に構築されているため、企業で必要なものがすぐに利用できるようになっています。 Clouderaでは、Hadoopを他の重要なオープンソースプロジェクトと統合し、機能的に高度なシステムを構築しました。このシステムにより、エン ドツーエンドのビックデータワークフローが実行できるようになっています(詳細はこちら https://www.cloudera.com/products/open-source/apache-hadoop/key-cdh-components.html)。 今回は、CloudSigma上でCloudera CDHを利用し、3ノードクラスタを作成する方法を紹介します。まず、CloudSigmaドライブライブラリからプリインストールされたOSを使用して 数分で作成できる3つのノードが必要となります。

ノードをセットアップする

Clouderaのチュートリアルを始めるには、CloudSigma WebAppにログインして「Compute」に進んでください。次に「Create」をクリックし、「Properties」にてマシンに名前をつけま す。ここでは名前を「machine1」とします。スライドを使って必要なRAMとCPUのパラメーターを準備します。RAMは16GB、CPUは 20GHzで適切な構成になると思います。ここで「Optimize for Linux VM」を選ぶと、自動的に詳細が設定されます。

ノードをセットアップする イメージ

次に「Drives」タブに移動し、「Attach Drive」のプルダウンから「Drive From Library」を選択します。今回は、Ubuntu 16.04 LTSのクローンを作成します。SSHのセットアップには、PuTTY Key Generatorソフトウェアを使って公開鍵と秘密鍵のペアを生成することが可能です。鍵を生成したらWebAppの「SSH Keys」タブに移動し、「Add」をクリックします。そこで鍵に名前をつけ、Key Generatorから公開鍵をコピー&ペーストします。最後に、上部にある「Save」をクリックすればマシンが作成されます。 次に、左側の「Storage」タブへと移動します。ここでマシンのストレージ容量を増やすことができます。今回は256GBとしておきます。

イメージ

他のノードを作成するには、machine1をクローンし、そのクローンを好きな名前に変更します。これは「Compute」のセクションで行います。今回はmachine1を2回クローンし、新しいVMにmachine2、machine3という名前をつけます。 ここでマシンを起動します。各マシンの上部にある「run」ボタンをクリックすると、すべてのマシンが立ち上がり稼働します。 他のノードを作成するには、machine1をクローンし、そのクローンを好きな名前に変更します。これは「Compute」のセクションで行います。今回はmachine1を2回クローンし、新しいVMにmachine2、machine3という名前をつけます。 ここでマシンを起動します。各マシンの上部にある「run」ボタンをクリックすると、すべてのマシンが立ち上がり稼働します。

SSH Keyを追加する

次に、PuTTYを使用して各マシンにログインします。作成したSSH Keyとユーザー名「cloudsigma」でログインしましょう。各マシンで「cdh」といったようなsudoerユーザーを作成します。ここでは次のコマンドが使えます。

> sudo adduser cdh
> sudo usermod -aG sudo cdh

machine1に移動し、次のコマンドを入力します。

> sudo vi /etc/hosts

i を押して挿入モードにし、各マシンのIPをこのファイルに追加します。

  • IP_ADDRESS_1 machine1.cloudsigma.cdh machine1
  • IP_ADDRESS_2 machine2.cloudsigma.cdh machine2
  • IP_ADDRESS_3 machine3.cloudsigma.cdh machine3

wq!コマンドを使ってファイルを保存します。すべてのマシンでこの手順を実施してください。

注:テキストエディタNanoを利用することも可能です。その場合、コマンドはsudo nano /etc/hostsとなります。

Cloudera Manager and Servicesをインストールする

CDH Managerの入手方法 まず、https://www.cloudera.com/downloads/manager.html にアクセスし、必要なバージョンを選択します。今回は現時点での最新版となる6.3.0を選択し、「GET IT NOW」をクリックします。その後詳細を入力し、利用規約に同意します。

Clouderaサインインイメージ

リンクが入手できたので、ホストで実行してみましょう。

> wget http://archive.cloudera.com/cm5/installer/5.14.1/cloudera-manager-installer.bin
> chmod u+x cloudera-manager-installer.bin
> sudo ./cloudera-manager-installer.bin

これでセットアップが始まります。規約に同意するとホストにCloudera Managerがインストールされます。

イメージ

Cloudera Managerでクラスタをセットアップする

Cloudera Managerがインストールされたので、マシンから次のURLにアクセスします。 http://IP_ADDRESS_1:7180 このURLでCloudera Managerが開きます。最初はユーザー名「admin」、パスワード「admin」でログインし、セキュリティ担保のため変更しておいてください。規 約に同意し、次のページで必要なパッケージを選びます。今回は「Cloudera Enterprise Cloudera Enterprise Trial」を選択します。

Cloudera Managerでクラスタをセットアップする イメージ

「Specify hosts」のページでは、今回「machine[1-3].CloudSigma.cdh」と入力します。すると自動的にすべてのホストマシンが検索さ れます。マシンを選択して「Continue」をクリックし、次のリポジトリページではデフォルトのままにしておきます。 次に「Install JDK (Java Development Kit)」を選択すると、インストーラーが各マシンにJDKをインストールします。マルチユーザーモードのままにしておくと、hdfs、hbaseなど別 のユーザーが作成できます。 「Login Credentials」のページでは、ユーザー名「cdh」、パスワードは自分で設定したものを入力します。するとインストールページで次のようなエ ラーが表示されます。

修復するには、全ホストマシンの/etc/hostsファイルを開き、次の1行を追加します。 IP_ADDRESS_1 rev-213.189.61.172-static.atman.pl また、/etc/hostsファイルから次の1行を削除します。 127.0.0.1 localhost 次のページで、クラスタ上にCDH 5.14.0-1.cdh5.14.0.p0.24がダウンロードされ、配布、解凍、アクティベートされます。

注:インストール中は大量のトラフィックが発生するため、IPがブラックホール化する可能性があります。ブラックホールは、マシンへの DDoS攻撃を回避するためのCloudSigmaの重要なポリシーです。これを回避するには、パーソナルアカウントマネージャーまたは24時間対応の CloudSigmaライブチャットサポートまでご連絡ください。このようなセットアップの際には、静的IPもお勧めです。

最後にホストを検査して間違いがないか確認します。それが終われば「Finish」をクリックします。

サービスをインストールする クラスタをセットアップしたら、いよいよサービスをインストールします。まずインストールするサービスのパッケージを選択します。今回は、HDFS、 YARN(MapReduce 2を含む)、ZooKeeper、Oozie、Hive、Hueが含まれている「Core Hadoop」を選びます。次のページで各サービスをインストールするホストが提案されます。そのままにしておいてもいいですし、必要に応じて変更するこ とも可能です。 次にデータベースをセットアップします。今回は「Embedded」を利用しますが、カスタムデータベースを追加することも可能です。「Test Connections」をクリックし、「Continue」を押してください。 次に、HDFSのブロックサイズやデータノード、ネームノードディレクトリなどの詳細を確認します。「Continue」をクリックすると、サービスが設 定されます。

イメージ

次のページで、「The services are installed, configured, and running on your cluster(クラスタ上にサービスがインストール、構成され、実行されています)」と表示されます。

イメージ

最後に「Finish」をクリックしてクラスタを稼働させます。 追加サービスをインストールする これでクラスタが稼働しました。

追加でサービスをインストールする場合は、次の手順に従ってください。

・ クラスタの横にあるプルダウンメニューをクリックし、「Add Service」を選択します。すると、追加できるサービスのリストが表示されます。
・ 今回はリストから「Spark」を選択してみます。「Continue」をクリックし、Sparkに履歴サーバーなどの役割を割り当てます。
・ 変更を確認し、「Continue」をクリックします。
・ サービスがセットアップされました。Clouderaのチュートリアルを終了するには「Continue」をクリックします。これで次のサービスの準備ができました。

注:依存関係にあるサービスは、再起動しておくことをお勧めします。 著者:アクシェイ・ナパル(Akshay Nagpal) ビッグデータ分析と機械学習のマニア

目次