100day’s blog

思いついた事や、プログラミングの毎日の作業工程を短めにまとめてます。

「はじめてのHadoop」その1 意味をわからずともwordcountをmacでやってみる。

ビッグデータと向き合わずに小さなシステム開発を幸せにおくりましたとさ・・・・

ちゃんんちゃん・・・

 

とは、いかない現実を突きつけられそう。

 

Apache Hadoopは大規模データの分散処理を支えるオープンソースのソフトウェアフレームワークであり、Javaで書かれている。 Hadoopはアプリケーションが数千ノードおよびペタバイト級のデータを処理することを可能としている。

 

- ビッグデータを扱える分散処理技術

- Apache HadoopOSS

- googleの検索などをモチーフにしてる

 

とも他で見た記憶がある。

 

qiita.com

 

この中で

分散ファイルシステムHDFSは複数のコンピュータのローカルディスクを、一つのストレージのように扱います。ローカルディスクを扱うのと同じ方法で分散ストレージを使えるので、特にユーザーが意識する事はありません。

の部分はwordcountのチュートリアルをやってみれば実感できる。

MapReduceとか気になる言葉はあるが、とりあえず手元のPCで実行して確認してみたい。

 

macでwordcount

qiita.com

 

基本こちらを参考にしてみたが、若干わかりにくい部分もあるので

qiita.com

こちらも参考にした。

 

疑似分散まではやらなかった。以下メモ

 

下記にインストールされた状況、特にパスを設定せずそのディレクトリで作業してみた。

 

/usr/local/cellar/hadoop/3.1.0

 

cd /usr/local/cellar/hadoop/3.1.0

 

bin/hadoop fs -mkdir input

 

vi sample.txt

red blue yellow red <- これ入力

 

viを抜けたあとでコピー

 

bin/hadoop -fs -put sample.txt input/

 

wordcount 実施

bin/hadoop jar libexec/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.0.jar wordcount input/ output/

 

出力の確認

 

bin/hadoop fs -cat output/part-r-0000

 

 ローカルディスクを、一つのストレージのように扱いますの意味がなんとなくわかった。