「はじめてのHadoop」その1 意味をわからずともwordcountをmacでやってみる。
ビッグデータと向き合わずに小さなシステム開発を幸せにおくりましたとさ・・・・
ちゃんんちゃん・・・
とは、いかない現実を突きつけられそう。
Apache Hadoopは大規模データの分散処理を支えるオープンソースのソフトウェアフレームワークであり、Javaで書かれている。 Hadoopはアプリケーションが数千ノードおよびペタバイト級のデータを処理することを可能としている。
- ビッグデータを扱える分散処理技術
- googleの検索などをモチーフにしてる
とも他で見た記憶がある。
この中で
分散ファイルシステムHDFSは複数のコンピュータのローカルディスクを、一つのストレージのように扱います。ローカルディスクを扱うのと同じ方法で分散ストレージを使えるので、特にユーザーが意識する事はありません。
の部分はwordcountのチュートリアルをやってみれば実感できる。
MapReduceとか気になる言葉はあるが、とりあえず手元のPCで実行して確認してみたい。
macでwordcount
基本こちらを参考にしてみたが、若干わかりにくい部分もあるので
こちらも参考にした。
疑似分散まではやらなかった。以下メモ
下記にインストールされた状況、特にパスを設定せずそのディレクトリで作業してみた。
/usr/local/cellar/hadoop/3.1.0
cd /usr/local/cellar/hadoop/3.1.0
bin/hadoop fs -mkdir input
vi sample.txt
red blue yellow red <- これ入力
viを抜けたあとでコピー
bin/hadoop -fs -put sample.txt input/
wordcount 実施
bin/hadoop jar libexec/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.0.jar wordcount input/ output/
出力の確認
bin/hadoop fs -cat output/part-r-0000
ローカルディスクを、一つのストレージのように扱いますの意味がなんとなくわかった。