Mahout은 간단히 설명하고 빠른 설치 ㄱㄱ
1. Introduction
Hadoop환경에서 쓸 수 있는 기계학습 library모음을 제공한다.
또한, 관련된 Classification, Clustering, Collaborative Filtering에 관련된 기본적이고 대표적인 알고리즘들이 미리 구현되어 있다.
Hadoop환경이니까 당연히 Map/Reduce로 구동된다.
2014년 1월 17일 현재 0.8버전이 최신 버전이다.
2. Installation
1) Download
$ wget http://ftp.daum.net/apache/mahout/0.8/mahout-distribution-0.8.tar.gz역시 컴파일 따위 없다. 걍 컴파일 되어 있는거 받아서 쓰는거다.
2) Env var
$ vi ~/.bash_profile
export MAHOUT_HOME=알아서
export PATH=$PATH:$MAHOUT_HOME/bin
$ source ~/.bash_profile
$ mahout --help
3) Let's do something
(1) Data download for test
$ wget http://archive.ics.uci.edu/ml/databases/synthetic_control.data
(2) Data store to HDFS
$ hadoop fs -put synthetic_control.data /알아서HDFS/synthetic_control.data
(3) RUN!!
$ mahtout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job --input /알아서HDFS/synthetic_control.data --output /알아서HDFS/output_dir -t1 20 -t2 50 -k 5 -x 20 -ow
3. Reference
대용량 데이터 분석 및 처리를 위한 Hadoop & NoSQL / 길벗출판사
http://blog.daum.net/caisa/109