Mahout은 간단히 설명하고 빠른 설치 ㄱㄱ


1. Introduction

Hadoop환경에서 쓸 수 있는 기계학습 library모음을 제공한다. 
  또한, 관련된 Classification, Clustering, Collaborative Filtering에 관련된 기본적이고 대표적인 알고리즘들이 미리 구현되어 있다. 
  Hadoop환경이니까 당연히 Map/Reduce로 구동된다.
  2014년 1월 17일 현재 0.8버전이 최신 버전이다.


2. Installation

1) Download

$ wget http://ftp.daum.net/apache/mahout/0.8/mahout-distribution-0.8.tar.gz
역시 컴파일 따위 없다. 걍 컴파일 되어 있는거 받아서 쓰는거다.

2) Env var

$ vi ~/.bash_profile

export MAHOUT_HOME=알아서
export PATH=$PATH:$MAHOUT_HOME/bin

$ source ~/.bash_profile
$ mahout --help

3) Let's do something

(1) Data download for test

$ wget http://archive.ics.uci.edu/ml/databases/synthetic_control.data

(2) Data store to HDFS

$ hadoop fs -put synthetic_control.data /알아서HDFS/synthetic_control.data

(3) RUN!!

$ mahtout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job --input /알아서HDFS/synthetic_control.data --output /알아서HDFS/output_dir -t1 20 -t2 50 -k 5 -x 20 -ow

3. Reference

대용량 데이터 분석 및 처리를 위한 Hadoop & NoSQL / 길벗출판사
http://blog.daum.net/caisa/109

+ Recent posts