아침바라기의 이야기

Apache Spark 설치법 on Windows 본문

개발이야기/Apache Spark

Apache Spark 설치법 on Windows

아침바라기 2014. 12. 13. 23:57

바야흐로 빅 데이터의 시대...

그 시대의 흐름에 발맞춰 사용하기 쉽고 가벼운 유행을 잘 다르고 있는 Spark.

헌데 윈도우에서 스파크를 사용할 수 있다고 하는데 그 어딜 봐도 설치하는 방법에 대해 설명하는 곳은 없다!

으허어허어허허어허엏어헝허어허엉ㅠㅠ

그래서 본인은  windows에 스파크(이 스파크가 아님)  설치 방법에 대해서 알아보자. (windows7에서 테스트 했습니다.)

(다 해보면 리눅스에서 그냥 하고 말겠다는 생각이 든다...-_-)


- Windows 7

- Spark Standalone deploy


1) java 설치 

JDK 6.0 이상이 필요하다. 

다운로드 URL : http://www.oracle.com/technetwork/java/javase/downloads/index.html?ssSourceSiteId=ocomen

2) Git 설치 

Git Client가 필요하다 빌드하거나 Spark 빌드 등을 하다보면 종종 git 에서 다운로드 등을 한다.

다운로드 URL :  http://git-scm.com/download

3) maven 설치 

Spark를 다운받고 빌드할때 필요하다. 

시스템 환경변수 Path에 메이븐설치위치/bin을 걸어두면 빌드할때 참으로 편하다.  

다운로드 URL : http://maven.apache.org/download.cgi

4) 스칼라 설치  

Spark가 스칼라로 만들어져 있으니 당연히 다운로드 받아야겠죠?^^ 

사용자와 interactive 인터페이스를 제공하니 어쩔 수 없이 깔긴해야 합니다..-_-;

(파..파이썬도 있는데....(...몰라요. 안되면 설치하세요(먼산)))

다운로드 URL :  http://www.scala-lang.org/

5) Spark 다운로드 및 빌드

당연히 Spark 다운로드 해야겠죠? 윈도우에서 사용하려면 사용하는 빌드하는걸 권장한다고 합니다.(저는 빌드해서 쓰기땜시로...)

다운로드 URL : http://spark.apache.org/downloads.html

   위 처럼 선택해서 Download Spark를 클릭하고 다운로드 받은뒤 압축풀어주세요~

  5-1) 빌드

      1. ${Spark 설치위치}/bin은 시스템 환경변수 Path에 등록합시다.

2. 메이븐 설치 폴더/bin 에 mvn.bat에 아래 옵션을 추가합니다. (공식홈에는 2g로 추가하라고 하는데..그건 리눅스 얘기고(....) 저는 임의값으로 빌드 테스트 하다가 이정도 값이면 컴파일 됨을 확인했습니다............참고로 근거따윈 없습니다.-_-)

     - set MAVEN_OPTS="-Xmx384M -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"

     - 참고 : http://spark.apache.org/docs/latest/building-with-maven.html

       3. 아래 처럼 수행

$ mvn -Dhadoop.version=1.2.1 -DskipTests clean package 

(하둡 1.2.1일 때 옵션입니다 자세한건  URL을 참고 합시다)

  5-2 ) 실행

공식홈페이지에서 확인 해보면 

 ./sbin/start-master.sh

라고 하는데 이딴거 안됩니다.(.....)

윈도우는 지원이 허약해서 bat 파일 같은거 없고. master랑 work 를 모두 사용자가 입력해줘야 합니다. 

(spark 설치 폴더/bin 에서 수행해야합니다.)

$ spark-class.cmd org.apache.spark.deploy.master.Master 

이후 http://localhost:8080/ 접속

Spark Master at .... 이라고 쓰여진 ....에 있는 spark:// 를 work 실행 파라미터로 입력해야 합니다. 아래 처럼요.

spark-class.cmd org.apache.spark.deploy.worker.Worker spark://???.???.???.???:7077


자 이제 Apache Spark로 설치 및 수행할 수 있는 준비가 끝났습니다.

이제 spark 의 세계로 고고고!! 무브무브!