일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- RoR
- mysql
- Hadoop
- Shell
- Migration
- Ruby
- Rails
- 삽질기
- Linux
- transaction
- activerecord
- fixture
- Scala
- carrierwave
- java
- Ruby on Rails
- 전화영어
- form
- programmingTip
- minitest
- programming
- share
- rubyonrails
- fileUploader
- uploader
- apache spark
- max중첩
- test
- TIP
- 점심영어스터디
- Today
- Total
아침바라기의 이야기
Apache Spark 설치법 on Windows 본문
바야흐로 빅 데이터의 시대...
그 시대의 흐름에 발맞춰 사용하기 쉽고 가벼운 유행을 잘 다르고 있는 Spark.
헌데 윈도우에서 스파크를 사용할 수 있다고 하는데 그 어딜 봐도 설치하는 방법에 대해 설명하는 곳은 없다!
으허어허어허허어허엏어헝허어허엉ㅠㅠ
그래서 본인은 windows에 스파크(이 스파크가 아님) 설치 방법에 대해서 알아보자. (windows7에서 테스트 했습니다.)
(다 해보면 리눅스에서 그냥 하고 말겠다는 생각이 든다...-_-)
- Windows 7
- Spark Standalone deploy
1) java 설치
JDK 6.0 이상이 필요하다.
다운로드 URL : http://www.oracle.com/technetwork/java/javase/downloads/index.html?ssSourceSiteId=ocomen
2) Git 설치
Git Client가 필요하다 빌드하거나 Spark 빌드 등을 하다보면 종종 git 에서 다운로드 등을 한다.
다운로드 URL : http://git-scm.com/download
3) maven 설치
Spark를 다운받고 빌드할때 필요하다.
시스템 환경변수 Path에 메이븐설치위치/bin을 걸어두면 빌드할때 참으로 편하다.
다운로드 URL : http://maven.apache.org/download.cgi
4) 스칼라 설치
Spark가 스칼라로 만들어져 있으니 당연히 다운로드 받아야겠죠?^^
사용자와 interactive 인터페이스를 제공하니 어쩔 수 없이 깔긴해야 합니다..-_-;
(파..파이썬도 있는데....(...몰라요. 안되면 설치하세요(먼산)))
다운로드 URL : http://www.scala-lang.org/
5) Spark 다운로드 및 빌드
당연히 Spark 다운로드 해야겠죠? 윈도우에서 사용하려면 사용하는 빌드하는걸 권장한다고 합니다.(저는 빌드해서 쓰기땜시로...)
다운로드 URL : http://spark.apache.org/downloads.html
위 처럼 선택해서 Download Spark를 클릭하고 다운로드 받은뒤 압축풀어주세요~
5-1) 빌드
1. ${Spark 설치위치}/bin은 시스템 환경변수 Path에 등록합시다.
2. 메이븐 설치 폴더/bin 에 mvn.bat에 아래 옵션을 추가합니다. (공식홈에는 2g로 추가하라고 하는데..그건 리눅스 얘기고(....) 저는 임의값으로 빌드 테스트 하다가 이정도 값이면 컴파일 됨을 확인했습니다............참고로 근거따윈 없습니다.-_-)
- set MAVEN_OPTS="-Xmx384M -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"
- 참고 : http://spark.apache.org/docs/latest/building-with-maven.html
3. 아래 처럼 수행
$ mvn -Dhadoop.version=1.2.1 -DskipTests clean package
(하둡 1.2.1일 때 옵션입니다 자세한건 이 URL을 참고 합시다)
5-2 ) 실행
공식홈페이지에서 확인 해보면
./sbin/start-master.sh
라고 하는데 이딴거 안됩니다.(.....)
윈도우는 지원이 허약해서 bat 파일 같은거 없고. master랑 work 를 모두 사용자가 입력해줘야 합니다.
(spark 설치 폴더/bin 에서 수행해야합니다.)
$ spark-class.cmd org.apache.spark.deploy.master.Master
이후 http://localhost:8080/ 접속
Spark Master at .... 이라고 쓰여진 ....에 있는 spark:// 를 work 실행 파라미터로 입력해야 합니다. 아래 처럼요.
spark-class.cmd org.apache.spark.deploy.worker.Worker spark://???.???.???.???:7077
자 이제 Apache Spark로 설치 및 수행할 수 있는 준비가 끝났습니다.
이제 spark 의 세계로 고고고!! 무브무브!