bigdata, with 0% java - github pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf ·...

30
bigdata, with 0% java 김태웅 [email protected]

Upload: others

Post on 30-May-2020

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

bigdata, with 0% java

김태웅 [email protected]

Page 2: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

@ python / mac /go 강제 에반젤리스트 @ S*/K* 등 통신사 쪽 경험이 多 !

!

Page 3: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

목 차what is big data what is map reduce introducing disco build your own cluster

Page 4: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

@ Volume(규모) @ Variety(다양성) @ Velocity(속도) @ Value(가치)

what is big data?

Page 5: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

@ 10년전 떡밥 : web 2.0 @ “기술적” 관점에서의 빅 데이터 - map reduce @ 데이터 기반 의사결정을 할 수 있게 해주는 보조도구 - microsoft excel?

마케팅 용어인가요?

Page 6: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

bigdata glossary(python 으로 5분 만에 만듬)

Page 7: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

what is map reduce

Page 8: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

수직 vs 수평

Page 9: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

wordcount is hello world of Map Reduce

Page 10: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

MapReduce 구현@ hadoop - 하둡 스트리밍을 이용, 여러 언어에서 사용할 수 있음 - 사실상의 표준 - 수 많은 오픈소스 프로젝트, 보조도구들 - 하지만 자바

Page 11: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

왜 하둡/자바 디스하나요?

Page 12: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

introducing disco

Page 13: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

disco @ erlang + python @ 웹UI와 잡 관리는 erlang @ 나머지는 전부 python @ 하둡보다 매우 짧은 소스코드(10배?) @ 설치가… 매우 쉬움 @ worker protocol @ 노키아에서 ville tuulos 가 시작

Page 14: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

client master slave worker

Page 15: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go
Page 16: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

DDFS @ tag based file system

Page 17: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

DDFS

Page 18: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

chain jobs

Page 19: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

chain jobs

Page 20: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

헬로 월드

Page 21: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

build your own cluster

Page 22: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

내 노트북이 리눅스다.

@ 공식 싸이트에서 Setting up Disco 따라하면 5분

Page 23: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

내 노트북이 맥북이다. @ 공식 싸이트에서 Setting up Disco 따라하면 5분 @ erlang crash dump 생기면 1주일 @ 그냥 vagrant 까세요 @ slave 노드에 pycurl 필요함 @ hostname 안 맞추면 아무것도 안됨

Page 24: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

Amazon EC2 @ starcluster : python !!

Page 25: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

docker 시도: 실패

(성공하신 분 개인적으로 연락주시면 후사하겠습니다)

Page 26: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

홈 클러스터

Page 27: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go
Page 28: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

생각 @ erlang 은 또 하나의 진입장벽이다 @ 왠만한 데이터는 DBMS가 답임 @ HBase Pig Hive 등을 만들어서 쓴다면? @ MR을 더욱 효과적으로? -> 리액 node에 slave-worker 를 띄울 수 있다면 @ MR은 전체 빅데이터 의사결정의 일부분으로 설계해야 @ 맥 프로 정말 좋음

Page 29: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

Where to Start? @ discoproject.org(massive data, minimal code) @ run tests(disco/tests) -> run_tests_python25 @ follow for -> scipy conference -> ville tuulos(founder of disco) @ NoSQL distilled(MR 설명, 인사이트에서 번역 나와있음ㅎ)

Page 30: bigdata, with 0% java - GitHub Pagespythonkr.github.io/.../pyconkr-2014-11_bigdata-0-java.pdf · 2014-09-18 · bigdata, with 0% java 김태웅 kdog@exabytes.kr @ python / mac /go

감사합니다!!