IT 이야기/Open Source

Apache Spark

클톡(CloudTalk) 2015. 10. 20. 00:42

Spark의 중심에는 RDD(Resilient Distributed Dataset회복성 있는 분산 데이터 세트개념이 있다이는 YARN 클러스터의 

여러 물리적 노드에서 나뉘고 분산되었으며병렬적으로 작동될 수 있는 객체들의 변경 불가능한 집합을 뜻한다.

주로 RDD은 공유된 파일 시스템, HDFS, HBase 혹은 YARN 클러스터에 하둡 InputFormat을 제공하는 데이터 소스에서 데이터를 로드할 때 인스턴스화된다.

RDD가 실체화 되면, 사용자는 일련의 연산을 적용할 수 있다. 모든 연산은 변형이나 동작 중 하나의 유형으로 나뉜다. 이름이 뜻하듯이 

변형 (Transformation) 연산은 기존의RDD에서 새로운 데이터 세트를 생성하고 

YARN 클러스터의 분할된 데이터 세트에 적용될 수 있는 DAG 처리를 구축한다. 반면 동작 (action) 연산은 DAG를 실행하고 값을 반환한다. 

'IT 이야기 > Open Source' 카테고리의 다른 글

Monitoring With AWS & On-premise  (0) 2021.10.09
Atom Editor (atom 에디터)  (0) 2015.10.28
Python Programming  (0) 2015.10.20
Varnish cache  (0) 2015.10.20
php apc cache  (0) 2015.10.20