Spark의 중심에는 RDD(Resilient Distributed Dataset, 회복성 있는 분산 데이터 세트) 개념이 있다. 이는 YARN 클러스터의
여러 물리적 노드에서 나뉘고 분산되었으며, 병렬적으로 작동될 수 있는 객체들의 변경 불가능한 집합을 뜻한다.
주로 RDD은 공유된 파일 시스템, HDFS, HBase 혹은 YARN 클러스터에 하둡 InputFormat을 제공하는 데이터 소스에서 데이터를 로드할 때 인스턴스화된다.
RDD가 실체화 되면, 사용자는 일련의 연산을 적용할 수 있다. 모든 연산은 변형이나 동작 중 하나의 유형으로 나뉜다. 이름이 뜻하듯이
변형 (Transformation) 연산은 기존의RDD에서 새로운 데이터 세트를 생성하고
YARN 클러스터의 분할된 데이터 세트에 적용될 수 있는 DAG 처리를 구축한다. 반면 동작 (action) 연산은 DAG를 실행하고 값을 반환한다.
'IT 이야기 > Open Source' 카테고리의 다른 글
Monitoring With AWS & On-premise (0) | 2021.10.09 |
---|---|
Atom Editor (atom 에디터) (0) | 2015.10.28 |
Python Programming (0) | 2015.10.20 |
Varnish cache (0) | 2015.10.20 |
php apc cache (0) | 2015.10.20 |