Apache Spark

IT 이야기/Open Source

클톡(CloudTalk) 2015. 10. 20. 00:42

Spark의 중심에는 RDD(Resilient Distributed Dataset, 회복성 있는 분산 데이터 세트) 개념이 있다. 이는 YARN 클러스터의

여러 물리적 노드에서 나뉘고 분산되었으며, 병렬적으로 작동될 수 있는 객체들의 변경 불가능한 집합을 뜻한다.

주로 RDD은 공유된 파일 시스템, HDFS, HBase 혹은 YARN 클러스터에 하둡 InputFormat을 제공하는 데이터 소스에서 데이터를 로드할 때 인스턴스화된다.

RDD가 실체화 되면, 사용자는 일련의 연산을 적용할 수 있다. 모든 연산은 변형이나 동작 중 하나의 유형으로 나뉜다. 이름이 뜻하듯이

변형 (Transformation) 연산은 기존의RDD에서 새로운 데이터 세트를 생성하고

YARN 클러스터의 분할된 데이터 세트에 적용될 수 있는 DAG 처리를 구축한다. 반면 동작 (action) 연산은 DAG를 실행하고 값을 반환한다.

Monitoring With AWS & On-premise (0)	2021.10.09
Atom Editor (atom 에디터) (0)	2015.10.28
Python Programming (0)	2015.10.20
Varnish cache (0)	2015.10.20
php apc cache (0)	2015.10.20

Cloud Engineer의 다양한 IT 이야기 및 소소한 일상 이야기

GoogleCloud, Public Cloud, 맛집, Azure, Solaris, zabbix, google cloud, GCP, Grafana, AWS, Kubernetes, test, linux, cloud, k8s,

클톡(CloudTalk)