Apache Spark
Spark의 중심에는 RDD(Resilient Distributed Dataset, 회복성 있는 분산 데이터 세트) 개념이 있다. 이는 YARN 클러스터의 여러 물리적 노드에서 나뉘고 분산되었으며, 병렬적으로 작동될 수 있는 객체들의 변경 불가능한 집합을 뜻한다.주로 RDD은 공유된 파일 시스템, HDFS, HBase 혹은 YARN 클러스터에 하둡 InputFormat을 제공하는 데이터 소스에서 데이터를 로드할 때 인스턴스화된다.RDD가 실체화 되면, 사용자는 일련의 연산을 적용할 수 있다. 모든 연산은 변형이나 동작 중 하나의 유형으로 나뉜다. 이름이 뜻하듯이 변형 (Transformation) 연산은 기존의RDD에서 새로운 데이터 세트를 생성하고 YARN 클러스터의 분할된 데이터 세트에 적용될 수 있..