
[스파크 완벽 가이드] 4. 구조적 API 개요
·
Data Engineering
구조적 API: 데이터 흐름을 정의하는 기본 추상화 개념 비정형 로그 파일, 반정형 CSV 파일, 정형적인 파케이 파일까지 다양한 유형의 데이터를 처리 세가지 분산 컬렉션 API 존재: Dataset, DataFrame, SQL 테이블과 뷰 배치와 스트리밍 처리에서 사용 가능. 특히, 배치, 스트리밍 작업은 서로 변환할 수 있음 4.1 DataFrame과 Dataset 스파크가 가진 두 가지 구조화된 컬렉션 개념 row와 column을 가지는 분산 테이블 형태의 컬렉션 각 column의 row의 수는 동일함, 컬렉션의 모든 row는 같은 데이터 타입 정보를 가짐 결과를 생성하기 위해 어떤 데이터에 어떤 연산을 적용해야 하는지 정의하는 지연 연산의 실행 계획 DataFrame과 Dataset을 구체적으로 ..