Data Engineering1 Kafka(1) 1.Data Pipeline1)개요=>다양한 소스에서 새로운 가치를 얻을 수 있는 대상으로 데이터를 옮기고 변환하는 일련의 과정 - 분석이나 리포팅 그리고 머신러닝 능력의 기초가 됨 =>원본 데이터의 크기와 상태 그리고 구조 및 분석 프로젝트의 요구사항에 따라 파이프라인은 달라짐=>가장 단순한 형태의 파이프라인은 REST API처럼 단일소스에서 데이터를 추출하거나 데이터 웨어하우스 SQL테이블와 같은 대상으로 데이터를 로드하는 것이지만 실제 파이프라인은 데이터 추출 과 데이터 가공 그리고 데이터 유효성 검사를 포함한 여러 단계로 구성이 되고 때로는 데이터를 최종 목적지로 전달하기 전에 머신러닝 모델을 학습하거나 실행하는 단계를 수행하기도 합니다.(example :KNN으로 결측치 제거) =>파이프라인에는.. 2024. 5. 9. 이전 1 다음