본문 바로가기

전체 글127

데이터 수집 1.데이터 수집1)수집 방법 =>데이터베이스에서 수집 =>플랫 파일(텍스트 파일) 등에서 수집 =>센서 등의 데이터를 Kafka 와 같은 실시간 스트림을 이용한 수집 2)데이터 수집 =>읽어온 데이터를 데이터웨어하우스에 저장하는 작업 =>예전에는 데이터 센터의 데이터베이스에 저장하는 것이 일반적이었지만 최근에는 클라우드 환경에 많이 저장2.MySQL 의 데이터를 S3 버킷에 csv 파일로 저장1)추출 방법=>전체 추출: 스냅샷을 이용한 추출마지막 데이터의 복사본 저장 =>증분 추출: 트랜잭션을 이용한 추출첫번째 데이터와 변경 내용 저장 2)전체 추출 과 증분 추출의 트레이드 오프=>마지막 데이터의 결과를 복원하고자 하는 경우는 전체 추출이 빠름=>전체 추출은 중간 과정을 저장 할 수 없음 3)추출 준비=.. 2024. 5. 21.
Kafka(2) **Kafka - Message Broker =>구독 과 게시의 개념을 가지고 한쪽에서 구독 신청을 하면 다른 한쪽에 특정 이벤트가 발생할 때 메시지를 발행해서 게시를 신청한 쪽에 메시지를 전달하는 시스템 =>메시지를 데이터로 활용해서 여러 데이터 발생지로부터 데이터를 받아서 타겟에게 전달하는 용도로 사용할 수 있고 특정 이벤트가 발생했을 때 작업을 순차적으로 수행하도록 사용할 수 도 있습니다. =>CQRS를 구현한 프로젝트에서 데이터 업데이트를 수행하는 애플리케이션 과 데이터 조회를 수행하는 애플리케이션 사이의 데이터 불일치 문제를 해결하기 위해서 데이터에 업데이트가 발생하면 업데이트 된 데이터를 조회 애플리케이션에게 전송해서 조회 애플리케이션의 데이터 불일치를 문제를 해결하기 위해서 사용 1.카프카 .. 2024. 5. 12.
Kafka(1) 1.Data Pipeline1)개요=>다양한 소스에서 새로운 가치를 얻을 수 있는 대상으로 데이터를 옮기고 변환하는 일련의 과정 - 분석이나 리포팅 그리고 머신러닝 능력의 기초가 됨 =>원본 데이터의 크기와 상태 그리고 구조 및 분석 프로젝트의 요구사항에 따라 파이프라인은 달라짐=>가장 단순한 형태의 파이프라인은 REST API처럼 단일소스에서 데이터를 추출하거나 데이터 웨어하우스 SQL테이블와 같은 대상으로 데이터를 로드하는 것이지만 실제 파이프라인은 데이터 추출 과 데이터 가공 그리고 데이터 유효성 검사를 포함한 여러 단계로 구성이 되고 때로는 데이터를 최종 목적지로 전달하기 전에 머신러닝 모델을 학습하거나 실행하는 단계를 수행하기도 합니다.(example :KNN으로 결측치 제거) =>파이프라인에는.. 2024. 5. 9.
AWS Container Service(ECR,ECS) 0.ECR과 ECS 를 이용한 CI/CD Pipeline 설정=>CI/CD:지속적인 인도와 지속적인 배포코드의 변경을 지속적으로 관리할 수 있도록 하고 변경된 내용을 빠르게 배포하자는 것코드의 변경을 지속적으로 관리할 수 있도록 하고 변경된 내용을 빠르게 배포하자는 것배포를 할 때 개발자가 하는 것이 아니고 프로그램이나 프레임워크가 수행하도록 하고 기존 서비스가 중지되지 않도록 수행하는것을 기본으로 함 코드를 변경해서 배포를 하기 위해서는 빌드 과정을 거쳐야 하는데 마이크로 서비스가 아니고 모놀리식의 형태가 만들어지면 빌드시간이 길어지게 되며 빌드 시간 동안 서비스가 중지되어야 한다면 오랜 시간 동안 사용자는 서비스를 받을 수 가 없게 됩니다 서버 가상화를 이용하기 전에는 하나의 서버에 애플리케이션 하나.. 2024. 5. 3.
Server Application 배포-EC2 활용 1.Django APplication을 Docker Image 를  만들어서 EC2 배포1)Django Application을 생성 =>가상 환경 생성 python -m venv ./myvenv =>활성화myvenv/Scripts/activate =>필요한 패키지 설치djangodjangorestframework =>프로젝트 생성django -admin startproject apiservercd apiserver =>프로젝트 실행(제대로 설치됬는지)python manage.py runserver =>소스 코드 수정-settings.py 파일을 수정#배포를 할 때 정확한 IP를 모른다면 *로 설정ALLOWED_HOSTS = ['*']#사용할 Application 등록INSTALLED_APPS = [ .. 2024. 5. 2.
React 서버 연동 =>Client:https://github.com/ggangpae1/react_todo -SOP (Same Origin Policy) 문제: CORS(Cross Origin Resources Sharing)설정 SOP:동일 출처 정책 - JS는 동일한 도메인의 데이터만 사용할 수 있음 server 와 client 를 나눠서 하는 이유 1. client 하고 server 를 하나로 해놓으면 monolithic 이라 하는데, 이러면 자격 영역도 나눠져야 함 2. 유지/보수 => 예전에는 대기업에서 하청을 줘서 개발시킴. 자바스크립트 애플리케이션에서 다른 도메인의 데이터를 사용하는 방법 -서버에서 특정 도메인은 접근이 가능하도록 설정: CORS설정 -클라이언트에서 자신의 로컬 서버에게 접근한 후 로컬 서버에서.. 2024. 4. 29.