본문 바로가기

Study96

머신러닝(10)-군집 1.Clustering =>분류는 피처를 가지고 이미 만들어져 있는 레이블에 할당하는 작업이고 레이블이 없어서 피처들을 가지고 그룹을 만드는 작업 =>군집이 이용되는 분야 -고객 분류 -데이터 분석: 데이터를 분석할 떄 전체 데이터를 가지고 분석을 하는 경우도 있지만 군집을 한 후 데이터 분석을 하는 것이 더 효과적인 경우가 많음 -차원 축소 -이상치 탐지 모든 클러스터에 친화성이 낮은 샘플이 존재한다면 이 샘플은 이상치일 가능성이 높음 웹사이트 내 행동을 기납으로 사용자 클러스터를 만든 경우 초 당 웹 서버 요청을 비정상적으로 많이 하는 사용자를 감지 해서 이상치로 판정할 수 있음 -준지도 학습: 일부분만 label 이 존재하는 경우 레이블이 없는 데이터에 레이블을 할당 -검색 엔진 -이미지 분할: 물.. 2024. 3. 11.
Oracle SQL 이 정확히 뭘까? [정형 데이터 처리 ] Structured Query Language - 구조적 ->Table ->행(Raw)과 열(Column)의 집합(Set) 질의어->질문하는 언어 vs [비(반)정형 데이터 처리] NoSQL(Not only SQL) ============================================================================================ SQL Statment (DML) insert -> 새로운 행을 입력 -> 새로운 행을 삭제하는 undo가 저장 update -> 100(old)을 200(new)으로 변경 -> commit? rollback(undo ->실행취소)? delete -> 특정 행(old = undo).. 2024. 3. 8.
머신 러닝(9)-차원 축소 1.차원 축소 1)개요 =>머신 러닝의 많은 훈련 샘플들은 여러 개의 특성을 가지고 있음 =>특성의 개수가 많으면 훈련을 느리게 하고 좋은 솔루션을 찾기 어렵게 만드는데 이러 문제를 차원의 저주라고 합니다 =>실전 문제에서는 특성 수를 크게 줄여서 불가능한 문제를 가능한 범위 내로 변경해야 하는 경우가 많습니다 2)차원의 저주 => 고차원에서는 많은 것이 상당히 다르게 동작 =>사각형 안에서 점을 무작위로 선택하면 경계션에서 0.001 정도 거리에 존재할 확률이 0.4% 정도 되는데 10,000 차원이 되면 경계선에 존재할 확률이 99.99999%보다 커짐 => 대부분의 훈련 데이터가 서로 멀리 떨어져 있게 되고 새로운 샘플도 멀리 떨어져 있을 가능성이 높아지게 되서 이 경우 예측을 위해서는 훨씬 더 많.. 2024. 3. 7.
머신러닝(8)-실습(2) 범주형 데이터 이진 분류 1)개요 => https://www.kaggle.com/competitions/cat-in-the-dat Categorical Feature Encoding Challenge | Kaggle www.kaggle.com =>경진대회 이름: 범주형 데이터 이진 분류 =>문제 유형:이진 분류 =>미션은 Target에 속할 확률 =>평가 지표: ROC-AUC =>데이터 -인위적으로 만든 데이터 -피처와 타겟에 대한 의미를 알 수 없음 -제공되는 데이터는 전부 범주형 bin_:이진 범주 nom_:명목형 범주 ord_:순서형 범주 day와 month은 날짜 피쳐 2)데이터 읽어오기 import pandas as pd #데이터 읽어봤더니 각 행을 구분하는 id 속성이 존재 #DataFrame.. 2024. 3. 7.
머신러닝(7)-실습1 *지도 학습 연습 1.kaggle =>www.kaggle.com 2.자전거 대여 수요 예측 1)개\요 -url: https://www.kaggle.com/c/bike-sharing-demand Bike Sharing Demand | Kaggle www.kaggle.com -미션: 날짜, 계절, 근무랑 여부, 온도, 체감 온도, 풍속 등의 데이터를 이용해서 자전거 대여 수요 예측 -유형:회귀 -평가 지표: RMSLE(평균 제곱 대수 오류)로 평가 -데이터를 다운로드 받아서 적절한 곳에 복사 2) 데이터 다운 -kaggle 가서 다운 3)데이터 확인 =>데이터 불러오기 import pandas as pd train = pd.read_csv('./bike/train.csv') test = pd.read_csv.. 2024. 3. 6.
머신러닝(6)-Ensemble Ensemble 1.개요 =>무작위로 선택된 수천 명의 사람에게 복잡한 질문을 하고 대답을 모은다고 가정하면 이렇게 모은 답이 전문가의 답보다 나을 가능성이 높은데 이를 대중의 지혜 =>하나의 좋은 예측기를 이용하는 것보다 일반적인 여러 예측기를 이용해서 예측을 하면 더 좋은 결과를 만들 수 있다는 것으로 이를 앙상블 기법이라고 합니다. =>DecisionTree 는 전체 데이터를 이용해서 하나의 트리를 생성해서 결과를 예측하지만 RandomForest 은 훈련 세트로 부터 무작위로 각기 다른 서브 세트를 이용해서 여러 개의 트리 분류기를 만들고 예측을 할 때 가장 많은 선택을 받은 클래스나 평균을 이용합니다. =>머신러닝에서 가장 좋은 모델은 앙상블을 이용하는 모델입니다. 2.투표기반 분류기 =>분류기.. 2024. 3. 5.