본문 바로가기

Study/Machine learning,NLP14

머신러닝(7)-실습1 *지도 학습 연습 1.kaggle =>www.kaggle.com 2.자전거 대여 수요 예측 1)개\요 -url: https://www.kaggle.com/c/bike-sharing-demand Bike Sharing Demand | Kaggle www.kaggle.com -미션: 날짜, 계절, 근무랑 여부, 온도, 체감 온도, 풍속 등의 데이터를 이용해서 자전거 대여 수요 예측 -유형:회귀 -평가 지표: RMSLE(평균 제곱 대수 오류)로 평가 -데이터를 다운로드 받아서 적절한 곳에 복사 2) 데이터 다운 -kaggle 가서 다운 3)데이터 확인 =>데이터 불러오기 import pandas as pd train = pd.read_csv('./bike/train.csv') test = pd.read_csv.. 2024. 3. 6.
머신러닝(6)-Ensemble Ensemble 1.개요 =>무작위로 선택된 수천 명의 사람에게 복잡한 질문을 하고 대답을 모은다고 가정하면 이렇게 모은 답이 전문가의 답보다 나을 가능성이 높은데 이를 대중의 지혜 =>하나의 좋은 예측기를 이용하는 것보다 일반적인 여러 예측기를 이용해서 예측을 하면 더 좋은 결과를 만들 수 있다는 것으로 이를 앙상블 기법이라고 합니다. =>DecisionTree 는 전체 데이터를 이용해서 하나의 트리를 생성해서 결과를 예측하지만 RandomForest 은 훈련 세트로 부터 무작위로 각기 다른 서브 세트를 이용해서 여러 개의 트리 분류기를 만들고 예측을 할 때 가장 많은 선택을 받은 클래스나 평균을 이용합니다. =>머신러닝에서 가장 좋은 모델은 앙상블을 이용하는 모델입니다. 2.투표기반 분류기 =>분류기.. 2024. 3. 5.
머신러닝(5) - Regression(2) 2.비선형 회귀 1)개요 =>회귀 계수의 결합이 비선형인 경우 =>회귀 함수를 기반으로 하지 않음 2)KNN(K-Nearest Neighbors)회귀 =>새로운 데이터가 들어온 경우 가장 가까운 이웃 몇 개를 찾아서 그 이웃의 데이터를 가지고 분류의 경우는 투표를 해서 다수결로 타겟을 결정하고 회귀의 경우는 평균을 이용해서 타겟을 결정하는 방식 =>가중회귀 -일반적인 경우 현재 위치에서 거리가 가장 가까운 3개를 추출 A 거리가 3.2인데 5 B 거리가 11.5인데 6.8 C 거리가 1.1 인데 9.0 (5+6.8+9.0)/3 :6.9 정도 -거리에 따라서 가중치를 부여하는 방식 (5/3.2 + 6.8/11.5 + 9.0/1.1) /(1/3.2 +1/11.5 +1/1.1)으로 계산 -KNN을 생성할 때 .. 2024. 3. 5.
머신러닝(4)-Regression(1) 1.회귀 1)개요 => 두 변수 간의 예측 관계에서 한 변수에 의해서 예측 되는 다른 변수의 예측치들이 그 변수의 평균치로 회귀하는 경향이 있다고 하여 Galton에 의해서 명명 =>한 개의 종속 변수와 독립 변수들 과의 관계를 모델링 한 것으로 종속 변수가 연속형 변수일 때 회귀라 하고 종속 변수가 범주형일 때 분류라고 합니다. 로지스틱 회귀를 제외하고는 거의 모든 모델이 분류와 회귀 양쪽 모두에 사용 가능 결과를 확률로 제시하느냐 아니면 평균으로 제시하느냐 차이 =>분류 회귀를 설명하기 위한 독립 변수의 개수에 따라 단순 회귀(1개) , 다중회귀(2개이상)로 분류 차수에 따라서 선형과 비선형으로 나눔 2.선형 회귀 1)개요 =>실제 값과 예측 값의 차이를 최소화하는 직선형 회귀선을 최적화하는 방식 =.. 2024. 3. 4.
머신러닝(3)-Classification(2) 1.KNN(K-Nearest Neighbor) 1)개요 =>특징들이 가장 유산한 K개의데이터를 찾아서 K개의 데이터를 가지고 다수결로 클래스를 선택해서 할당 =>회귀에 사용할 떄는 그 값의 평균을 구해서 예측 2)특징 =>간단 - 전처리 과정에서 결측치를 대체하는데 사용하기도 합니다 =>모델을 피팅히는 과정이 없음 =>모든 예측 변수들은 전부 수치형이어야 함 거리를 계산하기 때문 이 경우 범주형 데이터는 특별한 경우가 아니면 원 핫 인코딩을 수행해야 합니다. =>게으른 알고리즘이라고 하는데 훈련 데이터 세트를 메모리에 전부 저장하고 거리 계산을 수행 온라인 처리가 안됨 =>장점 -이해하기 쉬운 모델 -많이 조정하지 않아도 좋은 성능을 내는 경우가 있음 =>단점 -예측이느림:어떤 알고리즘이 특별히 있는 것.. 2024. 2. 29.
머신러닝(2)-Classification(1) 1.분류 1)개요 =>데이터를 가지고 어떤 결정을 해야 하는 문제를 접하는 경우에 결정해야 하는 Target이 이미 알려진 범주형인 경우 이미 알려져 있으므로 지도 학습(Supervised Learning) =>분류의 유형은 이진 분류(Binary) 와 다중 분류( Multiclass) 로 분류하기도 하고 선형 분류 (linear) 와 비선형(polynomial)로 나누기도 합니다. =>sklearn의 분류기들은 예측하기 위한 함수로 2가지를 사용 predict:분류 결과 predict_proba:각 클래스에 대한 확률 (확률이 가장 높은 결과가 predict 의 결과) 2)분류 알고리즘 =>판별 분석 =>랜덤 분류 =>KNN =>SVM(support vector machine) =>나이브 베이즈 =>로.. 2024. 2. 28.