본문 바로가기

전체 글119

머신러닝(3)-Classification(2) 1.KNN(K-Nearest Neighbor) 1)개요 =>특징들이 가장 유산한 K개의데이터를 찾아서 K개의 데이터를 가지고 다수결로 클래스를 선택해서 할당 =>회귀에 사용할 떄는 그 값의 평균을 구해서 예측 2)특징 =>간단 - 전처리 과정에서 결측치를 대체하는데 사용하기도 합니다 =>모델을 피팅히는 과정이 없음 =>모든 예측 변수들은 전부 수치형이어야 함 거리를 계산하기 때문 이 경우 범주형 데이터는 특별한 경우가 아니면 원 핫 인코딩을 수행해야 합니다. =>게으른 알고리즘이라고 하는데 훈련 데이터 세트를 메모리에 전부 저장하고 거리 계산을 수행 온라인 처리가 안됨 =>장점 -이해하기 쉬운 모델 -많이 조정하지 않아도 좋은 성능을 내는 경우가 있음 =>단점 -예측이느림:어떤 알고리즘이 특별히 있는 것.. 2024. 2. 29.
머신러닝(2)-Classification(1) 1.분류 1)개요 =>데이터를 가지고 어떤 결정을 해야 하는 문제를 접하는 경우에 결정해야 하는 Target이 이미 알려진 범주형인 경우 이미 알려져 있으므로 지도 학습(Supervised Learning) =>분류의 유형은 이진 분류(Binary) 와 다중 분류( Multiclass) 로 분류하기도 하고 선형 분류 (linear) 와 비선형(polynomial)로 나누기도 합니다. =>sklearn의 분류기들은 예측하기 위한 함수로 2가지를 사용 predict:분류 결과 predict_proba:각 클래스에 대한 확률 (확률이 가장 높은 결과가 predict 의 결과) 2)분류 알고리즘 =>판별 분석 =>랜덤 분류 =>KNN =>SVM(support vector machine) =>나이브 베이즈 =>로.. 2024. 2. 28.
머신러닝(1) 1.인공지능 1)지능 =>문제를 해결할 수 있는 능력 =>환자를 보고 병을 진단 2)인공 지능 =>지능 작업을 수행할 수 있는 기계의 능력 =>환자에 대한 정보를 입력하면 컴퓨터가 병을 진단 3)구현 방법 =>지식 공학(전문가 시스템):문제 해결을 위한 알고리즘을 사람이 작성 전문가들의 도움을 받아서 개발자가 알고리즘을 작성해서 컴퓨터에 저장하고 이 알고리즘에 따라 문제를 해결 컴퓨터의 역할은 결과를 만들어내는 것 =>Machine Learning Data 와 Output 을 주면 컴퓨터가 알고리즘을 만들어 내는 방식 알고리즘을 누가 만드냐에 따라 지능 공학 or 머신러닝인지로 나뉨 4)인공지능과 머신러닝의 관계 인공지능 > 기계학습(머신러닝) > 딥러닝,강화 학습 전문가 시스템 ->머신 러닝 ->딥러닝.. 2024. 2. 27.
추론통계 1.카이 제곱 검정 1)개요 =>범주 별로 관측 빈도와 기대 빈도의 차이를 통해서 확률 모형이 데이터를 얼마나 잘 설명하는 지를 검정하는 통계 방법 =>관측된 데이터를 대상으로 유의 확률을 적용해서 적합도 검정이나 변수 간의 독립성 여부를 검정하거나 동질성 검정을 수행할 수 있는데 적합도 검정은 표본이 기댓값에 적합한지 검정하는 것이고 독립성 검정은 두 항목이 서로 독립인지 검정하는 것이며 동질성 검정은 두 집단의 데이터 분포가 같은지 검정하는 것 =>웹 테스트 시 종종 단순한 A/B 검정(두가지 상태)을 넘어서 여러가지 처리를 한번에 테스트할 필요가 있을 때 카이 제곱 검정을 사용할 수 있음 위의 예시에서 전환율은 실제로 극히 낮기 때문에 단순 비교는 어려움 재표본 추출(순열 검정, 부트스트랩)을 이용.. 2024. 2. 27.
추론 통계 1.추론 통계 1)개요 =>기술 통계가 주어진 데이터의 분포나 빈도, 평균등의 통계량을 이용해서 데이터를 설명하기 위한 목적인 반면 추론 통게의 목적은 주어진 데이터를 이용해서 모집단의 특성을 추론하는 것 =>제한된 데이터로 주어진 실험 결과를 더 큰 과정 또는 모집단에 적용하려는 의도를 반영하는 것을 추론 (inference)라고합니다 2)추론 과정 =>가설을 세움 =>실험을 설계 =>데이터를 수집 =>추론 및 결론을 도출 3)확률 분포의 추정 =>분석할 데이터는 어떤 확률 분포 변수로부터 실현된 표본이라는 가정을 하게 되는데 이것이 데이터 분석의 첫번째 가정 =>확률론적인 관점에서 볼 때 데이터는 확률 변수의 분포를 알아내는데 사용하는 참고 자료일 뿐 4)확률 분포의 결정과정 =>확률 변수가 어떤 확.. 2024. 2. 26.
확률 분포모형 1.균일 분포 1)개요 =>모든 확률에 대해서 균일한 분포를 갖는 모형 =>scipy.stats.uniform 함수로 생성 =>버스의 배차 간격이 일정한 경우 시간표를 모르고 버스 정류장에 나갔을 때 평균 대기 시간은? =>샘플 생성 rvs(loc=0,scale=1,size=1,random_state=None) -loc: 기댓값, 평균 -scale:범위라ㅎ고 하는데 표준 편차 -size 은 개수 -random stae 은 seed값 seed값은 여기서 설정하지 않고 numpy을 이용해서 미리 설정한 후 사용해도 됩니다. =>pmf(확률 질량 함수), pdf(확률 밀도 함수), cdf (누적 분포 함수), ppt(퍼센트 포인트 함수), sf(생존 함수)를 가지고 있습니다 =>균일 분포의 경우 동일한 크기의.. 2024. 2. 23.