본문 바로가기

Study/Data전처리 및 통계15

추론통계 1.카이 제곱 검정 1)개요 =>범주 별로 관측 빈도와 기대 빈도의 차이를 통해서 확률 모형이 데이터를 얼마나 잘 설명하는 지를 검정하는 통계 방법 =>관측된 데이터를 대상으로 유의 확률을 적용해서 적합도 검정이나 변수 간의 독립성 여부를 검정하거나 동질성 검정을 수행할 수 있는데 적합도 검정은 표본이 기댓값에 적합한지 검정하는 것이고 독립성 검정은 두 항목이 서로 독립인지 검정하는 것이며 동질성 검정은 두 집단의 데이터 분포가 같은지 검정하는 것 =>웹 테스트 시 종종 단순한 A/B 검정(두가지 상태)을 넘어서 여러가지 처리를 한번에 테스트할 필요가 있을 때 카이 제곱 검정을 사용할 수 있음 위의 예시에서 전환율은 실제로 극히 낮기 때문에 단순 비교는 어려움 재표본 추출(순열 검정, 부트스트랩)을 이용.. 2024. 2. 27.
추론 통계 1.추론 통계 1)개요 =>기술 통계가 주어진 데이터의 분포나 빈도, 평균등의 통계량을 이용해서 데이터를 설명하기 위한 목적인 반면 추론 통게의 목적은 주어진 데이터를 이용해서 모집단의 특성을 추론하는 것 =>제한된 데이터로 주어진 실험 결과를 더 큰 과정 또는 모집단에 적용하려는 의도를 반영하는 것을 추론 (inference)라고합니다 2)추론 과정 =>가설을 세움 =>실험을 설계 =>데이터를 수집 =>추론 및 결론을 도출 3)확률 분포의 추정 =>분석할 데이터는 어떤 확률 분포 변수로부터 실현된 표본이라는 가정을 하게 되는데 이것이 데이터 분석의 첫번째 가정 =>확률론적인 관점에서 볼 때 데이터는 확률 변수의 분포를 알아내는데 사용하는 참고 자료일 뿐 4)확률 분포의 결정과정 =>확률 변수가 어떤 확.. 2024. 2. 26.
확률 분포모형 1.균일 분포 1)개요 =>모든 확률에 대해서 균일한 분포를 갖는 모형 =>scipy.stats.uniform 함수로 생성 =>버스의 배차 간격이 일정한 경우 시간표를 모르고 버스 정류장에 나갔을 때 평균 대기 시간은? =>샘플 생성 rvs(loc=0,scale=1,size=1,random_state=None) -loc: 기댓값, 평균 -scale:범위라ㅎ고 하는데 표준 편차 -size 은 개수 -random stae 은 seed값 seed값은 여기서 설정하지 않고 numpy을 이용해서 미리 설정한 후 사용해도 됩니다. =>pmf(확률 질량 함수), pdf(확률 밀도 함수), cdf (누적 분포 함수), ppt(퍼센트 포인트 함수), sf(생존 함수)를 가지고 있습니다 =>균일 분포의 경우 동일한 크기의.. 2024. 2. 23.
기술 통계 1.다변량 검색 1)상관계수 =>상관 계수를 구하기 전에 산점도 등을 통해서 상관 계수를 구하는 것이 의미가 있는지 확인 - matplotlib.pyplot 의 scatter 함수 이용 -panda의 plot 함수를 호출하고 kind -seaborn의 fairplot 함수를 이용할 수 있는데 이 함수는 DataFrame을 이용하면 모든 숫자의 컬럼 사용ㅇ 가능 -seaborn에서는 regplot(산점도와 회귀 jointplot 같은 두개의 컬럼만으로 산점도와 히스토그램을 같이 그릴 수 있습니다. =>상관계수 조류 -피어슨 상관 계수 -스피어만 상관 계수 -켄달 상관 계수 =>피어슨 상관 계수 -일반적인 상관 계수 -특잇값에 영향을 많이 받음 -선형 관계만 파악이 가능:비선형 관계는 제대로 파악을 하지 못.. 2024. 2. 22.
기초통계 ** 확률 1.주피터 노트북에서 수학 기호사용 =>TeX 라는 수학기호를 활용하여 사용 2.기본 패키지 import numpy as np import pandas as pd import seaborn as sns import scipy as sp import scipy.status #시각화 패키지 import matplotlib.pyplot as plt #시각화에서 한글 사용하기 위한 설정 #운영체제 별 폰트 설정 from matplotlib import font_manager, rc import platform if platform.system() =='DarWin': rc('font',family='AppleGothic') elif platform.system() =='Windows': font_na.. 2024. 2. 21.
Pandas(8)-한글 NLP **데이터 전처리 1.텍스트 데이터 1)한글 형태소 분석 =>형태소 분석기 설치 - kolnpy -JDK(자바 개발 도구)를 설치 Java_Home 환경변수에 JDK 경로 설정 Path 에 JDK 의 bin 디렉토리 경로를 설정:Java 명령어를 콘솔에서 편리하게 사용하기 위해서 -Windows의 경우에는 Visual C++ 재배포 패키지 설치 visual studio 의 데스크 톱 애플리케이션 개발을 설치해도됨 -J-pype1 패키지 설치 pip install Jpype1 -konlpy설치: pip install konlpy =>형태소 분석을 하는 이유 -우리나라는 공백 단위로 분할을 해서는 단어를 만들 수 없음.한국어는 조사가 뒤에 붙기 때문 공백 단위로 쪼개고 어간 추출을 하기 위해서 -데이터 분석.. 2024. 2. 20.