본문 바로가기

pandas3

Pandas(7)-Outlier,Encoder,자연어처리 2)결측치 처리 =>결측치 -존재하지 않는 데이터- python에서는 None으로 표현하고 numpy에서는 NaN으로 표기 -pandas 에서 데이터를 읽어올 때 na_values 가 같은 옵션을 이용해서 NaN으로 처리할 문자열을 설정할 수 있습니다 =>결측치 확인 -info 함수 이용: 전체 데이터 개수와 각 컬럼의 데이터 개수를 리턴 -컬럼을 가지고 value_counts()을 호출하는데 이때 dropna=False 를 추가 -isnull 이나 not null 함수 이용할 수 있는데 sum()을 연달아 호출해서 0 이 아닌 경우를 가지고 판단 =>타이타닉 데이터 결측치 확인 #타이타닉 데이터 가져오기 import seaborn as sns titanic=sns.load_dataset('titanic.. 2024. 2. 19.
Pandas(2) **Pandas 를 이용한 데이터 수집 1.클립보드의 내용을 읽어오기 =>pd.read_clipboard() 2.자주 사용하는 dataset scikit-learn이나 seaborn에서 제공하는 데이터셋 load_digits() load_boston() load_iris() load_diabetes()등등 존재함 =>UCI 머신러닝 저장소:https://archive.ics.uci.edu/ml/index.php =>kaggle:https://www.kaggle.com =>데이콘:dacon.io 3.텍스트 파일의 데이터 읽기 =>텍스트 파일을 읽을 떄는 파일의 포맷과 인코딩 방식을 확인할 필요가 있음 =.인코딩 방식:utf-8,euc-kr.cp949(ms949-윈도우 한글 기본 포맷) 가 한글에 적용 1).. 2024. 2. 8.
Pandas(1) Pandas 의 자료구조 1)pandas =>데이터 분석을 위한 고수준의 자료 구조와 데이터 분석 도구를 제공하는 패키지 =>제공하는 자료구조 Series:열이 1개인 자료구조 DataFrame:열이 1개 이상인 자료구조 2)Series =>Index와 Value 1개를 가지는 자료구조 =>생성 Seires(데이터,index=None,dtype=None,copy=False) 데이터는 python의 list,set, dict 와 numpy의 ndarray가 가능 index는 데이터를 가르키는 이름으로 list 나 set 그리고 ndarray 를 대입하면 0부터 시작하는 숫자 인덱스가 자동생성되고 dict를 설정하면 key가 index가 됩니다. index 옵션에 직접 인덱스를 대입해서 생성이 가능 dype.. 2024. 2. 7.