본문 바로가기

Study/Data전처리 및 통계15

Pandas(7)-Outlier,Encoder,자연어처리 2)결측치 처리 =>결측치 -존재하지 않는 데이터- python에서는 None으로 표현하고 numpy에서는 NaN으로 표기 -pandas 에서 데이터를 읽어올 때 na_values 가 같은 옵션을 이용해서 NaN으로 처리할 문자열을 설정할 수 있습니다 =>결측치 확인 -info 함수 이용: 전체 데이터 개수와 각 컬럼의 데이터 개수를 리턴 -컬럼을 가지고 value_counts()을 호출하는데 이때 dropna=False 를 추가 -isnull 이나 not null 함수 이용할 수 있는데 sum()을 연달아 호출해서 0 이 아닌 경우를 가지고 판단 =>타이타닉 데이터 결측치 확인 #타이타닉 데이터 가져오기 import seaborn as sns titanic=sns.load_dataset('titanic.. 2024. 2. 19.
Pandas(6)-Scaler 및 Normalization **데이터 전처리 1.단위 확산 2.자료형 변환 -> astype('변환하고자 하는 자료형') -> 데이터 가져오기 mpg = pd.read_csv('./data/auto-mpg.csv', header=None) mpg.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model year', 'origin', 'name'] #horsepower는 마력으로 숫자 데이터 인데 현재는 object #origin은 현재 1,2,3으로 만들어진 숫자인데 실제 의미는 USA, EU, JPA을 나타냄 #model year는 제조년도를 나타내는데 현재는 숫자로 되어있음. -> horsepower를 숫자 자료형으로.. 2024. 2. 16.
Pandas(5) **데이터 전처리 1. 중복 데이터 처리 -> 하나의 데이터 셋에서 동일한 관측값이 2개 이상 중복되는 경우 분석 결과를 왜곡할 수 있음 1)duplicated() -> 데이터의 중복 여부를 bool의 Series로 리턴 2) drop_duplicates() -> 매개변수를 대입하지 않으면 모든 컬럼의 값이 일치하는 경우 제거 -> subset 옵션으로 컬럼의 이름이나 컬럼 이름의 list를 대입하면 설정된 컬럼의 값이 일치하는 경우 제거하고 첫번째 데이터를 유지 keep 옵션을 이용하면 마지막 데이터를 유지시킬 수 있음 -> inplace 옵션이 존재 pandas의 DataFrame은 원본을 복제를 해서 수정하고 리턴을 하는데 원본에 직접 작업하고자 할 때 사용하는 옵션 2. 함수 적용 1) apply.. 2024. 2. 15.
Pandas(4) 1.DataFrame의 이름 변경 1)rename() =>인덱스 나 컬럼의 이름을 변경하고자 할 때 사용 =>index 옵션에 dict 형태로 (기존 인덱스:새로운 인덱스,...) 설정하면 인덱스가 변경 index의 변경은 메서드를 이용하지 않고 index 옵션에 list 나 Series 형태로 설정해도 가능 =>columns 옵션에 딕셔너리 형태로(기존 컬럼이름:새로운 컬럼이름) 설정하면 컬럼 이름 변경 =>inplace 옵션이 있는데 이 옵션의 기본값은 False 인데 False 가 설정되면 복제본을 만들어서 리턴하고 True 를 설정하면 원본이 변경 =>rename 함수는 첫번째 매개변수로 변환 함수를 대입하고 두번째 옵션에 axis에 index 나 columns를 설정해서 변환 함수를 이용해서 변.. 2024. 2. 14.
Pandas(3) **데이터 수집 1.검색어를 입력받아서 신문 기사를 스크램핑해서 파일에 저장하기 1) 필요한 패키지 =>request:검색어가 한글이라면 인코딩을 하기 위해서 =>requests:웹의 문자열을 읽어오기 위한 패키지, 기본 패키지가 아니라 설치 해야함 =>beautifulsoup:HTML 문자열에서 원하는 데이터를 추출하기 위해서 필요한 패키지, 기본 패키지가 아니라서 설치를 해야함 2)URL확인 https://www.donga.com/news/search?query=%EC%9C%A0%EC%9E%AC%EC%84%9D&sorting=1&check_news=91&search_date=1&v1=&v2=&more=1 =>query:검색어 =>sorting,check_news,search_date 3)URL 확인을.. 2024. 2. 13.
Pandas(2) **Pandas 를 이용한 데이터 수집 1.클립보드의 내용을 읽어오기 =>pd.read_clipboard() 2.자주 사용하는 dataset scikit-learn이나 seaborn에서 제공하는 데이터셋 load_digits() load_boston() load_iris() load_diabetes()등등 존재함 =>UCI 머신러닝 저장소:https://archive.ics.uci.edu/ml/index.php =>kaggle:https://www.kaggle.com =>데이콘:dacon.io 3.텍스트 파일의 데이터 읽기 =>텍스트 파일을 읽을 떄는 파일의 포맷과 인코딩 방식을 확인할 필요가 있음 =.인코딩 방식:utf-8,euc-kr.cp949(ms949-윈도우 한글 기본 포맷) 가 한글에 적용 1).. 2024. 2. 8.