본문 바로가기

Study103

Pandas(8)-한글 NLP **데이터 전처리 1.텍스트 데이터 1)한글 형태소 분석 =>형태소 분석기 설치 - kolnpy -JDK(자바 개발 도구)를 설치 Java_Home 환경변수에 JDK 경로 설정 Path 에 JDK 의 bin 디렉토리 경로를 설정:Java 명령어를 콘솔에서 편리하게 사용하기 위해서 -Windows의 경우에는 Visual C++ 재배포 패키지 설치 visual studio 의 데스크 톱 애플리케이션 개발을 설치해도됨 -J-pype1 패키지 설치 pip install Jpype1 -konlpy설치: pip install konlpy =>형태소 분석을 하는 이유 -우리나라는 공백 단위로 분할을 해서는 단어를 만들 수 없음.한국어는 조사가 뒤에 붙기 때문 공백 단위로 쪼개고 어간 추출을 하기 위해서 -데이터 분석.. 2024. 2. 20.
Pandas(7)-Outlier,Encoder,자연어처리 2)결측치 처리 =>결측치 -존재하지 않는 데이터- python에서는 None으로 표현하고 numpy에서는 NaN으로 표기 -pandas 에서 데이터를 읽어올 때 na_values 가 같은 옵션을 이용해서 NaN으로 처리할 문자열을 설정할 수 있습니다 =>결측치 확인 -info 함수 이용: 전체 데이터 개수와 각 컬럼의 데이터 개수를 리턴 -컬럼을 가지고 value_counts()을 호출하는데 이때 dropna=False 를 추가 -isnull 이나 not null 함수 이용할 수 있는데 sum()을 연달아 호출해서 0 이 아닌 경우를 가지고 판단 =>타이타닉 데이터 결측치 확인 #타이타닉 데이터 가져오기 import seaborn as sns titanic=sns.load_dataset('titanic.. 2024. 2. 19.
Pandas(6)-Scaler 및 Normalization **데이터 전처리 1.단위 확산 2.자료형 변환 -> astype('변환하고자 하는 자료형') -> 데이터 가져오기 mpg = pd.read_csv('./data/auto-mpg.csv', header=None) mpg.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model year', 'origin', 'name'] #horsepower는 마력으로 숫자 데이터 인데 현재는 object #origin은 현재 1,2,3으로 만들어진 숫자인데 실제 의미는 USA, EU, JPA을 나타냄 #model year는 제조년도를 나타내는데 현재는 숫자로 되어있음. -> horsepower를 숫자 자료형으로.. 2024. 2. 16.
Docker를 이용해서 Oracle 설치 =>docker run --name 이름 -d -p 1521:1521 jaspeen/oracle-xe-11g sid는 xe 계정은 system 비번은 oracle로 설치 oracle 은 데이터베이스라는 이름이 아닌 sid라는 이름으로 사용 다운이 다되면 Docker 에 새로운 container 생성 DBeaver 접속후 [파일]->[새로 만들기]에서 아래와 같이 생성 2024. 2. 15.
Pandas(5) **데이터 전처리 1. 중복 데이터 처리 -> 하나의 데이터 셋에서 동일한 관측값이 2개 이상 중복되는 경우 분석 결과를 왜곡할 수 있음 1)duplicated() -> 데이터의 중복 여부를 bool의 Series로 리턴 2) drop_duplicates() -> 매개변수를 대입하지 않으면 모든 컬럼의 값이 일치하는 경우 제거 -> subset 옵션으로 컬럼의 이름이나 컬럼 이름의 list를 대입하면 설정된 컬럼의 값이 일치하는 경우 제거하고 첫번째 데이터를 유지 keep 옵션을 이용하면 마지막 데이터를 유지시킬 수 있음 -> inplace 옵션이 존재 pandas의 DataFrame은 원본을 복제를 해서 수정하고 리턴을 하는데 원본에 직접 작업하고자 할 때 사용하는 옵션 2. 함수 적용 1) apply.. 2024. 2. 15.
Pandas(4) 1.DataFrame의 이름 변경 1)rename() =>인덱스 나 컬럼의 이름을 변경하고자 할 때 사용 =>index 옵션에 dict 형태로 (기존 인덱스:새로운 인덱스,...) 설정하면 인덱스가 변경 index의 변경은 메서드를 이용하지 않고 index 옵션에 list 나 Series 형태로 설정해도 가능 =>columns 옵션에 딕셔너리 형태로(기존 컬럼이름:새로운 컬럼이름) 설정하면 컬럼 이름 변경 =>inplace 옵션이 있는데 이 옵션의 기본값은 False 인데 False 가 설정되면 복제본을 만들어서 리턴하고 True 를 설정하면 원본이 변경 =>rename 함수는 첫번째 매개변수로 변환 함수를 대입하고 두번째 옵션에 axis에 index 나 columns를 설정해서 변환 함수를 이용해서 변.. 2024. 2. 14.