본문 바로가기

Study/Machine learning,NLP14

NLP(3)-문서 군집화,연관분석,추천시스템 1.문서 군집화 1)개요 =>비슷한 구성의 텍스트 문서를 군집화하는 것 =>텍스트 문서들을 읽어서 피처화 한 후 군집 알고리즘을 적용 =>영화의 줄거리가 있는 경우 비슷한 장르의 영화를 군집화 하는 것이 가능 우리나라 VOD 서비스는 대부분 장르를 업로드하는 곳에서 선택합니다 동일한 VOD인데 장르가 다르게 설정되기도 합니다. 2)문서 군집화 수행 =>데이터:Opinosis 데이터셋 여러 개의 텍스트를 읽어야 할 때는 되도록이면 하나의 디렉토리에 모아놓으면 편리합니다. glob 모듈을 이용해서 경로를 지정하면 경로 안에 있는 모든 파일명을 찾아올 수 있습니다. 확장자 지정도 가능하기 때문에 되도록이면 확장자도 맞추는 것이 좋습니다. 확장자는 or 가 가능합니다. 로그파일은 하나로 구성하는 경우가 별로 없.. 2024. 3. 14.
NLP(2) - 실습 1.KAGGLE의 IMDB 영화평 지도 학습 기반 => url - https://www.kaggle.com/c/word2vec-nlp-tutorial/data Bag of Words Meets Bags of Popcorn | Kaggle www.kaggle.com =>데이터 구조:id (유저의 아이디), sentiment(감성으로 긍정이 1 , 부정이 0), review(리뷰) 이 경우는 레이블이 있는 데이터를 가지고 범주를 예측하는 것과 동일 자연어는 피처가 문장으로 주어지기 떄문에 문장을 피처 벡터화 작업을 해주는 것이 다릅니다. 이 때 모든 단어를 각각의 피처로 만들고 각 문장은 피처의 존재 여부를 데이터로 소유합니다. 자연어 처리에서 feature 를 만드는 방법이 다른데 , 영어는 word_to.. 2024. 3. 14.
NLP(1)- 자연어 처리 1.NLP(National Language Processing) 1)개요 => 컴퓨터가 인간의 언어를 이해하고 해석하는 것 텍스트 마이닝은 컴퓨터를 이용해서 자연어에서 의미 있는 정보를 추출하는 것 2)텍스트 분석 =>비정형 데이터 인 텍스트를 분석 =>텍스트를 단어 기반의 다수의 feature 로 추출하고 이 feature 에 단어의 빈도수와 같은 숫자를 부여해서 단어의 조합인 벡터로 표현해서 수행 3)기술 영역 =>텍스트 분류:카테고리 분류 =>감성 분석 =>텍스트 요약 =>텍스트 군집 -> 유사도 측정 4)수행 프로세스 =>텍스트 전처리 - 클렌징 - 대소문자 변경 - 특수문자 삭제 - 토큰화 작업: 단어 단위로 쪼개는 것 - 불용어 제거: 분석에서 무의미한 단어를 제거 - 어근 추출: 한글의 경우.. 2024. 3. 13.
머신러닝(10)-군집 1.Clustering =>분류는 피처를 가지고 이미 만들어져 있는 레이블에 할당하는 작업이고 레이블이 없어서 피처들을 가지고 그룹을 만드는 작업 =>군집이 이용되는 분야 -고객 분류 -데이터 분석: 데이터를 분석할 떄 전체 데이터를 가지고 분석을 하는 경우도 있지만 군집을 한 후 데이터 분석을 하는 것이 더 효과적인 경우가 많음 -차원 축소 -이상치 탐지 모든 클러스터에 친화성이 낮은 샘플이 존재한다면 이 샘플은 이상치일 가능성이 높음 웹사이트 내 행동을 기납으로 사용자 클러스터를 만든 경우 초 당 웹 서버 요청을 비정상적으로 많이 하는 사용자를 감지 해서 이상치로 판정할 수 있음 -준지도 학습: 일부분만 label 이 존재하는 경우 레이블이 없는 데이터에 레이블을 할당 -검색 엔진 -이미지 분할: 물.. 2024. 3. 11.
머신 러닝(9)-차원 축소 1.차원 축소 1)개요 =>머신 러닝의 많은 훈련 샘플들은 여러 개의 특성을 가지고 있음 =>특성의 개수가 많으면 훈련을 느리게 하고 좋은 솔루션을 찾기 어렵게 만드는데 이러 문제를 차원의 저주라고 합니다 =>실전 문제에서는 특성 수를 크게 줄여서 불가능한 문제를 가능한 범위 내로 변경해야 하는 경우가 많습니다 2)차원의 저주 => 고차원에서는 많은 것이 상당히 다르게 동작 =>사각형 안에서 점을 무작위로 선택하면 경계션에서 0.001 정도 거리에 존재할 확률이 0.4% 정도 되는데 10,000 차원이 되면 경계선에 존재할 확률이 99.99999%보다 커짐 => 대부분의 훈련 데이터가 서로 멀리 떨어져 있게 되고 새로운 샘플도 멀리 떨어져 있을 가능성이 높아지게 되서 이 경우 예측을 위해서는 훨씬 더 많.. 2024. 3. 7.
머신러닝(8)-실습(2) 범주형 데이터 이진 분류 1)개요 => https://www.kaggle.com/competitions/cat-in-the-dat Categorical Feature Encoding Challenge | Kaggle www.kaggle.com =>경진대회 이름: 범주형 데이터 이진 분류 =>문제 유형:이진 분류 =>미션은 Target에 속할 확률 =>평가 지표: ROC-AUC =>데이터 -인위적으로 만든 데이터 -피처와 타겟에 대한 의미를 알 수 없음 -제공되는 데이터는 전부 범주형 bin_:이진 범주 nom_:명목형 범주 ord_:순서형 범주 day와 month은 날짜 피쳐 2)데이터 읽어오기 import pandas as pd #데이터 읽어봤더니 각 행을 구분하는 id 속성이 존재 #DataFrame.. 2024. 3. 7.