nlp3 Deep learning(6) - 자연어처리 1.자연어 처리 1)자연어 처리 분야 =>규칙 기반 처리 =>확률 기반 처리 -자연어 이해 -자연어 생성 2)자연어 처리에서 많이 사용되는 모델 => BERT(Bidirectional Encoder Representations from Transformer) - 사전 학습 단계에서 입력 문장의 좌우 문맥을 고려해서 단어의 Embedding 벡터를 생성한 후 Fine Tuning(미세 조정) 단계에서 해당 과제의 데이터로 추가 학습하여 성능을 개선 =>GPT(Generative Pretrained Transformer) - 단방향 언어 모델 - 이전 단어들을 사용해서 다음 단어를 생성하도록 학습 - 주어지는 문장의 길이나 선택 가능성에 따라 뒤에 올 수 있는 단어의 수는 제한적 3)딥러닝 모델을 사용하기 .. 2024. 3. 25. NLP(2) - 실습 1.KAGGLE의 IMDB 영화평 지도 학습 기반 => url - https://www.kaggle.com/c/word2vec-nlp-tutorial/data Bag of Words Meets Bags of Popcorn | Kaggle www.kaggle.com =>데이터 구조:id (유저의 아이디), sentiment(감성으로 긍정이 1 , 부정이 0), review(리뷰) 이 경우는 레이블이 있는 데이터를 가지고 범주를 예측하는 것과 동일 자연어는 피처가 문장으로 주어지기 떄문에 문장을 피처 벡터화 작업을 해주는 것이 다릅니다. 이 때 모든 단어를 각각의 피처로 만들고 각 문장은 피처의 존재 여부를 데이터로 소유합니다. 자연어 처리에서 feature 를 만드는 방법이 다른데 , 영어는 word_to.. 2024. 3. 14. NLP(1)- 자연어 처리 1.NLP(National Language Processing) 1)개요 => 컴퓨터가 인간의 언어를 이해하고 해석하는 것 텍스트 마이닝은 컴퓨터를 이용해서 자연어에서 의미 있는 정보를 추출하는 것 2)텍스트 분석 =>비정형 데이터 인 텍스트를 분석 =>텍스트를 단어 기반의 다수의 feature 로 추출하고 이 feature 에 단어의 빈도수와 같은 숫자를 부여해서 단어의 조합인 벡터로 표현해서 수행 3)기술 영역 =>텍스트 분류:카테고리 분류 =>감성 분석 =>텍스트 요약 =>텍스트 군집 -> 유사도 측정 4)수행 프로세스 =>텍스트 전처리 - 클렌징 - 대소문자 변경 - 특수문자 삭제 - 토큰화 작업: 단어 단위로 쪼개는 것 - 불용어 제거: 분석에서 무의미한 단어를 제거 - 어근 추출: 한글의 경우.. 2024. 3. 13. 이전 1 다음