본문 바로가기

전체 글127

DeepLearning(2)-딥러닝 기초 1.Keras =>모든 종류의 신경망을 손쉽게 만들고 훈련, 평가, 실행할 수 있는 고수준 딥러닝 API =>API 문서는 https://keras.io Keras: Deep Learning for humans A superpower for developers. The purpose of Keras is to give an unfair advantage to any developer looking to ship Machine Learning-powered apps. Keras focuses on debugging speed, code elegance & conciseness, maintainability, and deployability. When you cho keras.io =>거의 모든 딥러닝 라이.. 2024. 3. 19.
Deep Learning(1) - 개요 1.개요 =>여러 비선형 변환 기법의 조합을 통해 높은 수준의 추상화를 시도하는 머신러닝 알고리즘의 집합 =>연속된 층(Layer)에서 점진적으로 의미있는 표현을 배우는 방식 =>기존의 머신러닝 방법은 1~2가지의 데이터 표현을 학습하지는 얕은 학습을 수행하지만 딥 러닝은 수백 개 이상의 층을 이용 =>데이터로부터 표현을 학습하는 수학 모델 =>층을 통과할 때 마다 새로운 데이터 표현을 만들어 가면서 학습 1)작동 원리 =>층에서 입력 데이터가 처리되는 내용은 일련의 숫자로 이루어진 층의 가중치에 저장이 되는데 이는 그 층의 가중치를 parameter로 갖는 함수로 표현 =>이 가중치를 알아낼려면 데이터를 관찰해야 하고 신경망의 출력이 기대하는 것 보다 얼마나 벗어났지를 측정해야 합니다 딥러닝은 기본적으.. 2024. 3. 18.
NLP(4)- 아이템 기반 추천 실습 Data: TMDB 데이터를 활용해서 분석 1.데이터 불러오기 import pandas as pd movies = pd.read_csv("C:\\Users\\User\\Desktop\\데이터\\python_machine_learning-main\\python_machine_learning-main\\data\\movielens\\movies.csv") ratings =pd.read_csv("C:\\Users\\User\\Desktop\\데이터\\python_machine_learning-main\\python_machine_learning-main\\data\\movielens\\ratings.csv") print(ratings.info()) print(movies.info()) 2.데이터 전처리 => .. 2024. 3. 18.
NLP(3)-문서 군집화,연관분석,추천시스템 1.문서 군집화 1)개요 =>비슷한 구성의 텍스트 문서를 군집화하는 것 =>텍스트 문서들을 읽어서 피처화 한 후 군집 알고리즘을 적용 =>영화의 줄거리가 있는 경우 비슷한 장르의 영화를 군집화 하는 것이 가능 우리나라 VOD 서비스는 대부분 장르를 업로드하는 곳에서 선택합니다 동일한 VOD인데 장르가 다르게 설정되기도 합니다. 2)문서 군집화 수행 =>데이터:Opinosis 데이터셋 여러 개의 텍스트를 읽어야 할 때는 되도록이면 하나의 디렉토리에 모아놓으면 편리합니다. glob 모듈을 이용해서 경로를 지정하면 경로 안에 있는 모든 파일명을 찾아올 수 있습니다. 확장자 지정도 가능하기 때문에 되도록이면 확장자도 맞추는 것이 좋습니다. 확장자는 or 가 가능합니다. 로그파일은 하나로 구성하는 경우가 별로 없.. 2024. 3. 14.
NLP(2) - 실습 1.KAGGLE의 IMDB 영화평 지도 학습 기반 => url - https://www.kaggle.com/c/word2vec-nlp-tutorial/data Bag of Words Meets Bags of Popcorn | Kaggle www.kaggle.com =>데이터 구조:id (유저의 아이디), sentiment(감성으로 긍정이 1 , 부정이 0), review(리뷰) 이 경우는 레이블이 있는 데이터를 가지고 범주를 예측하는 것과 동일 자연어는 피처가 문장으로 주어지기 떄문에 문장을 피처 벡터화 작업을 해주는 것이 다릅니다. 이 때 모든 단어를 각각의 피처로 만들고 각 문장은 피처의 존재 여부를 데이터로 소유합니다. 자연어 처리에서 feature 를 만드는 방법이 다른데 , 영어는 word_to.. 2024. 3. 14.
NLP(1)- 자연어 처리 1.NLP(National Language Processing) 1)개요 => 컴퓨터가 인간의 언어를 이해하고 해석하는 것 텍스트 마이닝은 컴퓨터를 이용해서 자연어에서 의미 있는 정보를 추출하는 것 2)텍스트 분석 =>비정형 데이터 인 텍스트를 분석 =>텍스트를 단어 기반의 다수의 feature 로 추출하고 이 feature 에 단어의 빈도수와 같은 숫자를 부여해서 단어의 조합인 벡터로 표현해서 수행 3)기술 영역 =>텍스트 분류:카테고리 분류 =>감성 분석 =>텍스트 요약 =>텍스트 군집 -> 유사도 측정 4)수행 프로세스 =>텍스트 전처리 - 클렌징 - 대소문자 변경 - 특수문자 삭제 - 토큰화 작업: 단어 단위로 쪼개는 것 - 불용어 제거: 분석에서 무의미한 단어를 제거 - 어근 추출: 한글의 경우.. 2024. 3. 13.