본문 바로가기

추천시스템2

NLP(4)- 아이템 기반 추천 실습 Data: TMDB 데이터를 활용해서 분석 1.데이터 불러오기 import pandas as pd movies = pd.read_csv("C:\\Users\\User\\Desktop\\데이터\\python_machine_learning-main\\python_machine_learning-main\\data\\movielens\\movies.csv") ratings =pd.read_csv("C:\\Users\\User\\Desktop\\데이터\\python_machine_learning-main\\python_machine_learning-main\\data\\movielens\\ratings.csv") print(ratings.info()) print(movies.info()) 2.데이터 전처리 => .. 2024. 3. 18.
NLP(3)-문서 군집화,연관분석,추천시스템 1.문서 군집화 1)개요 =>비슷한 구성의 텍스트 문서를 군집화하는 것 =>텍스트 문서들을 읽어서 피처화 한 후 군집 알고리즘을 적용 =>영화의 줄거리가 있는 경우 비슷한 장르의 영화를 군집화 하는 것이 가능 우리나라 VOD 서비스는 대부분 장르를 업로드하는 곳에서 선택합니다 동일한 VOD인데 장르가 다르게 설정되기도 합니다. 2)문서 군집화 수행 =>데이터:Opinosis 데이터셋 여러 개의 텍스트를 읽어야 할 때는 되도록이면 하나의 디렉토리에 모아놓으면 편리합니다. glob 모듈을 이용해서 경로를 지정하면 경로 안에 있는 모든 파일명을 찾아올 수 있습니다. 확장자 지정도 가능하기 때문에 되도록이면 확장자도 맞추는 것이 좋습니다. 확장자는 or 가 가능합니다. 로그파일은 하나로 구성하는 경우가 별로 없.. 2024. 3. 14.