kmeans1 NLP(3)-문서 군집화,연관분석,추천시스템 1.문서 군집화 1)개요 =>비슷한 구성의 텍스트 문서를 군집화하는 것 =>텍스트 문서들을 읽어서 피처화 한 후 군집 알고리즘을 적용 =>영화의 줄거리가 있는 경우 비슷한 장르의 영화를 군집화 하는 것이 가능 우리나라 VOD 서비스는 대부분 장르를 업로드하는 곳에서 선택합니다 동일한 VOD인데 장르가 다르게 설정되기도 합니다. 2)문서 군집화 수행 =>데이터:Opinosis 데이터셋 여러 개의 텍스트를 읽어야 할 때는 되도록이면 하나의 디렉토리에 모아놓으면 편리합니다. glob 모듈을 이용해서 경로를 지정하면 경로 안에 있는 모든 파일명을 찾아올 수 있습니다. 확장자 지정도 가능하기 때문에 되도록이면 확장자도 맞추는 것이 좋습니다. 확장자는 or 가 가능합니다. 로그파일은 하나로 구성하는 경우가 별로 없.. 2024. 3. 14. 이전 1 다음