PYTHON20 NLP(3)-문서 군집화,연관분석,추천시스템 1.문서 군집화 1)개요 =>비슷한 구성의 텍스트 문서를 군집화하는 것 =>텍스트 문서들을 읽어서 피처화 한 후 군집 알고리즘을 적용 =>영화의 줄거리가 있는 경우 비슷한 장르의 영화를 군집화 하는 것이 가능 우리나라 VOD 서비스는 대부분 장르를 업로드하는 곳에서 선택합니다 동일한 VOD인데 장르가 다르게 설정되기도 합니다. 2)문서 군집화 수행 =>데이터:Opinosis 데이터셋 여러 개의 텍스트를 읽어야 할 때는 되도록이면 하나의 디렉토리에 모아놓으면 편리합니다. glob 모듈을 이용해서 경로를 지정하면 경로 안에 있는 모든 파일명을 찾아올 수 있습니다. 확장자 지정도 가능하기 때문에 되도록이면 확장자도 맞추는 것이 좋습니다. 확장자는 or 가 가능합니다. 로그파일은 하나로 구성하는 경우가 별로 없.. 2024. 3. 14. Django(2)-데이터베이스 연동 *데이터베이스 접속 체크 1.데이터베이스 서버를 실행 =>Docker를 실행하고 MySQL 컨테이너를 실행 =>Dbeaver 를 이용해서 접속을 확인 데이터베이스 접속 정보 -사용할 데이터베이스 종류:MySQL -데이터베이스 서버의 URL:localhost(127.0.0.1) -데이터베이스 서버의 포트:3306( MySQL 기본 포트) -데이터베이스 내에서 영역을 구분하기 위한 코드(MySQL의 경우는 데이터베이스):mysql -계정:root -계정 비번:wnddkd MySQL의 경우는 8.0버전을 사용하는 경우 설정을 변경하지 않으면 비밀번호가 암호화되서 접속이 되므로 암호화 해제를 해야함 Django 프로젝트를 생성하고 기본설정을 수정 1)프로젝트를 저장할 디렉토리를 생성하고 프롬프트 이동 2)가상환.. 2024. 1. 25. Python(4)-OOP심화 객체지향 프로그래밍 1)함수형 프로그래밍 과 객체 지향 프로그래밍 =>함수형 프로그래밍은 기능 단위로 작성하는 프로그래밍 방식 유사한 동작을 하는 함수들은 파일로 묶어서 구분 이 방식의 장점은 일반적으로 속도가 빠르고 불필요한 내용을 포함하지 않습니다. 빅데이터 처리 분야에서 많이 사용합니다. =>객체 지향 프로그래밍은 유사한 동작을 하는 함수 나 데이터를 하나로 묶어서 프로그래밍 하는 방식 유사한 동작을 하는 함수 와 데이터를 클래스라는 템플릿으로 묶고 템플릿을 이용해서 인스턴스를 생성해서 사용하는 방식으로 클래스도 하나의 인스턴스로 취급합니다. 2)객체 지향에서 중요한 3가지 =>Encapsulation(캡슐화): 클래스를 만들고 인스턴스를 만드는 것 =>Inheritance(상속): 상위 클래스의 .. 2024. 1. 19. 2607.비슷한 단어 https://www.acmicpc.net/problem/2607 2607번: 비슷한 단어 첫째 줄에는 단어의 개수가 주어지고 둘째 줄부터는 한 줄에 하나씩 단어가 주어진다. 모든 단어는 영문 알파벳 대문자로 이루어져 있다. 단어의 개수는 100개 이하이며, 각 단어의 길이는 10 이 www.acmicpc.net 1.설명 target을 list로 받은 뒤 복사된 리스트를 compare이라고 칭했습니다. 새로운 단어 문자열 word를 받고 compare와 하나씩 비교합니다. compare에 해당 문자 포함되어 있는지 확인합니다. 있으면 remove로 제거하고, 아니면cnt를 1씩 증가시킵니다. 순회가 완료된 뒤의 cnt 값은 target 단어에 포함되지 않은 word의 문자의 개수이고, compare에 남.. 2024. 1. 16. 2512.예산 https://www.acmicpc.net/problem/2512 2512번: 예산 첫째 줄에는 지방의 수를 의미하는 정수 N이 주어진다. N은 3 이상 10,000 이하이다. 다음 줄에는 각 지방의 예산요청을 표현하는 N개의 정수가 빈칸을 사이에 두고 주어진다. 이 값들은 모두 1 이상 www.acmicpc.net 1.설명 문제에서 가능한 최대의 금액을 뽑아야하는 조건이 있습니다.따라서 리스트를 받고 나서 상한액을 점점 키우다가 만약 총 예산을 넘기면 그때 그 값의 -1 을 반환해야합니다. 상한액을 어떻게 키울까 하다가 이분탐색을 활용해 구했습니다. search 기법들은 나중에 한번에 정리해보겠습니다!!! 문제 자체는 이분 탐색(BInary search)이 어떻게 돌아가는지만 알면 문제 자체는 쉽게 풀.. 2024. 1. 11. 20920.영단어 암기는 괴로워 https://www.acmicpc.net/problem/20920 20920번: 영단어 암기는 괴로워 첫째 줄에는 영어 지문에 나오는 단어의 개수 $N$과 외울 단어의 길이 기준이 되는 $M$이 공백으로 구분되어 주어진다. ($1 \leq N \leq 100\,000$, $1 \leq M \leq 10$) 둘째 줄부터 $N+1$번째 줄까지 외울 단 www.acmicpc.net 1.설명 이번 문제에서 봐야할껀 sorted()관련 함수 였습니다. 파이썬에서 sort()함수는 오름차순으로 정렬해주는 함수입니다. 문자열 또한 오름차순으로 정렬이 됩니다.key 매개변수를 가지는 sort()함수는 key값을 기준으로 정렬되고 lambda식을 사용할 수 있습니다. lambda식은 익명함수를 지칭하는 것으로 key인.. 2024. 1. 10. 이전 1 2 3 4 다음