1.LLM
=> AI와 LLM
AI>머신러닝>인공신경망>딥러닝>GAN>LLM
=>대중의 관심을 받은 것은 2023년 GPT-4 가 발표되면서 관심이 생김
=>언어 모델
- 컴퓨터에게 어떻게 말을 하고 글을 쓰는지 가르치는 것
=>언어 모델의 역사
-통계적 언어 모델: 컴퓨터가 문자이나 단어를 얼마나 자연스럽게 표현할 지를 수학적으로 계산하는 것으로 과거에 데이터를 기반으로 하는 것
어떤 단어가 이렇게 묶여진 사전에서 다음 단어나 이전 단어를 찾아오는 방식
통계적 패턴을 학습해서 문장을 이해하고 새로운 문장을 만들어내는 방식
이 방법은 가능한 모든 n-gram을 데이터베이스에 저장하고 있어야 하기 때문에 데이터베이스에 사전을 만드는 번거로운 작업을 수반
n의 개수가 커질 수록 문맥을 제대로 이해하지 못하는 경우가 많음
-신경망
데이터에서 복잡한 패턴을 학습해서 문제를 해결해 나가는 방식
문장과 레이블을 이용해서 학습을 수행
감성 분석의 경우 단어가 긍정 또는 부정에 영향을 미치는 패턴을 학습하고 있다가 단어가 오면 그 패턴을 이용해서 결과를 만들어내는 방식 (ex. RNN. LSTM)
단어나 구절을 개별적으로 이해하는 방식
-트랜스포머
문장과 단락 전체를 처리할 수 있음
콘텐츠를 생성하고 문장을 요약하는 등으로 활용범위가 넓어짐
이를 이용한 대표적인 모델이 BERT와 GPT
=>LLM(Large Language Model - 거대 언어 모델)
-대규모 데이터로 훈련된 큰 규모의 인공 지능 기반 언어 모델
-GPT -3 모델의 경우 45 TB 데이터로 학습했으면 파라미터가 1750억개
-GPT-4 는 파라미터가 1조 5천억개
GPT 3까지는 텍스트를 생성하는 모델이었는데 GPT-4 부터는 Multi Model
Multi Model 은 여러가지방법을 섞어쓴다는 개념으로 사진, 글, 음성 등 여러 종류의 정보처리를 제공
-PaLM2
구글이 만든 모델
내부 구조를 공개하지 않음
GPT-4 에 비해서 parameter 수가 적다고 알려져 있음
-LLaMA2
페이스북이 만든 언어 모델로 오픈 소스
=>SML
모델의 크기나 학습 데이터의 양, 처리 능력이 LLM보다 작은 모델
=>LLM 활용 방법
-Fine Tuning(파인 튜닝)
기존의 LLM을 특정한 작업이나 상황에 맞게 조금 더 훈련시키는 과정
이미 만들어진 LLM을 의학 분야에서 전문적으로 사용하고자 하는 경우 의학 관련 문서는 추가로 학습시키는 것
이렇게 하면 이미 배운 기본 지식을 유지하면서 특정 분야에 더 정확하고 효과적으로 대응할 수 있게 됩니다
이러한 방식을 전이 학습이라고도 하는데 전이 학습은 조금 더 포괄적인 방법
전이 학습은 추가로 훈련을 하지 않을 수도 있습니다. 이미 만들어진 모델을 그냥 가져다 쓰기도 합니다
-RAG(Retrieval Augmented Generation)
정보 검색과 생성을 결합한 인공지능 모델
복잡하고 정보가 필요한 질문에 답변하기 위해서 설계
-Few Shot Learning
매우 적은 양의 데이터로 학습하는 능력
제로샷: 결코 보지 못한 데이터에 대한 예측을 수행(기린과 원숭이를 구분할 수 있는 모델로 얼룩말을 예측)
원샷: 새로운 데이터 1개만 학습해서 예측을 수행
퓨샷: 새로운 데이터가 여러 개
=>LLM 사용시 주의점
-정보 필터링:외부 사용자가 이용하는 서비스를 만들 떄 입력 문구를 확인해야 합니다.
-법적 규제
-할루시네이션: 부정확하거나 관련 없는 정보를 생성하는 현상
-보안: 대부분의 LLM은 사용자의 정보를 입력 받아서 출력을 만들어내는데 이 때 입력 데이터도 학습
입력데이터가 외부로 노출
이런 일을 방지하기 위해서 서비스를 만들 때 CSP 의 AI 모델을 이용하는 것을 고려
CSP 의 AI 서비스 는 PaaS 형태로 제공 되기 떄문에 제공할 서비스의 품질, 범위 및 책임에 대한 구체적인 기준과 조건을 명시하기 떄문(SLA)
=>한계
-편향과 공정성
-투명성
'Study > Deep learning' 카테고리의 다른 글
Deep Learning(8)-Pytorch (0) | 2024.03.26 |
---|---|
DeepLearning(7)- AutoEncoder,생성모델 (0) | 2024.03.26 |
Deep learning(6) - 자연어처리 (1) | 2024.03.25 |
Deep Learning(5)-RNN (0) | 2024.03.22 |
Deep learning(4) - CNN (0) | 2024.03.21 |