1. GPT-1 (2018)
- 기술적 특징
- 파라미터: 1.17억개
- 데이터: BookCorpus (7,000권의 미출판 도서)
- 트레이닝 방식:
- 비지도 사전학습 + 지도학습 미세조정
- 다음 단어 예측 작업으로 학습
- 아키텍처:
- 12-layer 디코더 전용 트랜스포머
- 768 차원의 임베딩
- 12개의 어텐션 헤드
- 주요 혁신
- 트랜스포머 기반 언어 모델 상용화
- 전이 학습의 효과적인 활용
- 제한적이지만 문맥 이해 능력 입증
- 참고문헌: Radford, A., et al. (2018). "Improving Language Understanding by Generative Pre-Training"
2. GPT-2 (2019)
- 기술적 특징
- 파라미터: 15억개 (최대 버전)
- 데이터: WebText (40GB의 고품질 인터넷 텍스트)
- 학습 방식:
- 제로샷 태스크 학습에 초점
- 더 긴 컨텍스트 처리 가능
- 아키텍처:
- 48-layer 트랜스포머
- 1,600 차원의 임베딩
- 25개의 어텐션 헤드
- 주요 발전
- 제로샷 학습 능력 입증
- 고품질 텍스트 생성
- 다양한 태스크 수행 능력
- 컨텍스트 이해도 향상
- 윤리적 고려사항으로 인한 단계적 공개
- 초기: 117M 파라미터 모델
- 중기: 355M 모델
- 후기: 774M 모델
- 최종: 1.5B 모델
- 참고문헌: Radford, A., et al. (2019). "Language Models are Unsupervised Multitask Learners"
3. GPT-3 (2020)
- 기술적 특징
- 파라미터: 1,750억개
- 데이터:
- Common Crawl
- WebText2
- Books1&2
- Wikipedia
- 학습 방식:
- 퓨샷 학습 능력 강화
- 더 큰 컨텍스트 윈도우
- 아키텍처:
- 96-layer 트랜스포머
- 12,288 차원의 임베딩
- 96개의 어텐션 헤드
- 핵심 혁신
- 규모의 효과 입증
- 모델 크기 증가에 따른 성능 향상
- 새로운 능력의 자연스러운 출현
- 퓨샷 학습 능력
- 적은 예시로 새로운 태스크 수행
- 문맥 학습의 효율성
- 다양한 응용 가능성
- 코드 생성
- 번역
- 질문-답변
- 요약
- 규모의 효과 입증
- 한계점
- 계산 비용
- 환경적 영향
- 편향성 문제
- 사실 정확성
- 참고문헌: Brown, T., et al. (2020). "Language Models are Few-Shot Learners"
4. GPT-4 (2023)
- 기술적 특징
- 멀티모달 능력:
- 이미지 이해 및 분석
- 다양한 형식의 입력 처리
- 향상된 추론 능력:
- 복잡한 문제 해결
- 논리적 사고 체인
- 안전성 강화:
- 편향성 감소
- 유해 콘텐츠 필터링
- 멀티모달 능력:
- 주요 발전
- 전문 분야 성능
- 법률
- 의학
- 프로그래밍
- 학문적 분석
- 시스템 통합
- API 기반 서비스
- 플러그인 시스템
- 타 서비스와의 연동
- 안전성 및 제어
- 스팸 방지
- 오용 방지
- 윤리적 가이드라인
- 전문 분야 성능
- 참고문헌: OpenAI. (2023). "GPT-4 Technical Report"
'2. Machine, Deep Learning > Language' 카테고리의 다른 글
[LLM] BERT 정리 (0) | 2025.01.07 |
---|---|
[NLP] 언어 모델의 역사 (0) | 2025.01.07 |