1. GPT-1 (2018)
  • 기술적 특징
    • 파라미터: 1.17억개
    • 데이터: BookCorpus (7,000권의 미출판 도서)
    • 트레이닝 방식:
      • 비지도 사전학습 + 지도학습 미세조정
      • 다음 단어 예측 작업으로 학습
    • 아키텍처:
      • 12-layer 디코더 전용 트랜스포머
      • 768 차원의 임베딩
      • 12개의 어텐션 헤드
  • 주요 혁신
    • 트랜스포머 기반 언어 모델 상용화
    • 전이 학습의 효과적인 활용
    • 제한적이지만 문맥 이해 능력 입증
  • 참고문헌: Radford, A., et al. (2018). "Improving Language Understanding by Generative Pre-Training"
2. GPT-2 (2019)
  • 기술적 특징
    • 파라미터: 15억개 (최대 버전)
    • 데이터: WebText (40GB의 고품질 인터넷 텍스트)
    • 학습 방식:
      • 제로샷 태스크 학습에 초점
      • 더 긴 컨텍스트 처리 가능
    • 아키텍처:
      • 48-layer 트랜스포머
      • 1,600 차원의 임베딩
      • 25개의 어텐션 헤드
  • 주요 발전
    • 제로샷 학습 능력 입증
    • 고품질 텍스트 생성
    • 다양한 태스크 수행 능력
    • 컨텍스트 이해도 향상
  • 윤리적 고려사항으로 인한 단계적 공개
    • 초기: 117M 파라미터 모델
    • 중기: 355M 모델
    • 후기: 774M 모델
    • 최종: 1.5B 모델
  • 참고문헌: Radford, A., et al. (2019). "Language Models are Unsupervised Multitask Learners"
3. GPT-3 (2020)
  • 기술적 특징
    • 파라미터: 1,750억개
    • 데이터:
      • Common Crawl
      • WebText2
      • Books1&2
      • Wikipedia
    • 학습 방식:
      • 퓨샷 학습 능력 강화
      • 더 큰 컨텍스트 윈도우
    • 아키텍처:
      • 96-layer 트랜스포머
      • 12,288 차원의 임베딩
      • 96개의 어텐션 헤드
  • 핵심 혁신
    • 규모의 효과 입증
      • 모델 크기 증가에 따른 성능 향상
      • 새로운 능력의 자연스러운 출현
    • 퓨샷 학습 능력
      • 적은 예시로 새로운 태스크 수행
      • 문맥 학습의 효율성
    • 다양한 응용 가능성
      • 코드 생성
      • 번역
      • 질문-답변
      • 요약
  • 한계점
    • 계산 비용
    • 환경적 영향
    • 편향성 문제
    • 사실 정확성
  • 참고문헌: Brown, T., et al. (2020). "Language Models are Few-Shot Learners"
4. GPT-4 (2023)
  • 기술적 특징
    • 멀티모달 능력:
      • 이미지 이해 및 분석
      • 다양한 형식의 입력 처리
    • 향상된 추론 능력:
      • 복잡한 문제 해결
      • 논리적 사고 체인
    • 안전성 강화:
      • 편향성 감소
      • 유해 콘텐츠 필터링
  • 주요 발전
    • 전문 분야 성능
      • 법률
      • 의학
      • 프로그래밍
      • 학문적 분석
    • 시스템 통합
      • API 기반 서비스
      • 플러그인 시스템
      • 타 서비스와의 연동
    • 안전성 및 제어
      • 스팸 방지
      • 오용 방지
      • 윤리적 가이드라인
  • 참고문헌: OpenAI. (2023). "GPT-4 Technical Report"

'2. Machine, Deep Learning > Language' 카테고리의 다른 글

[LLM] BERT 정리  (0) 2025.01.07
[NLP] 언어 모델의 역사  (0) 2025.01.07

+ Recent posts