1. 초기 통계적 접근 (1960-1970년대)

  • 통계적 언어 모델의 탄생
    • 1948년 Claude Shannon이 "A Mathematical Theory of Communication"에서 정보 이론 소개
    • 1960년대 IBM의 Frederick Jelinek가 음성 인식을 위한 n-gram 모델 개발
    • 주요 논문: Shannon, C. E. (1948). "A Mathematical Theory of Communication." Bell System Technical Journal.
  • 초기 구현의 한계
    • 하드웨어 제약: 당시 컴퓨터는 수백 KB의 메모리만 보유
    • 데이터 부족: 디지털화된 텍스트 코퍼스 부재
    • 계산 복잡성: n이 증가할수록 n-gram 모델의 복잡도가 기하급수적 증가

2. 신경망 시대의 시작 (1980-1990년대)

  • 초기 신경망 모델
    • 1986년 Rumelhart, Hinton, Williams가 역전파 알고리즘 제안
    • 1989년 Elman이 순환 신경망(RNN) 소개
    • 주요 논문: Rumelhart, D. E., et al. (1986). "Learning representations by back-propagating errors." Nature.
  • 주요 혁신
    • 단어 표현의 분산 표현 개념 도입
    • 문맥 기반 언어 처리의 기초 확립
    • LSTM (1997년, Hochreiter & Schmidhuber) 개발
    • 참고 문헌: Hochreiter, S., & Schmidhuber, J. (1997). "Long Short-Term Memory." Neural Computation.

3. 현대적 접근의 시작 (2000년대 초-중반)

  • 신경망 언어 모델의 발전
    • 2003년 Bengio의 신경망 언어 모델 제안
    • 확률적 문맥 표현 도입
    • 주요 논문: Bengio, Y., et al. (2003). "A Neural Probabilistic Language Model." JMLR.
  • 단어 임베딩의 혁신
    • 2013년 Word2Vec (Mikolov et al.)
    • 2014년 GloVe (Pennington et al.)
    • 참고: Mikolov, T., et al. (2013). "Efficient Estimation of Word Representations in Vector Space." arXiv.

4. 트랜스포머 혁명 (2017-현재)

  • 트랜스포머 아키텍처
    • 2017년 "Attention is All You Need" 논문 발표
    • 어텐션 메커니즘의 혁신적 도입
    • 주요 논문: Vaswani, A., et al. (2017). "Attention is All You Need." NeurIPS.

5. BERT와 양방향 모델 (2018-2019)

  • BERT (2018): 양방향 인코딩 도입 [LLM] BERT 정리
  • GPT-1 (2018): 생성적 사전 학습 도입 [LLM] GPT 정리
  • GPT-2 (2019): 제로샷 학습 능력 입증 
  • GPT-3 (2020): 1,750억 매개변수 규모
  • 참고: Devlin, J., et al. (2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." NAACL.

6. 최신 발전 (2022-2024)

  • 멀티모달 모델
    • DALL-E, Stable Diffusion: 텍스트-이미지 생성
    • GPT-4: 다중 양식 입력 처리
    • 참고: OpenAI. (2023). "GPT-4 Technical Report." arXiv.
  • 특화 모델
    • Github Copilot: 코드 생성 특화
    • ChatGPT: 대화형 인터페이스 최적화
    • Claude: 윤리적 고려사항 강화

'2. Machine, Deep Learning > Language' 카테고리의 다른 글

[LLM] GPT 정리  (2) 2025.01.08
[LLM] BERT 정리  (0) 2025.01.07

+ Recent posts