Post

Language Model

Based on the lecture “Text Analytics (2024-1)” by Prof. Je Hyuk Lee, Dept. of Data Science, The Grad. School, Kookmin Univ.

Language Model


  • 언어 모형(Language Model) : Word Sequence(문장)에 확률을 할당하여 가장 자연스러운 문장을 탐색하는 모형

Statistical Language Model


SLM

  • SLM(Statistical Language Model) : 조건부 확률을 활용하여 Word Sequence 발생 확률을 부여하는 모형

    P(W)=P(w1,w2,,wn)=P(w1)P(w1,w2)P(w1)P(w1,w2,w3)P(w1,w2)P(w1,w2,,wn)P(w1,w2,,wn1)=P(w1)P(w2w1)P(w3w1,w2)P(wnw1,w2,,wn1)=i=1nP(wiw1,w2,,wi1)
  • 확률 부여 방법

    P(wiw1,w2,,wi1)=Count(w1,w2,,wi)Count(w1,w2,,wi1)
    • Count(w1,w2,,wi) : 말뭉치에서 Word Sequence (w1,w2,,wi) 가 등장한 횟수

n-Gram

  • n-Gram : i 번째 단어를 예측함에 있어 N1 개의 단어만을 활용하는 방법

    P(W)=i=1nP(wiwi(n1),wi(n2),,wi1)
  • How to Select n : 통상 n5 권장

    Problem Small n Large n
    Sparsity Problem
    Long-term Dependency
    • 희소성 문제(Sparsity Problem) : 충분한 데이터를 관측하지 못하여 언어를 정확히 모델링하지 못하는 문제
    • 장기 의존성 문제(Long-term Dependency) : 문맥 내에서 멀리 떨어져 있는 단어들 간의 관계를 처리하는 문제

Neural Networks based Langauge Model


  • 통계적 방법론의 한계점과 그 대안
    • NNLM(Neural Networks Langauge Model) : 임베딩을 활용한 희소성 문제 보완
    • RNNLM(Recurrent Neural Networks Langauge Model) : RNN 계열 레이어를 활용한 장기 의존성 문제 보완
  • How to Generate a Context Vector for wt+1

    03

    • NNLM : t 번째까지 등장한 단어 벡터들의 결합(Concatenation)으로 생성
    • RNNLM : t 번째까지 등장한 단어 벡터들을 RNN 계열 레이어에 순차 입력하여 생성

NNLM

01

  • INPUTPROJECTION
    • Projection : wi=xiW
    • Concatenation : zt=wtn+1wtn+2wt
  • PRJECTIONHIDDEN

    ht=FReLU[zt]
  • HIDDENOUTPUT

    y^t+1=FSoftmax[ht]

RNNLM

02

  • INPUTPROJECTION

    wi=xiW
  • PRJECTIONHIDDEN

    ht,ct=LSTM(wt,ht1,ct1)
  • HIDDENOUTPUT

    y^t+1=FSoftmax[ht]

Metric


  • PPL(PerPLexity) : 언어 모형의 성능 평가 지표

    PPL(W)=P(W)1N=P(w1,w2,,wN)1N=1P(w1,w2,,wN)N=1i=1nP(wNw1,w2,,wN1)N
  • 해석 : 선택 가능한 경우의 수를 의미하는 분기 계수(Branching Factor)로서, 특정 시점마다 평균적으로 고민하는 선택지 수

    PPL(W)=101i=1nP(wNw1,w2,,wN1)N=10i=1nP(wNw1,w2,,wN1)=(110)NP(w1)110P(w2w1)110P(w3w1,w2)110P(wNw1,w2,,wN1)110=(110)N
This post is licensed under CC BY 4.0 by the author.