μΉ΄ν…Œκ³ λ¦¬ μ—†μŒ

[Statistics] Generalized Linear Model)

희김 2025. 4. 4. 16:06

GLM(Generalized Linear Model

  • 일반 μ„ ν˜• νšŒκ·€μ˜ 경우 λͺ‡ κ°€μ§€μ˜ 가정이 ν•„μš”ν•˜λ‹€. μ΄λŠ” μ˜€μ°¨ν•­μ˜ μ„ ν˜•μ„±, 독립성, λ“±λΆ„μ‚°μ„±, μ •κ·œμ„±μ΄λ‹€.
  • ν•˜μ§€λ§Œ μ’…μ†λ³€μˆ˜(Response) $y$κ°€ μ—°μ†ν˜•μ΄ 아닐 경우 μ •κ·œμ„± 가정이 μ„±λ¦½λ˜μ§€ μ•ŠλŠ”λ‹€.→ λ°μ΄ν„°μ˜ 뢄포와 νŠΉμ„±μ— 맞게 λͺ¨λΈμ„ μœ μ—°ν•˜κ²Œ μ‘°μ •ν•  수 μžˆμ–΄ λ‹€μ–‘ν•œ μœ ν˜•κ³Ό μƒν™©μ—μ„œ μ‚¬μš©λœλ‹€.
  • → 쒅속 λ³€μˆ˜κ°€ μ΄μ‚°ν˜•μΈ 경우 λ“±, μ •κ·œμ„±μ΄ μ„±λ¦½ν•˜μ§€ μ•ŠλŠ” κ²½μš°μ— μΌλ°˜ν™”μ„ ν˜•λͺ¨ν˜• GLM을 μ‚¬μš©ν•œλ‹€.

GLMμ΄λž€?

GLM은 μΌλ°˜ν™”λœ μ„ ν˜• λͺ¨λΈ μ΄λΌλŠ” 뜻으둜, λ‹¨μˆœ μ„ ν˜• νšŒκ·€λͺ¨λΈμ˜ κ°œλ…μ„ ν™•μž₯ν•˜μ—¬ λ‹€μ–‘ν•œ 뢄포와 관계λ₯Ό λͺ¨λΈλ§ν•  수 μžˆλŠ” ν”„λ ˆμž„μ›Œν¬μ΄λ‹€.

κΈ°λ³Έ μ„ ν˜• νšŒκ·€λŠ” 독립 λ³€μˆ˜μ™€ 쒅속 λ³€μˆ˜μ˜ 관계λ₯Ό μ„ ν˜•μ μœΌλ‘œ μ„€λͺ…ν•˜μ§€λ§Œ, GLM은 μ’…μ†λ³€μˆ˜κ°€ μ§€μˆ˜μ‘±(Exponential Family) 뢄포에 μ†ν•œλ‹€κ³  κ°€μ •ν•˜κ³ , μ μ ˆν•œ μˆ˜ν•™μ  λ³€ν™˜(Link Function)을 톡해 λ‹€μ–‘ν•œ νŒ¨ν„΄μ„ λͺ¨λΈλ§ν•œλ‹€.

GLM의 κ΅¬μ„±μš”μ†Œ

  1. μ„ ν˜• 예츑기(Linear Predictor) $\eta$
    • λ…λ¦½λ³€μˆ˜ $X$와 νšŒκ·€ κ³„μˆ˜ $\beta$의 μ„ ν˜• κ²°ν•©μœΌλ‘œ 이루어지며, λ‹€μŒκ³Ό 같이 ν‘œν˜„λœλ‹€.
    • $\eta = X\beta$
    • 이 μ„ ν˜• 결합은 μ˜ˆμΈ‘μ— ν•„μš”ν•œ κΈ°λ³Έ ꡬ쑰λ₯Ό μ œκ³΅ν•œλ‹€.
  2. μ—°κ²°ν•¨μˆ˜(Link Function) $g$
    • μ—°κ²°ν•¨μˆ˜λŠ” μ„ ν˜• 예츑기 $\eta$와 μ’…μ†λ³€μˆ˜μ˜ κΈ°λŒ“κ°’ $\mathbb{E}[Y]$ μ‚¬μ΄μ˜ 관계λ₯Ό μ •μ˜ν•œλ‹€.
    • λ‹¨μˆœ μ„ ν˜• νšŒκ·€μ—μ„œλŠ” μ—°κ²° ν•¨μˆ˜κ°€ ν•­λ“±ν•¨μˆ˜(Identity Function)μ΄μ§€λ§Œ, GLMμ—μ„œλŠ” λ°μ΄ν„°μ˜ 뢄포λ₯Ό λ°˜μ˜ν•˜μ—¬ λ‹€μ–‘ν•œ ν•¨μˆ˜λ₯Ό μ‚¬μš©ν•œλ‹€.
    • ν•­λ“±ν•¨μˆ˜ : μ„ ν˜•νšŒκ·€
    • λ‘œμ§“ν•¨μˆ˜ : λ‘œμ§€μŠ€ν‹±νšŒκ·€
    • λ‘œκ·Έν•¨μˆ˜ : 포아솑 νšŒκ·€
    • 예λ₯Ό λ“€μ–΄, λ‘œμ§€μŠ€ν‹± νšŒκ·€μ—μ„œλŠ” λ‹€μŒκ³Ό 같은 μ—°κ²° ν•¨μˆ˜κ°€ μ‚¬μš©λ©λ‹ˆλ‹€.
    • $$
      \eta=g(\mu) = \log{\bigg(\dfrac{\mu}{1-\mu}\bigg)}
      $$
    • 이 Logitν•¨μˆ˜λŠ” μ’…μ†λ³€μˆ˜κ°€ 0κ³Ό 1 μ‚¬μ΄μ˜ 값인 κ²½μš°μ— μ ν•©ν•˜λ‹€.
      • νŠΉμ • 경계λ₯Ό μ„€μ •ν•΄ 이진 λΆ„λ₯˜μ‹œμ— 쓰기도 ν•œλ‹€.
  3. 뢄포가정
    • GLM은 μ’…μ†λ³€μˆ˜κ°€ μ§€μˆ˜μ‘±μ— μ†ν•œλ‹€κ³  κ°€μ •ν•œλ‹€.
    • μ •κ·œλΆ„ν¬, 이항뢄포, 포아솑 뢄포, κ°λ§ˆλΆ„ν¬ λ“± μ—¬λŸ¬ 뢄포가 이에 μ†ν•œλ‹€.

GLM의 μž₯점

  • GLM은 λ‹¨μˆœ μ„ ν˜• νšŒκ·€ λͺ¨λΈλ³΄λ‹€
    • μœ μ—°ν•˜λ‹€ : μ’…μ†λ³€μˆ˜κ°€ νŠΉμ • 뢄포λ₯Ό λ”°λ₯΄λŠ” 경우, μ ν•©ν•œ Link Function을 톡해 λͺ¨λΈλ§ ν•  수 μžˆλ‹€.
    • λ‹€μ–‘ν•œ 데이터 μœ ν˜•μ„ 처리 ν•  수 μžˆλ‹€ : μ—°μ†ν˜•, Binary, Count λ“± μ—¬λŸ¬ 데이터 μœ ν˜•μ— μœ λ™μ μœΌλ‘œ μ μš©κ°€λŠ₯ν•˜λ‹€.
    • ν™•λ₯ μ  해석이 κ°€λŠ₯ν•˜λ‹€ : GLM은 톡계적 기법을 기반으둜 ν•˜μ—¬, λͺ¨λΈμ˜ 신뒰도와 μœ μ˜μ„±μ„ μ •λŸ‰ν™” ν•  수 μžˆλ‹€.

GLM의 단점

  • 뢄포 κ°€μ •κ³Ό μ—°κ²°ν•¨μˆ˜κ°€ 잘λͺ»μ„€μ •λ˜λ©΄ μ„±λŠ₯이 크게 μ €ν•˜λ  수 μžˆλ‹€.
  • μ„ ν˜• νšŒκ·€μ— λΉ„ν•΄ λ³΅μž‘μ„± 증가

μ΅œμ ν™” 방법

  • IRLS
  • MLE