μΉ΄ν
κ³ λ¦¬ μμ
[Statistics] Generalized Linear Model)
ν¬κΉ
2025. 4. 4. 16:06
GLM(Generalized Linear Model
- μΌλ° μ ν νκ·μ κ²½μ° λͺ κ°μ§μ κ°μ μ΄ νμνλ€. μ΄λ μ€μ°¨νμ μ νμ±, λ 립μ±, λ±λΆμ°μ±, μ κ·μ±μ΄λ€.
- νμ§λ§ μ’ μλ³μ(Response) $y$κ° μ°μνμ΄ μλ κ²½μ° μ κ·μ± κ°μ μ΄ μ±λ¦½λμ§ μλλ€.→ λ°μ΄ν°μ λΆν¬μ νΉμ±μ λ§κ² λͺ¨λΈμ μ μ°νκ² μ‘°μ ν μ μμ΄ λ€μν μ νκ³Ό μν©μμ μ¬μ©λλ€.
- → μ’ μ λ³μκ° μ΄μ°νμΈ κ²½μ° λ±, μ κ·μ±μ΄ μ±λ¦½νμ§ μλ κ²½μ°μ μΌλ°νμ νλͺ¨ν GLMμ μ¬μ©νλ€.
GLMμ΄λ?
GLMμ μΌλ°νλ μ ν λͺ¨λΈ
μ΄λΌλ λ»μΌλ‘, λ¨μ μ ν νκ·λͺ¨λΈμ κ°λ
μ νμ₯νμ¬ λ€μν λΆν¬μ κ΄κ³λ₯Ό λͺ¨λΈλ§ν μ μλ νλ μμν¬μ΄λ€.
κΈ°λ³Έ μ ν νκ·λ λ 립 λ³μμ μ’ μ λ³μμ κ΄κ³λ₯Ό μ νμ μΌλ‘ μ€λͺ νμ§λ§, GLMμ μ’ μλ³μκ° μ§μμ‘±(Exponential Family) λΆν¬μ μνλ€κ³ κ°μ νκ³ , μ μ ν μνμ λ³ν(Link Function)μ ν΅ν΄ λ€μν ν¨ν΄μ λͺ¨λΈλ§νλ€.
GLMμ ꡬμ±μμ
- μ ν μμΈ‘κΈ°(Linear Predictor) $\eta$
- λ 립λ³μ $X$μ νκ· κ³μ $\beta$μ μ ν κ²°ν©μΌλ‘ μ΄λ£¨μ΄μ§λ©°, λ€μκ³Ό κ°μ΄ ννλλ€.
- $\eta = X\beta$
- μ΄ μ ν κ²°ν©μ μμΈ‘μ νμν κΈ°λ³Έ ꡬ쑰λ₯Ό μ 곡νλ€.
- μ°κ²°ν¨μ(Link Function) $g$
- μ°κ²°ν¨μλ μ ν μμΈ‘κΈ° $\eta$μ μ’ μλ³μμ κΈ°λκ° $\mathbb{E}[Y]$ μ¬μ΄μ κ΄κ³λ₯Ό μ μνλ€.
- λ¨μ μ ν νκ·μμλ μ°κ²° ν¨μκ° νλ±ν¨μ(Identity Function)μ΄μ§λ§, GLMμμλ λ°μ΄ν°μ λΆν¬λ₯Ό λ°μνμ¬ λ€μν ν¨μλ₯Ό μ¬μ©νλ€.
- νλ±ν¨μ : μ ννκ·
- λ‘μ§ν¨μ : λ‘μ§μ€ν±νκ·
- λ‘κ·Έν¨μ : ν¬μμ‘ νκ·
- μλ₯Ό λ€μ΄, λ‘μ§μ€ν± νκ·μμλ λ€μκ³Ό κ°μ μ°κ²° ν¨μκ° μ¬μ©λ©λλ€.
- $$
\eta=g(\mu) = \log{\bigg(\dfrac{\mu}{1-\mu}\bigg)}
$$ - μ΄ Logitν¨μλ μ’
μλ³μκ° 0κ³Ό 1 μ¬μ΄μ κ°μΈ κ²½μ°μ μ ν©νλ€.
- νΉμ κ²½κ³λ₯Ό μ€μ ν΄ μ΄μ§ λΆλ₯μμ μ°κΈ°λ νλ€.
- λΆν¬κ°μ
- GLMμ μ’ μλ³μκ° μ§μμ‘±μ μνλ€κ³ κ°μ νλ€.
- μ κ·λΆν¬, μ΄νλΆν¬, ν¬μμ‘ λΆν¬, κ°λ§λΆν¬ λ± μ¬λ¬ λΆν¬κ° μ΄μ μνλ€.
GLMμ μ₯μ
- GLMμ λ¨μ μ ν νκ· λͺ¨λΈλ³΄λ€
- μ μ°νλ€ : μ’ μλ³μκ° νΉμ λΆν¬λ₯Ό λ°λ₯΄λ κ²½μ°, μ ν©ν Link Functionμ ν΅ν΄ λͺ¨λΈλ§ ν μ μλ€.
- λ€μν λ°μ΄ν° μ νμ μ²λ¦¬ ν μ μλ€ : μ°μν, Binary, Count λ± μ¬λ¬ λ°μ΄ν° μ νμ μ λμ μΌλ‘ μ μ©κ°λ₯νλ€.
- νλ₯ μ ν΄μμ΄ κ°λ₯νλ€ : GLMμ ν΅κ³μ κΈ°λ²μ κΈ°λ°μΌλ‘ νμ¬, λͺ¨λΈμ μ λ’°λμ μ μμ±μ μ λν ν μ μλ€.
GLMμ λ¨μ
- λΆν¬ κ°μ κ³Ό μ°κ²°ν¨μκ° μλͺ»μ€μ λλ©΄ μ±λ₯μ΄ ν¬κ² μ νλ μ μλ€.
- μ ν νκ·μ λΉν΄ 볡μ‘μ± μ¦κ°
μ΅μ ν λ°©λ²
- IRLS
- MLE