통계 유전학 방법론 해설

유전 연관분석은 어떻게
신호를 찾는가

GWAS, TADA, burden test, SKAT/SKAT-O, CWAS, LDSC, MAGMA, PRS의 원리를 한 화면에서 비교합니다. ASD와 biobank-scale rare-variant 연구를 중심 예시로 삼았으며, TADA와 CWAS는 아래 deep-dive에서 식과 연구 사례를 함께 풀어 두었습니다. 출처는 모두 Google Scholar 검색으로 연결됩니다.

변이common SNP, rare allele, DNV, CNV, imputed marker
유전자/영역TADA, burden, SKAT, CWAS, MAGMA의 집계 단위
형질case-control, 정량형질, 가족 전송, regulatory annotation
선택한 방법
어떤 근거를 어떤 단위로 읽는지.

GWAS

입력
통계량
강한 신호
주의점
연관 신호 지형도
대립유전자 빈도, 효과 크기, 각 방법이 잘 포착하는 영역.
Common GWAS큰 표본, 작은 OR, LD tagging
Rare aggregation희귀 변이를 유전자/영역 단위로 합침
Family signalDNV와 전송 불균형은 population control 의존을 줄임
해석 단계locus를 유전자, pathway, cell state, risk score로 번역
신호 직관 콘솔
정식 power calculator는 아니고, 원리를 눈으로 보게 하는 장치입니다.
Deep-dive · TADA · Empirical Bayes

TADA의 likelihood, 한 발자국씩

TADA(Transmission And De novo Association)는 한 유전자에서 관측된 다섯 가지 카운트를 하나의 Poisson likelihood로 묶고, ~18,000개 유전자가 같이 추정한 prior로 정규화해서 한 점수(Bayes factor)를 만듭니다. 이 섹션은 He 2013의 식을 분해하고, 어떤 데이터가 어떤 parameter를 결정하며, 그 parameter를 흔들면 결과가 어떻게 변하는지를 직접 만져볼 수 있게 풀어 둔 것입니다.

1다섯 가지 카운트 — TADA가 실제로 보는 데이터

한 유전자에 대해 TADA는 trio 데이터에서 세 종류, case-control에서 두 종류, 합쳐서 다섯 카운트를 입력으로 받습니다. 모두 독립적인 Poisson 분포라고 가정합니다.

De novo
Xd ~ Pois(2μγ Nd)
새 변이
Transmitted
Xt ~ Pois(qγ Nd)
전송
Nontransmitted
Xnt ~ Pois(q Nd)
비전송
Case-control
Xcase ~ Pois(qγ Ncase)
Xctrl ~ Pois(q Nctrl)
집단 비교

기호: μ 유전자 자체의 de novo mutation rate, q 모집단 내 risk allele 빈도, γ 그 변이가 케이스에 부여하는 상대위험. Nd는 trio 수, Ncase/Nctrl은 케이스/대조 수.

2세 parameter — μ, q, γ가 무엇이고 어디서 오는가

위 다섯 식은 모두 μ, q, γ 세 값으로 환원됩니다. TADA의 모든 inference는 이 셋 중 하나(또는 그 분포)를 추정하는 일입니다.

μ
유전자별 mutation rate

한 세대당 그 유전자에서 LoF·missense de novo가 일어날 확률. 유전자마다 길이·CpG 비율·flanking context로 다름.

데이터 출처: 외부 calibration. exonic length × tri-nucleotide context model (Samocha 2014 framework). 고정값으로 취급.
q
risk allele 빈도

해당 유전자의 risk variant가 모집단에 얼마나 흔한지. risk gene일수록 negative selection이 강해 q가 작음.

데이터 출처: case-control rare-variant 카운트와 trio의 nontransmitted 카운트. 유전자별로 추정.
γ
상대위험(relative risk)

γ=1이면 무관, γ>1이면 risk gene. ASD LoF는 평균 γ≈20 (He 2013 추정).

데이터 출처: 모든 카운트가 같이 추정. 단일 유전자에서는 데이터가 너무 적어 다음 단계의 EB가 필요함.

3Empirical Bayes — 왜 single-gene MLE는 망가지는가

한 유전자에서 관측되는 Xd, Xt, Xnt는 대부분 0–2 사이의 작은 정수입니다. 이 카운트만으로 q와 γ의 maximum-likelihood estimate를 구하면 0/0 형태로 발산하거나 모든 유전자가 "γ=∞ 아니면 γ=0"로 갈라져 의미가 없습니다. He 2013은 이 문제를 hierarchical Bayes로 풉니다.

① 두 모형의 혼합 가정 전체 유전자의 비율 π는 risk gene(H₁: γ는 분포 위에서 변함), 나머지 1−π는 null gene(H₀: γ=1로 고정).
② Prior에 형태 부여 risk gene의 γ는 Gamma(γ̄·β, β) 분포, q도 두 모형에 따라 다른 분포. 이 prior의 hyperparameter는 모든 유전자가 공유하는 단 몇 개의 숫자.
③ Marginal likelihood로 hyperparameter 추정 ~18,000개 유전자 데이터의 marginal likelihood를 최대화해 π, γ̄, β, q-prior를 한 번에 결정. Empirical Bayes — prior를 데이터에서 배웁니다.

핵심 통찰: 한 유전자의 카운트만 보면 신호가 잡음에 묻힙니다. 하지만 "다른 유전자에서 관측한 multi-hit 빈도와 LoF 분포"가 prior를 아래에서 받쳐주면, 그 정보를 빌려서 각 유전자의 posterior가 안정됩니다. He 2013은 932 trio에서 5개 multi-hit 유전자가 관측된 사실로부터 ASD risk gene이 약 1,000개, 평균 γ≈20.2임을 추정했습니다.

4Bayes factor — 한 유전자, 한 점수

Hyperparameter가 정해지면 각 유전자의 점수는 두 모형 아래 데이터의 marginal likelihood 비율로 정의됩니다. He 2013 식 (2)–(3):

P(xi | H1) = ∫∫ p(xi | qi, γi) · p(qi | H1) · p(γi | H1) dqii — q와 γ의 모든 가능한 값을 prior 가중치로 평균낸 likelihood
Bi  =  P(xi | H1)P(xi | H0) — H1이 H0보다 데이터를 얼마나 잘 설명하는가

왜 multiplicity test보다 강한가 — multiplicity test는 d ≥ 2 같은 단일 임계값으로 자르지만, BF는 (a) 유전자 길이를 μ로 보정하고, (b) LoF뿐 아니라 missense·inherited·case-control 신호를 모두 합치며, (c) prior가 multiple-testing burden을 자동으로 흡수합니다. He 2013에서 N=5,000 trio일 때 TADA는 de novo 단독 테스트보다 약 5× 더 많은 risk gene을 같은 FDR에서 잡았습니다.

5직접 흔들어보기 — π, γ̄, μ, N 슬라이더

아래 네 슬라이더로 가상의 setting을 만들고, 한 유전자에서 관측되는 de novo 카운트의 분포가 null 가정(γ=1)과 risk-gene 가정(γ=γ̄) 아래 어떻게 다른지, 그리고 그 차이가 Bayes factor로 어떻게 환산되는지 보세요. 위 식에서 q와 inherited transmission을 0으로 두고 de novo 카운트만 추적한 단순화 버전입니다 (실제 TADA는 다섯 카운트를 모두 곱한 BF를 씁니다).

Null λ₀ = 2μN
0.20
평균 de novo / 유전자, γ=1
Risk λ₁ = 2μγ̄N
4.00
평균 de novo / 유전자, risk
BF (k=2 관측 시)
P(x|H₁)/P(x|H₀)
k=2 관측 후 posterior P(risk)
π·BF / (π·BF + 1−π)
FDR≤5%를 잡는 BF threshold
π·G risk / 18,000 background
기대 발견 risk gene 수
k≥k* 인 risk gene

관찰 포인트: (1) γ̄가 커지면 두 분포가 갈라져 BF가 폭발하고 발견 수가 늘어남. (2) μ가 작아지면 null과 risk 모두 0에 몰려 변별이 어려움 — 짧은 유전자에서 같은 유효 신호를 얻으려면 N을 키워야 함. (3) π가 커지면 prior odds가 올라 같은 BF에서도 posterior가 더 risk쪽으로 기울지만 FDR 임계값은 완화됨. (4) N을 늘리면 단순히 카운트 평균이 비례 증가하여 BF의 분리력이 빠르게 좋아짐.

6데이터에서 무엇을 쓰는가

실제 TADA 파이프라인이 각 parameter를 어디서 끌어오는지 정리:

μ 유전자별 mutation rate exonic length, tri-nucleotide context, replication timing, methylation. 외부 calibration으로 미리 계산되어 TADA에 입력됩니다 (Samocha 2014 framework). 변이 클래스별(LoF / MisB / MisA)로 분리됨.
π, γ̄, β prior hyperparameter 모든 유전자의 multi-hit 빈도로부터 EB. 932 trio에서 multi-hit이 5개라는 사실이 k≈1,000 risk genes, γ̄≈20을 함의 (He 2013). cohort가 커지면 같은 procedure로 재추정.
q 유전자별 allele freq prior case-control rare count + trio nontransmitted로 유전자별 추정 후, EB로 평활. risk gene은 negative selection으로 q가 약 10× 작음 (q≈3e-5 vs 비-risk 6e-4).
변이 클래스 분리 LoF / MisA / MisB / CNV 클래스별로 (μ, γ, q) prior를 따로 추정. Fu 2022는 MPC missense severity, gCNV로 detect한 CNV까지 같은 framework에 합쳐 ASD185 gene set을 만듦.
Inherited 신호 parent → proband 전송 transmitted/nontransmitted 카운트로 TDT-스러운 over-transmission 신호 흡수. Zhou 2022는 이 채널을 강조해 NAV3 같은 inherited-driven moderate-risk gene을 발굴.
Cohort 출처 실제 데이터셋 ASC, MSSNG, SPARK, SSC, AASC, iPSYCH-Broad. 모두 trio 또는 case-control exome/WGS. Zhou 2022는 SPARK 35,130 + 기존 7,665 = 42,607 ASD case로 60 exome-wide significant gene 도달.

7TADA의 진화

같은 likelihood 골격이지만, 어떤 변이 클래스를 얼마나 깊이 통합했는가에 따라 결과가 달라졌습니다.

2013
He · TADA 원형
de novo + transmitted + case-control LoF/missense를 단일 EB framework로. 932 trio.
2020
Satterstrom
35,584 sample · ASC+iPSYCH-Broad. 102 ASD gene at FDR≤0.1. ASD-우세 vs NDD-우세 두 그룹 분리.
2022
Fu · CNV 통합
PTV·MPC missense·gCNV CNV를 한 Bayesian gene framework에. 72 gene at FDR≤0.001, 185 at ≤0.05.
2022
Zhou · Inherited
42,607 ASD case · TADA + TDT. 60 exome-wide significant gene, NAV3 등 inherited-LoF 주도 moderate-risk gene 발굴.

1. 변이 스캔

GWAS는 수많은 marker를 하나씩 검사합니다. LD 덕분에 typed/imputed SNP가 근처 causal allele을 대신 tag할 수 있습니다.

Uffelmann 2021; Visscher 2017

2. 희귀변이 집계

단일 희귀변이는 power가 약하므로 burden test, SKAT/SKAT-O, CWAS는 변이를 유전자, 영역, 기능 주석 단위로 묶어 검사합니다.

Lee 2014; Wu 2011; Werling 2018; Kim 2024

3. 가족 기반 근거

TADA는 de novo mutation rate, inherited transmission, case-control rare count를 유전자 단위 근거로 합칩니다.

He 2013; Fu 2022; Zhou 2022

4. 유전구조 해석

LDSC와 S-LDSC는 polygenic signal과 confounding을 구분하고, heritability를 annotation 또는 cell state에 배분합니다.

Bulik-Sullivan 2015; Evans 2018; Yu 2026

5. 생물학적 번역

MAGMA, PRS, PWAS, functional assay는 association signal을 gene, pathway, prediction, target으로 연결합니다.

de Leeuw 2016; Ge 2019; Hou 2026

핵심 방법 논문

    ASD 및 biobank 예시