유전 연관분석 방법 — 인터랙티브 해설

1다섯 가지 카운트 — TADA가 실제로 보는 데이터

한 유전자에 대해 TADA는 trio 데이터에서 세 종류, case-control에서 두 종류, 합쳐서 다섯 카운트를 입력으로 받습니다. 모두 독립적인 Poisson 분포라고 가정합니다.

De novo

X_d ~ Pois(2μγ N_d)

새 변이

Transmitted

X_t ~ Pois(qγ N_d)

전송

Nontransmitted

X_nt ~ Pois(q N_d)

비전송

Case-control

X_case ~ Pois(qγ N_case)
X_ctrl ~ Pois(q N_ctrl)

집단 비교

기호: μ 유전자 자체의 de novo mutation rate, q 모집단 내 risk allele 빈도, γ 그 변이가 케이스에 부여하는 상대위험. N_d는 trio 수, N_case/N_ctrl은 케이스/대조 수.

2세 parameter — μ, q, γ가 무엇이고 어디서 오는가

위 다섯 식은 모두 μ, q, γ 세 값으로 환원됩니다. TADA의 모든 inference는 이 셋 중 하나(또는 그 분포)를 추정하는 일입니다.

μ

유전자별 mutation rate

한 세대당 그 유전자에서 LoF·missense de novo가 일어날 확률. 유전자마다 길이·CpG 비율·flanking context로 다름.

데이터 출처: 외부 calibration. exonic length × tri-nucleotide context model (Samocha 2014 framework). 고정값으로 취급.

q

risk allele 빈도

해당 유전자의 risk variant가 모집단에 얼마나 흔한지. risk gene일수록 negative selection이 강해 q가 작음.

데이터 출처: case-control rare-variant 카운트와 trio의 nontransmitted 카운트. 유전자별로 추정.

γ

상대위험(relative risk)

γ=1이면 무관, γ>1이면 risk gene. ASD LoF는 평균 γ≈20 (He 2013 추정).

데이터 출처: 모든 카운트가 같이 추정. 단일 유전자에서는 데이터가 너무 적어 다음 단계의 EB가 필요함.

3Empirical Bayes — 왜 single-gene MLE는 망가지는가

한 유전자에서 관측되는 X_d, X_t, X_nt는 대부분 0–2 사이의 작은 정수입니다. 이 카운트만으로 q와 γ의 maximum-likelihood estimate를 구하면 0/0 형태로 발산하거나 모든 유전자가 "γ=∞ 아니면 γ=0"로 갈라져 의미가 없습니다. He 2013은 이 문제를 hierarchical Bayes로 풉니다.

① 두 모형의 혼합 가정 전체 유전자의 비율 π는 risk gene(H₁: γ는 분포 위에서 변함), 나머지 1−π는 null gene(H₀: γ=1로 고정).

→

② Prior에 형태 부여 risk gene의 γ는 Gamma(γ̄·β, β) 분포, q도 두 모형에 따라 다른 분포. 이 prior의 hyperparameter는 모든 유전자가 공유하는 단 몇 개의 숫자.

→

③ Marginal likelihood로 hyperparameter 추정 ~18,000개 유전자 데이터의 marginal likelihood를 최대화해 π, γ̄, β, q-prior를 한 번에 결정. Empirical Bayes — prior를 데이터에서 배웁니다.

핵심 통찰: 한 유전자의 카운트만 보면 신호가 잡음에 묻힙니다. 하지만 "다른 유전자에서 관측한 multi-hit 빈도와 LoF 분포"가 prior를 아래에서 받쳐주면, 그 정보를 빌려서 각 유전자의 posterior가 안정됩니다. He 2013은 932 trio에서 5개 multi-hit 유전자가 관측된 사실로부터 ASD risk gene이 약 1,000개, 평균 γ≈20.2임을 추정했습니다.

4Bayes factor — 한 유전자, 한 점수

Hyperparameter가 정해지면 각 유전자의 점수는 두 모형 아래 데이터의 marginal likelihood 비율로 정의됩니다. He 2013 식 (2)–(3):

P(x_i | H₁) = ∫∫ p(x_i | q_i, γ_i) · p(q_i | H₁) · p(γ_i | H₁) dq_i dγ_i — q와 γ의 모든 가능한 값을 prior 가중치로 평균낸 likelihood

B_i = P(x_i | H₁)P(x_i | H₀) — H₁이 H₀보다 데이터를 얼마나 잘 설명하는가

왜 multiplicity test보다 강한가 — multiplicity test는 d ≥ 2 같은 단일 임계값으로 자르지만, BF는 (a) 유전자 길이를 μ로 보정하고, (b) LoF뿐 아니라 missense·inherited·case-control 신호를 모두 합치며, (c) prior가 multiple-testing burden을 자동으로 흡수합니다. He 2013에서 N=5,000 trio일 때 TADA는 de novo 단독 테스트보다 약 5× 더 많은 risk gene을 같은 FDR에서 잡았습니다.

5직접 흔들어보기 — π, γ̄, μ, N 슬라이더

아래 네 슬라이더로 가상의 setting을 만들고, 한 유전자에서 관측되는 de novo 카운트의 분포가 null 가정(γ=1)과 risk-gene 가정(γ=γ̄) 아래 어떻게 다른지, 그리고 그 차이가 Bayes factor로 어떻게 환산되는지 보세요. 위 식에서 q와 inherited transmission을 0으로 두고 de novo 카운트만 추적한 단순화 버전입니다 (실제 TADA는 다섯 카운트를 모두 곱한 BF를 씁니다).

π — risk-gene 비율0.056

전체 ~18,000 유전자 중 몇 %가 risk인가. He 2013 추정 ≈5.6% (1,000/18,000)

γ̄ — 평균 상대위험20.0

risk gene의 LoF가 부여하는 평균 risk multiplier. ASD LoF ≈ 20

μ — 유전자 mutation rate1.0e-5

해당 유전자의 per-chromosome de novo LoF rate. CHD8 같은 큰 유전자 ≈ 5e-5, 짧은 유전자 ≈ 1e-6

N — trio 수10,000

trio cohort 크기. 2013 He 932; 2020 Satterstrom ~12,000; 2022 Zhou 42,000+

Null λ₀ = 2μN

0.20

평균 de novo / 유전자, γ=1

Risk λ₁ = 2μγ̄N

4.00

평균 de novo / 유전자, risk

BF (k=2 관측 시)

—

P(x|H₁)/P(x|H₀)

k=2 관측 후 posterior P(risk)

—

π·BF / (π·BF + 1−π)

FDR≤5%를 잡는 BF threshold

—

π·G risk / 18,000 background

기대 발견 risk gene 수

—

k≥k* 인 risk gene

관찰 포인트: (1) γ̄가 커지면 두 분포가 갈라져 BF가 폭발하고 발견 수가 늘어남. (2) μ가 작아지면 null과 risk 모두 0에 몰려 변별이 어려움 — 짧은 유전자에서 같은 유효 신호를 얻으려면 N을 키워야 함. (3) π가 커지면 prior odds가 올라 같은 BF에서도 posterior가 더 risk쪽으로 기울지만 FDR 임계값은 완화됨. (4) N을 늘리면 단순히 카운트 평균이 비례 증가하여 BF의 분리력이 빠르게 좋아짐.

6데이터에서 무엇을 쓰는가

실제 TADA 파이프라인이 각 parameter를 어디서 끌어오는지 정리:

μ 유전자별 mutation rate exonic length, tri-nucleotide context, replication timing, methylation. 외부 calibration으로 미리 계산되어 TADA에 입력됩니다 (Samocha 2014 framework). 변이 클래스별(LoF / MisB / MisA)로 분리됨.

π, γ̄, β prior hyperparameter 모든 유전자의 multi-hit 빈도로부터 EB. 932 trio에서 multi-hit이 5개라는 사실이 k≈1,000 risk genes, γ̄≈20을 함의 (He 2013). cohort가 커지면 같은 procedure로 재추정.

q 유전자별 allele freq prior case-control rare count + trio nontransmitted로 유전자별 추정 후, EB로 평활. risk gene은 negative selection으로 q가 약 10× 작음 (q≈3e-5 vs 비-risk 6e-4).

변이 클래스 분리 LoF / MisA / MisB / CNV 클래스별로 (μ, γ, q) prior를 따로 추정. Fu 2022는 MPC missense severity, gCNV로 detect한 CNV까지 같은 framework에 합쳐 ASD185 gene set을 만듦.

Inherited 신호 parent → proband 전송 transmitted/nontransmitted 카운트로 TDT-스러운 over-transmission 신호 흡수. Zhou 2022는 이 채널을 강조해 NAV3 같은 inherited-driven moderate-risk gene을 발굴.

Cohort 출처 실제 데이터셋 ASC, MSSNG, SPARK, SSC, AASC, iPSYCH-Broad. 모두 trio 또는 case-control exome/WGS. Zhou 2022는 SPARK 35,130 + 기존 7,665 = 42,607 ASD case로 60 exome-wide significant gene 도달.

7TADA의 진화

같은 likelihood 골격이지만, 어떤 변이 클래스를 얼마나 깊이 통합했는가에 따라 결과가 달라졌습니다.

2013

He · TADA 원형

de novo + transmitted + case-control LoF/missense를 단일 EB framework로. 932 trio.

2020

Satterstrom

35,584 sample · ASC+iPSYCH-Broad. 102 ASD gene at FDR≤0.1. ASD-우세 vs NDD-우세 두 그룹 분리.

2022

Fu · CNV 통합

PTV·MPC missense·gCNV CNV를 한 Bayesian gene framework에. 72 gene at FDR≤0.001, 185 at ≤0.05.

2022

Zhou · Inherited

42,607 ASD case · TADA + TDT. 60 exome-wide significant gene, NAV3 등 inherited-LoF 주도 moderate-risk gene 발굴.

유전 연관분석은 어떻게
신호를 찾는가

GWAS

TADA의 likelihood, 한 발자국씩

1다섯 가지 카운트 — TADA가 실제로 보는 데이터

2세 parameter — μ, q, γ가 무엇이고 어디서 오는가

3Empirical Bayes — 왜 single-gene MLE는 망가지는가

4Bayes factor — 한 유전자, 한 점수

5직접 흔들어보기 — π, γ̄, μ, N 슬라이더

6데이터에서 무엇을 쓰는가

7TADA의 진화

1. 변이 스캔

2. 희귀변이 집계

3. 가족 기반 근거

4. 유전구조 해석

5. 생물학적 번역

핵심 방법 논문

ASD 및 biobank 예시

유전 연관분석은 어떻게신호를 찾는가

GWAS

1다섯 가지 카운트 — TADA가 실제로 보는 데이터

2세 parameter — μ, q, γ가 무엇이고 어디서 오는가

3Empirical Bayes — 왜 single-gene MLE는 망가지는가

4Bayes factor — 한 유전자, 한 점수

5직접 흔들어보기 — π, γ̄, μ, N 슬라이더

6데이터에서 무엇을 쓰는가

7TADA의 진화

1. 변이 스캔

2. 희귀변이 집계

3. 가족 기반 근거

4. 유전구조 해석

5. 생물학적 번역

핵심 방법 논문

ASD 및 biobank 예시

유전 연관분석은 어떻게
신호를 찾는가