유전 연관분석은 어떻게
신호를 찾는가
GWAS, TADA, burden test, SKAT/SKAT-O, CWAS, LDSC, MAGMA, PRS의 원리를 한 화면에서 비교합니다. ASD와 biobank-scale rare-variant 연구를 중심 예시로 삼았으며, TADA와 CWAS는 아래 deep-dive에서 식과 연구 사례를 함께 풀어 두었습니다. 출처는 모두 Google Scholar 검색으로 연결됩니다.
TADA의 likelihood, 한 발자국씩
TADA(Transmission And De novo Association)는 한 유전자에서 관측된 다섯 가지 카운트를 하나의 Poisson likelihood로 묶고, ~18,000개 유전자가 같이 추정한 prior로 정규화해서 한 점수(Bayes factor)를 만듭니다. 이 섹션은 He 2013의 식을 분해하고, 어떤 데이터가 어떤 parameter를 결정하며, 그 parameter를 흔들면 결과가 어떻게 변하는지를 직접 만져볼 수 있게 풀어 둔 것입니다.
1다섯 가지 카운트 — TADA가 실제로 보는 데이터
한 유전자에 대해 TADA는 trio 데이터에서 세 종류, case-control에서 두 종류, 합쳐서 다섯 카운트를 입력으로 받습니다. 모두 독립적인 Poisson 분포라고 가정합니다.
Xctrl ~ Pois(q Nctrl)
기호: μ 유전자 자체의 de novo mutation rate, q 모집단 내 risk allele 빈도, γ 그 변이가 케이스에 부여하는 상대위험. Nd는 trio 수, Ncase/Nctrl은 케이스/대조 수.
2세 parameter — μ, q, γ가 무엇이고 어디서 오는가
위 다섯 식은 모두 μ, q, γ 세 값으로 환원됩니다. TADA의 모든 inference는 이 셋 중 하나(또는 그 분포)를 추정하는 일입니다.
한 세대당 그 유전자에서 LoF·missense de novo가 일어날 확률. 유전자마다 길이·CpG 비율·flanking context로 다름.
해당 유전자의 risk variant가 모집단에 얼마나 흔한지. risk gene일수록 negative selection이 강해 q가 작음.
γ=1이면 무관, γ>1이면 risk gene. ASD LoF는 평균 γ≈20 (He 2013 추정).
3Empirical Bayes — 왜 single-gene MLE는 망가지는가
한 유전자에서 관측되는 Xd, Xt, Xnt는 대부분 0–2 사이의 작은 정수입니다. 이 카운트만으로 q와 γ의 maximum-likelihood estimate를 구하면 0/0 형태로 발산하거나 모든 유전자가 "γ=∞ 아니면 γ=0"로 갈라져 의미가 없습니다. He 2013은 이 문제를 hierarchical Bayes로 풉니다.
핵심 통찰: 한 유전자의 카운트만 보면 신호가 잡음에 묻힙니다. 하지만 "다른 유전자에서 관측한 multi-hit 빈도와 LoF 분포"가 prior를 아래에서 받쳐주면, 그 정보를 빌려서 각 유전자의 posterior가 안정됩니다. He 2013은 932 trio에서 5개 multi-hit 유전자가 관측된 사실로부터 ASD risk gene이 약 1,000개, 평균 γ≈20.2임을 추정했습니다.
4Bayes factor — 한 유전자, 한 점수
Hyperparameter가 정해지면 각 유전자의 점수는 두 모형 아래 데이터의 marginal likelihood 비율로 정의됩니다. He 2013 식 (2)–(3):
왜 multiplicity test보다 강한가 — multiplicity test는 d ≥ 2 같은 단일 임계값으로 자르지만, BF는 (a) 유전자 길이를 μ로 보정하고, (b) LoF뿐 아니라 missense·inherited·case-control 신호를 모두 합치며, (c) prior가 multiple-testing burden을 자동으로 흡수합니다. He 2013에서 N=5,000 trio일 때 TADA는 de novo 단독 테스트보다 약 5× 더 많은 risk gene을 같은 FDR에서 잡았습니다.
5직접 흔들어보기 — π, γ̄, μ, N 슬라이더
아래 네 슬라이더로 가상의 setting을 만들고, 한 유전자에서 관측되는 de novo 카운트의 분포가 null 가정(γ=1)과 risk-gene 가정(γ=γ̄) 아래 어떻게 다른지, 그리고 그 차이가 Bayes factor로 어떻게 환산되는지 보세요. 위 식에서 q와 inherited transmission을 0으로 두고 de novo 카운트만 추적한 단순화 버전입니다 (실제 TADA는 다섯 카운트를 모두 곱한 BF를 씁니다).
관찰 포인트: (1) γ̄가 커지면 두 분포가 갈라져 BF가 폭발하고 발견 수가 늘어남. (2) μ가 작아지면 null과 risk 모두 0에 몰려 변별이 어려움 — 짧은 유전자에서 같은 유효 신호를 얻으려면 N을 키워야 함. (3) π가 커지면 prior odds가 올라 같은 BF에서도 posterior가 더 risk쪽으로 기울지만 FDR 임계값은 완화됨. (4) N을 늘리면 단순히 카운트 평균이 비례 증가하여 BF의 분리력이 빠르게 좋아짐.
6데이터에서 무엇을 쓰는가
실제 TADA 파이프라인이 각 parameter를 어디서 끌어오는지 정리:
7TADA의 진화
같은 likelihood 골격이지만, 어떤 변이 클래스를 얼마나 깊이 통합했는가에 따라 결과가 달라졌습니다.
1. 변이 스캔
GWAS는 수많은 marker를 하나씩 검사합니다. LD 덕분에 typed/imputed SNP가 근처 causal allele을 대신 tag할 수 있습니다.
Uffelmann 2021; Visscher 20172. 희귀변이 집계
단일 희귀변이는 power가 약하므로 burden test, SKAT/SKAT-O, CWAS는 변이를 유전자, 영역, 기능 주석 단위로 묶어 검사합니다.
Lee 2014; Wu 2011; Werling 2018; Kim 20243. 가족 기반 근거
TADA는 de novo mutation rate, inherited transmission, case-control rare count를 유전자 단위 근거로 합칩니다.
He 2013; Fu 2022; Zhou 20224. 유전구조 해석
LDSC와 S-LDSC는 polygenic signal과 confounding을 구분하고, heritability를 annotation 또는 cell state에 배분합니다.
Bulik-Sullivan 2015; Evans 2018; Yu 20265. 생물학적 번역
MAGMA, PRS, PWAS, functional assay는 association signal을 gene, pathway, prediction, target으로 연결합니다.
de Leeuw 2016; Ge 2019; Hou 2026