deep learning · SpliceAI · Pangolin · MMSplice

스플라이싱 변이 예측 AI 모델

스플라이싱 예측 모델은 입력 길이, 조직 정보, 출력 점수가 서로 다릅니다. MaxEntScan, SpliceAI, Pangolin, MMSplice, AbSplice, CADD-Splice를 같은 기준에 놓고 질문별로 어떤 모델이 맞는지 비교합니다.

작성자: 김현하  ·  스플라이싱 학습 자료 정리  ·  업데이트: 2026-05-10
스플라이싱 예측 모델 선택기
스플라이싱 예측 모델 비교표
모델 유형 출시 입력 윈도우 출력 다조직 Canonical 성능 Deep Intronic 오픈소스
MaxEntScan Rule 2004 9 nt (5'SS)
23 nt (3'SS)
Splice site 강도 점수 없음 높음 불가 Yes
SpliceAI Deep CNN 2019 10,000 nt DS_AG/AL/DG/DL (0–1) 없음 높음 가능 Yes
Pangolin Deep CNN 2022 10,000 nt 조직별 splice score (53조직) 있음 높음 가능 Yes
MMSplice Modular ML 2019 모듈별 (5'SS, 3'SS, exon, intron) exon inclusion rate 변화 없음 중간 제한적 Yes
AbSplice Ensemble 2022 조직별 aberrant splicing 확률 있음 중간 제한적 Yes
CADD-Splice Ensemble 2021 다양 PHRED-scaled CADD score 없음 중간 제한적 Score 공개
SQUIRLS ML 2021 ±100 nt 병원성 스플라이싱 확률 없음 중간 불가 Yes
SpliceVault Observational 2022 정상인 스플라이싱 레퍼런스 있음 해당없음 해당없음 Web tool
권장 조합: 임상 스플라이싱 변이 분석에서는 SpliceAI (기본) + MaxEntScan (near-splice site 정량) + Pangolin (조직 맥락) + SpliceVault (정상인 비교)를 함께 보는 편이 가장 넓습니다. 계산 결과는 반드시 RNA 실험(RT-PCR)으로 검증해야 합니다.
SpliceAI 아키텍처 개념 — Residual CNN

SpliceAI (Jaganathan et al. 2019 Cell)는 잔차 희석 합성곱 신경망(Residual Dilated CNN)을 사용합니다. 10,000 nt의 DNA 서열을 원-핫 인코딩하여 각 위치가 donor, acceptor, neither일 확률을 예측합니다.

입력 표현

10,000 nt 서열을 4×L 원-핫 행렬로 인코딩 (A/C/G/T). 변이를 삽입한 돌연변이 서열에서 동일하게 예측 → delta score 계산.

Dilated Convolution

팽창 합성곱으로 long-range 서열 문맥을 효율적으로 포착. dilation factor를 증가시키며 1→4→10→25→... 순으로 수용 영역 확대. 10,000 nt 전체를 커버하면서 파라미터 수 절약.

Residual Connection

Skip connection으로 깊은 네트워크(32개 residual block)의 기울기 소실 방지. 각 블록: Conv → BN → ReLU → Conv → BN + Skip → ReLU.

학습 데이터 및 목표
  • GENCODE 어노테이션 기반 donor/acceptor 위치 레이블
  • 인간 게놈 전체 훈련 (GRCh37/38)
  • 3-class classification: donor / acceptor / neither
  • Position-wise softmax 출력 → 각 nt의 splice site 확률
  • 참조 vs 변이 서열 차이 → delta score
MMSplice — 모듈형 접근

MMSplice (Cheng et al. 2019)는 스플라이싱을 모듈로 분해합니다:

  • 5'SS 모듈: donor 부위 강도 예측
  • 3'SS 모듈: acceptor 부위 강도 예측
  • Exon 모듈: 엑손 내 enhancer/silencer 예측
  • Intron 모듈: 인트론 내 조절 서열 예측
  • 각 모듈 출력 → 선형 모델로 통합 → psi (exon inclusion rate) 예측
AbSplice — 조직 특이적 이상 스플라이싱 예측

AbSplice (Wagner et al. 2022 Nature Genetics)는 여러 스플라이싱 예측 모델의 점수를 통합하여 조직별로 이상 스플라이싱이 일어날 확률을 예측합니다.

  • 입력: SpliceAI delta score + MMSplice delta_logit_psi + 조직 특이적 발현 정보
  • GTEx v8 RNA-seq 기반 이상 스플라이싱 사례로 훈련
  • 49개 조직에 대한 이상 스플라이싱 확률 출력
  • 0–1 범위, 높을수록 해당 조직에서 이상 스플라이싱 가능성 높음

SpliceAI vs AbSplice 비교

SpliceAI는 splice site 변화 확률을, AbSplice는 실제 이상 스플라이싱 발생 확률을 봅니다. AbSplice는 false positive를 줄이는 데 유리하지만, 훈련 데이터가 GTEx 성인 조직에 치우쳐 있습니다.

NDD 맥락에 적용할 때

GTEx에는 태아 뇌와 신경 발달 단계 데이터가 부족합니다. 뇌 특이적 isoform이나 신경 분화 관련 스플라이싱은 AbSplice보다 Pangolin 뇌 조직 점수가 더 직접적인 단서를 줄 수 있습니다.

임상 상황별 모델 활용 가이드
임상 상황 1순위 도구 보조 도구 RNA 검증 필요성
Canonical ±1,2 변이
ACMG PVS1 평가
SpliceAI DS_AL/DS_DL MaxEntScan (정량), SpliceVault 확인 권장 (NMD 감수성, rescue isoform)
Near-splice ±3–8 변이
병원성 불명확
SpliceAI + MaxEntScan (MES 변화 %) MMSplice delta_logit_psi SpliceAI >0.2 또는 MES 감소 >20% 시 강력 권장
Deep intronic 변이
Cryptic exon 의심
SpliceAI (DS_AG/DG 확인) Pangolin, MMSplice SpliceAI >0.2 시 반드시 RT-PCR 검증
엑손 내 동의어 변이
ESE 파괴 의심
SpliceAI DS_AL/DL ESEfinder, CADD-Splice SpliceAI >0.1 또는 임상적 의심 시
조직 특이적 스플라이싱 의심
신경계 질환
Pangolin (뇌 조직 점수) AbSplice (뇌 조직), SpliceAI 해당 조직 RNA (또는 iPSC-유래 신경세포) 권장
변이 필터링 / 우선순위화
다수 VUS 처리
SpliceAI (빠른 게놈 전체 적용) CADD-Splice (종합 점수) 상위 변이에 대해서만 선별적 검증
Leaky splicing / 정상 변이체 확인 SpliceVault (GTEx 관찰 기반) SpliceVault에서 정상 패턴 확인 후 병원성 하향 가능

SpliceAI 실행 방법

pip install spliceai. 입력: VCF + 참조 게놈. 출력: 각 변이에 DS_AG/AL/DG/DL + 위치 정보. 사전계산 점수(Illumina BaseSpace)도 쓸 수 있습니다.

MaxEntScan 온라인 사용

http://genes.mit.edu/burgelab/maxent/Xmaxentscan_scoreseq.html. 5'SS: 9 nt 서열 입력 (MAG|GURAGU). 3'SS: 23 nt 서열 입력. 점수 10 이상: 강함, 0 미만: 매우 약함.

SpliceVault 사용

splicevault.broadinstitute.org. 유전자 + 스플라이스 이벤트 입력 → GTEx/정상 RNA-seq에서 해당 패턴 관찰 빈도 확인. 낮은 빈도면 이상 스플라이싱 지지.

모델 한계 공통 주의사항: (1) 모든 예측 모델은 훈련 데이터의 영향을 받으므로 희귀 스플라이싱 패턴을 놓칠 수 있습니다. (2) 모델 점수는 스플라이싱 변화 확률이지 병원성 확률이 아닙니다. (3) 긴 인트론(>100 kb)의 딥 인트로닉 변이는 현재 모델들이 충분히 커버하지 못할 수 있습니다. (4) Tissue-specific AS 모델도 GTEx 성인 조직에 치우쳐 있어 태아 발달 단계의 isoform을 과소예측할 수 있습니다.
ASD/NDD 스플라이싱 변이 분석 흐름
  1. 변이 필터링: SpliceAI Δmax ≥ 0.1로 1차 필터 → 의미있는 스플라이싱 변이 후보 추출
  2. 위치 분류: 각 변이를 canonical / near-splice / deep intronic / exonic으로 분류
  3. 점수 통합: SpliceAI + MaxEntScan + Pangolin 뇌 조직 점수 조합
  4. 전사체 분석: 영향받는 전사체가 MANE Select인지, NMD 감수성인지 확인
  5. SpliceVault 확인: 정상인에서 해당 스플라이싱 패턴 관찰 빈도 체크
  6. 우선순위 변이 검증: RT-PCR (당사자 혈액 또는 당사자-유래 iPSC/신경세포)
  7. ACMG 분류: 위 증거를 종합하여 PVS1/PS3/PM2/PP3 기준 적용
참고 문헌
  1. Yeo G & Burge CB. "Maximum entropy modeling of short sequence motifs with applications to RNA splicing signals." J Comput Biol. 2004. PMID: 15285897
  2. Jaganathan K et al. "Predicting Splicing from Primary Sequence with Deep Learning." Cell. 2019. doi:10.1016/j.cell.2018.12.015. PMID: 30661751
  3. Zeng T & Li YI. "Predicting RNA splicing from DNA sequence using Pangolin." Genome Biol. 2022. doi:10.1186/s13059-022-02664-4. PMID: 35449021
  4. Wagner N et al. "Aberrant splicing prediction across human tissues." Nat Genet. 2023. doi:10.1038/s41588-023-01373-3. PMID: 37142848
  5. Smith et al. "Benchmarking splice variant prediction algorithms using massively parallel splicing assays." 2023. PMID: 37205456
  6. You N et al. "SpliceTransformer predicts tissue-specific splicing linked to human diseases." Nat Commun. 2024. doi:10.1038/s41467-024-53088-6. PMID: 39443442
  7. Jónsson BA et al. "Transformers significantly improve splice site prediction." Commun Biol. 2024. doi:10.1038/s42003-024-07298-9. PMID: 39633146
  8. Walker LC et al. "Using the ACMG/AMP framework to capture evidence related to predicted and observed impact on splicing." Am J Hum Genet. 2023. doi:10.1016/j.ajhg.2023.06.002. PMID: 37352859
  9. Cheng J et al. "MMSplice: modular modeling improves the predictions of genetic variant effects on splicing." Genome Biol. 2019. doi:10.1186/s13059-019-1653-z. PMID: 30823901
  10. Rentzsch P et al. "CADD-Splice—improving genome-wide variant effect prediction using deep learning-derived splice scores." Genome Med. 2021. doi:10.1186/s13073-021-00835-9. PMID: 33618777
  11. Danis D et al. "Interpretable prioritization of splice variants in diagnostic next-generation sequencing." Am J Hum Genet. 2021. doi:10.1016/j.ajhg.2021.06.015. PMID: 34289339