시각화를 불러오는 중...

게놈 파운데이션 모델 진화 지도

주요 게놈 파운데이션 모델의 아키텍처 계보, 토큰화 전략, 적용 범위, 그리고 예측에서 설계로 이어지는 흐름을 정리합니다.

작성자: 박우영 · 업데이트: 2026-05-10

gLM

서열 사전학습

9.3T bp

최대 훈련 데이터 (Evo2)

15B

최대 파라미터 (ESMFold)

1M bp

문맥 길이 상한

Architecture 긴 문맥을 읽기 위한 구조 경쟁입니다

Transformer, SSM, CNN, hybrid가 서로 다른 계산 비용과 문맥 길이 문제를 어떻게 푸는지 먼저 봅니다.

Tokenization DNA를 어디서 끊어 읽는지가 해상도를 정합니다

k-mer, BPE, 단일 뉴클레오타이드, 도메인 특화 토큰화는 모델 크기보다 먼저 이해해야 할 축입니다.

Shift 예측 모델에서 설계 모델로 넘어갑니다

변이 효과 예측, 조절 요소 해석, 서열 생성이 하나의 파운데이션 모델 흐름 안에서 가까워지는 장면을 봅니다.

아키텍처 계보: 세 갈래 경쟁에서 하이브리드 수렴으로

Transformer 중심 흐름에서 SSM과 하이브리드 구조가 등장하며 문맥 길이와 파라미터 규모가 어떻게 바뀌었는지 봅니다. 버블 크기는 파라미터 규모, Y축은 문맥 길이(log)입니다.

Transformer

SSM

CNN

Hybrid

Protein LM

모델을 클릭하세요

버블을 클릭하면 해당 모델의 아키텍처, 학습 데이터, 토큰화, 핵심 혁신이 표시됩니다.

토큰화 진화: 어떻게 읽을 것인가

k-mer, BPE, 단일 뉴클레오타이드, 학습 가능 토큰화, 도메인 특화 전략을 비교합니다. 같은 DNA라도 어디서 끊어 읽는지가 모델의 해상도를 바꿉니다.

토큰화 방식을 클릭하세요

각 토큰화의 원리, 장단점, 대표 모델, 성능 변화가 표시됩니다.

적용 범위 확장: DNA에서 멀티모달 생물학으로

DNA 서열 전용 모델이 RNA, 단백질, 후성유전체, mRNA 번역, 변이 효과 해석으로 넓어지는 방향을 정리합니다.

도메인을 클릭하세요

각 도메인의 핵심 과제, 대표 모델, 미해결 문제가 표시됩니다.

예측에서 설계로: 생성형 게놈학의 부상

초기 모델의 이해와 예측 중심 접근이 설계(생성) 능력으로 확장되는 흐름을 시간축에서 봅니다.

Transformer

SSM

CNN

Hybrid

Protein LM

모델을 클릭하세요

해당 모델의 이해/예측/설계 능력과 대표 성과가 표시됩니다.

gLM vs Activity Predictor — 수렴과 미해결 과제

비지도 언어 모델과 지도 학습 activity predictor가 사전학습과 사후학습이라는 하나의 레시피로 가까워지고 있습니다. 다만 형평성, 생물학적 정합, 평가 표준은 여전히 남아 있습니다.

gLM

비지도 서열 사전학습

9.3T

최대 훈련 데이터 (bp)

15B

최대 파라미터

문맥 길이 상한 (bp)

"gLM vs Activity Predictor" 이분법이 무너지고, 비지도 사전학습 + 지도 사후학습이 표준으로 정착 중. 그러나 형평성, 생물학적 정합, 평가 표준의 세 과제가 남아 있다.

형평성 (Equity)

PGS 정확도가 유전적 거리에 따라 연속적으로 감소 (Ding 2023). 훈련 데이터의 유럽인 편향이 개인 수준까지 영향. 다양한 인구집단 데이터 확보가 필수.

생물학적 정합 (Biological Grounding)

FM이 진화적 제약(미스폴딩 독성, 코돈 최적성, slow ramp)을 실제로 학습하고 있는가? 체계적 검증 필요. 동의 코돈 변경이 단백질 기능에 영향을 줄 수 있음.

평가 표준 (Evaluation)

gLM의 "이해"를 측정하는 표준화 벤치마크 부족 (Benegas 2025). 자체 벤치마크로 자체 평가하는 구조적 한계. GUE 등 초기 시도 진행 중.