Transformer, SSM, CNN, hybrid가 서로 다른 계산 비용과 문맥 길이 문제를 어떻게 푸는지 먼저 봅니다.
시각화를 불러오는 중...
주요 게놈 파운데이션 모델의 아키텍처 계보, 토큰화 전략, 적용 범위, 그리고 예측에서 설계로 이어지는 흐름을 정리합니다.
Transformer, SSM, CNN, hybrid가 서로 다른 계산 비용과 문맥 길이 문제를 어떻게 푸는지 먼저 봅니다.
k-mer, BPE, 단일 뉴클레오타이드, 도메인 특화 토큰화는 모델 크기보다 먼저 이해해야 할 축입니다.
변이 효과 예측, 조절 요소 해석, 서열 생성이 하나의 파운데이션 모델 흐름 안에서 가까워지는 장면을 봅니다.
Transformer 중심 흐름에서 SSM과 하이브리드 구조가 등장하며 문맥 길이와 파라미터 규모가 어떻게 바뀌었는지 봅니다. 버블 크기는 파라미터 규모, Y축은 문맥 길이(log)입니다.
버블을 클릭하면 해당 모델의 아키텍처, 학습 데이터, 토큰화, 핵심 혁신이 표시됩니다.
k-mer, BPE, 단일 뉴클레오타이드, 학습 가능 토큰화, 도메인 특화 전략을 비교합니다. 같은 DNA라도 어디서 끊어 읽는지가 모델의 해상도를 바꿉니다.
각 토큰화의 원리, 장단점, 대표 모델, 성능 변화가 표시됩니다.
DNA 서열 전용 모델이 RNA, 단백질, 후성유전체, mRNA 번역, 변이 효과 해석으로 넓어지는 방향을 정리합니다.
각 도메인의 핵심 과제, 대표 모델, 미해결 문제가 표시됩니다.
초기 모델의 이해와 예측 중심 접근이 설계(생성) 능력으로 확장되는 흐름을 시간축에서 봅니다.
해당 모델의 이해/예측/설계 능력과 대표 성과가 표시됩니다.
비지도 언어 모델과 지도 학습 activity predictor가 사전학습과 사후학습이라는 하나의 레시피로 가까워지고 있습니다. 다만 형평성, 생물학적 정합, 평가 표준은 여전히 남아 있습니다.
"gLM vs Activity Predictor" 이분법이 무너지고, 비지도 사전학습 + 지도 사후학습이 표준으로 정착 중. 그러나 형평성, 생물학적 정합, 평가 표준의 세 과제가 남아 있다.
PGS 정확도가 유전적 거리에 따라 연속적으로 감소 (Ding 2023). 훈련 데이터의 유럽인 편향이 개인 수준까지 영향. 다양한 인구집단 데이터 확보가 필수.
FM이 진화적 제약(미스폴딩 독성, 코돈 최적성, slow ramp)을 실제로 학습하고 있는가? 체계적 검증 필요. 동의 코돈 변경이 단백질 기능에 영향을 줄 수 있음.
gLM의 "이해"를 측정하는 표준화 벤치마크 부족 (Benegas 2025). 자체 벤치마크로 자체 평가하는 구조적 한계. GUE 등 초기 시도 진행 중.