파운데이션 모델이 single-cell RNA에서 protein·DNA·structure·image·spatial까지 확장된다. 어떤 레이어 수학(Transformer/VAE/Discrete Diffusion)을 쓰는지, gene/cell/residue를 어떻게 토큰화하는지, 어떤 태스크는 single modality로 풀리고 어떤 것은 paired multimodal이 필수인지, 그리고 아키텍처 패턴이 그 위에서 어떻게 골라지는지를 한 페이지에 정리했다. 2024–2026 사이에 scaling laws, token unification, perturbation atlases, geometric DL 같은 새 흐름이 굳어지고 있고 — 이 페이지는 우리 wiki에 정리된 모델 카탈로그와 최신 트렌드를 인터랙티브로 따라간다.
멀티모달 파운데이션 모델 corpus는 크게 세 갈래로 나뉜다. Transformer(self-attention 기반, 토큰 시퀀스로 modality를 다룸), VAE(modality-specific encoder + shared latent), Discrete diffusion(absorbing state로 categorical token을 마스크하고 복원). 카드를 클릭하면 수식과 사용 예시가 바뀐다.
표준 구성: token embedding → multi-head self-attention → FFN → LayerNorm, N번 반복. single-cell 데이터엔 gene 순서가 없으므로 transformer를 적용할 때 위치 정보를 어떻게 부여할지가 첫 결정.
scGPT generative attention masking: 매 step마다 일부 gene을 unknown으로 두고 visible set에서 예측, 예측된 gene이 다음 step에서 visible로 추가된다 — 순서 없는 set에 causal masking을 재현. condition token(modality, batch, perturbation)은 별도 토큰으로 들어가 elementwise sum.
scFoundation asymmetric encoder/decoder: 깊은 encoder + 얕은 decoder, MAE 스타일. binning 대신 expression scalar를 continuous projection으로 보존.
foundation model은 결국 "무엇을 토큰으로 보느냐"가 시작이다. 같은 single-cell 데이터를 Geneformer는 rank로, scGPT는 bin으로, scFoundation은 continuous projection으로, scELMo는 LLM이 만든 텍스트 임베딩으로 본다. EpiAgent는 cCRE를 토큰화하고, Tahoe-x1은 drug까지 토큰화한다. 각 카드 클릭 시 토큰 시각화가 바뀐다.
"멀티모달이면 다 좋다"가 답이 아니다. 어떤 task는 RNA 한 layer로도 SOTA가 나온다 (Geneformer가 dosage-sensitive gene을 AUC 0.91로 맞춤). 어떤 task는 paired multi-modal이 없으면 정의 자체가 안 된다 (cis-regulatory link, primed/committed progenitor 분리). 두 컬럼으로 비교.
RNA 단일 modality에서 SOTA가 나오거나, 멀티모달이 정확도를 약간 올릴 뿐 정의가 안 바뀌는 task들.
paired/aligned multimodal data가 본질적으로 필요한 task들. single modality로는 task 자체를 정의할 수 없다.
멀티모달 파운데이션 모델 corpus를 펼치면 몇 가지 패턴으로 환원된다. 가장 단순한 concatenation(거의 안 쓰임)부터 Seurat의 WNN, totalVI/Matilda의 shared-latent VAE, scButterfly의 dual-aligned, UnitedNet의 multi-task fusion, scGPT의 condition token, Cui 2025 비전인 CLIP-style, DPLM-2의 discrete diffusion, 그리고 PINNACLE/ATOMICA의 geometric DL까지. 패턴 버튼을 누르면 architecture 다이어그램이 바뀐다.
"패턴 steady state"가 끝나고, 2024–2026년에는 그 위에서 scaling laws가 경험적으로 확정되고, token unification이 protein → 중심 dogma 전체로 확장되고, perturbation atlas가 1급 modality로 들어오고, general LLM 재활용·spatial native·tri-modal CLIP·평가 강화·virtual cell·geometric DL 같은 갈래가 자리잡았다. 트렌드를 카드로.
wiki에 정리된 모델들을 modality·anchor·아키텍처 패턴으로 분류해서 한 화면에. 검색·필터로 좁힐 수 있고, 각 카드는 모델 이름 + 파라미터 + 입력 modality + 핵심 innovation을 보여준다. protein-anchor 9 모델, single-cell 12 모델, genomic·spatial 8 모델 — 같은 패턴(예: CLIP-style)이 protein과 single-cell 양쪽에서 어떻게 다르게 구현되는지 비교에 유용.
패턴 중 하나를 고르는 기준은 결국 "어떤 데이터가 있고, 어떤 deliverable이 필요한가"다. wiki 자료 기반 추천 매트릭스. 왼쪽에 task, 가운데 추천 패턴/모델, 오른쪽에 그렇게 고르는 이유.
전체 패턴에 공통된 5가지 한계와, Cui 2025가 제시한 열린 방향. AIVC(AI Virtual Cell) substrate가 진짜로 가능해지려면 어디를 더 풀어야 하는가.
CITE-seq·10x Multiome도 RNA-only corpus(CELLxGENE 50M+)에 비하면 작다. 진짜 multimodal pretraining의 cap.
RNA batch는 capture efficiency, ATAC batch는 Tn5 bias — 서로 다른 driver. joint correction이 within-modality보다 어렵다.
~20K gene + ~500K ATAC peak를 동시에 모델링하면 sequence가 폭발. CellPatch의 gene patching이 10–100× 단축.
scGPT attention map·UnitedNet SHAP가 도와주지만 biological causality까지는 못 간다. counterfactual perturbation이 필요한 이유.
Pattern 3(joint VAE)은 variational marginalization, Pattern 4(dual-aligned)는 translation, Pattern 6(condition token)은 explicit "missing" handling이 필요.
DNA + RNA + protein + chromatin + image + spatial을 한 모델에. 엄밀한 벤치마크(cell type 예측, disease pseudo-sample 생성, in silico perturbation), guarded-uncertainty output, open leaderboard. AIVC는 거기서 비로소 가능해진다.
검색·필터로 빠르게 스캔. 각 카드 클릭은 Google Scholar 검색으로 연결. overview·FM·method·review·benchmark로 분류.