Virtual Cell · Single-cell Foundation Models · 한글 인터랙티브 해설
싱글셀 파운데이션 모델
2022년 scBERT가 BERT를 단세포에 처음 끼워 넣은 뒤, 학습 corpus는 수백만 → 3억 5천만 cells로,
파라미터는 10M → 27B로 커졌다. 핵심 흐름은
토큰화 전략 / 핵심 모델 / 비판적 벤치마크 / Virtual Cell 비전으로 나뉜다.
처음 보는 사람을 위해 scRNA-seq · transformer · 토큰화 · foundation model의 기초 개념도 위에 따로 정리했다.
350M cells최대 학습 corpus (scPRINT-2)
27B params최대 모델 (C2S-Scale)
00
읽기 전 — 기초 개념
scRNA-seq, transformer, 토큰화, foundation model — 이 네 가지를 모르면 본문이 잘 읽히지 않는다.
각각 한 카드로 압축. 아는 부분은 빠르게 넘기고, 모르는 부분만 보고 넘어가도 된다.
① biology · scRNA-seq
단세포 RNA-seq 한 장 요약
세포 한 개씩 mRNA를 sequencing해서 만든 cells × genes 행렬 (보통 ~20,000 유전자).
한 셀 안에서 70-90%가 0(드롭아웃·낮은 발현)이라 매우 sparse하고, 유전자에는 자연스러운 순서가 없다 — DNA처럼 5'→3' 같은 위치가 없다.
고전 파이프라인은 normalize → HVG (highly variable genes) → PCA → UMAP → Leiden clustering → marker gene으로 cell type 라벨링.
celli = (g1, g2, …, g20K) ∈ ℕ20K
② model · transformer
Attention과 MLM 두 줄 요약
Transformer는 입력을 토큰 시퀀스로 받아 각 토큰이 다른 모든 토큰을 "쳐다보며"(self-attention) 표현을 만든다.
BERT는 일부 토큰을 [MASK]로 가리고 맞히게 학습(MLM = masked language modeling).
GPT는 다음 토큰을 자동회귀적으로 생성(CLM). 단세포 모델은 이런 언어모델 문법을 gene expression에 옮긴 시도다.
Attention(Q,K,V) = softmax(QK⊤/√d) · V
③ design · tokenization
유전자를 토큰으로 만드는 법
NLP에선 단어가 토큰이지만, 단세포에선 토큰을 어떻게 정의할지가 곧 모델 디자인이다.
① FG (gene identity) — gene ID 자체를 어떻게 임베딩할지(random / gene2vec / ESM2 단백질 / GPT 텍스트).
② FE (expression) — 발현값을 어떻게 표현할지(continuous / binning / no-op).
③ ORDER — 어떤 순서로 줄세울지(random / 발현 순위 / 염색체).
다섯 가지 대표 모델이 이 3축에서 어떻게 다른지는 §05에서 분해한다.
token = (FG_emb, FE_emb, ORDER_pos)
④ foundation model 흐름
Foundation model이란
라벨 없는 큰 데이터로 자기지도학습 (SSL)을 한 번만 시켜 두면, 다양한 다운스트림 태스크에 이 가중치를 가져다 쓰는 패러다임.
NLP의 BERT/GPT, 비전의 CLIP/DINO의 생물학판이다. 단세포에선 cell type annotation, perturbation 예측, batch correction, GRN 추론, expression 복원, drug response 예측 등이 표준 태스크다.
한계는 §07 — "후속 벤치마크에서는 SOTA가 아닐 수 있다"는 비판이 누적되고 있다.
pretrain (SSL on M cells) → fine-tune (k labels) → predict
01
scRNA-seq의 난제 — 왜 일반 Transformer를 그대로 쓸 수 없는가
일반 Transformer를 단세포에 그대로 들이대면 셋 다 무너진다. 모든 scRNA-seq 파운데이션 모델은 이 셋 중 하나 이상을 어떻게 다룰지에 대한 설계적 선택이다.
① 길이 폭발
20,000 유전자 = 20,000 토큰
BERT 한 문장은 보통 512 토큰. 한 셀의 발현 벡터는 ~20,000 차원.
표준 self-attention은 O(L²) 복잡도라 그대로 쓸 수 없다.
헤더 클릭으로 정렬, 검색창에서 키워드 필터. L 컬럼은 license — open은 코드+가중치 공개,
weights는 가중치만(코드 부분 공개), gemma는 Gemma 라이선스 종속, —는 미확인. 모든 수치는 정리 노트와 원 논문 기준.
표시 16 / 총 16
Year
Model · 저자
Strategy
Architecture
Params
Cells (training)
Organisms
Context
Objective
Best task
L
Code
05
토크나이저 디자인 스페이스 — FG × FE × ORDER
Haber et al. (HEIMDALL, 2026)은 단세포 transformer의 토크나이저를 세 모듈로 분해해 비교했다.
아래 세 축을 토글하면 그 조합과 일치하는 모델이 매트릭스에서 노란색으로 강조된다.
가장 영향이 큰 모듈은 FG (gene identity), 그 다음이 ORDER, 그 다음이 FE (expression)이며,
분포 이동(cross-tissue, cross-species)에서만 차이가 드러난다.
FG · gene identity"무엇"
유전자 ID를 어떤 임베딩으로 표현할까. random 초기화 / 공발현 (gene2vec) / 단백질 서열 (ESM2) / GPT 텍스트 / random 중에서.
Continuous expression을 vocab 토큰으로 변환해 LM 아키텍처에 그대로 얹기 좋다.
scFoundation
random
continuous
expression-sorted
Scalar→vector 직접 projection. Discretization loss 없음. Asymmetric encoder가 이를 활용.
UCE
ESM2
no-op
chromosome
Perturbation reverse task에서 가장 약했다 (MCC 0.17). FE가 빠진 것이 결정적.
HEIMDALL 결론: in-distribution에서는 토크나이저가 별 차이 없지만, cross-tissue/cross-species shift에서
scBERT-tok ≈ Geneformer-tok > scGPT-tok > scFoundation-tok ≫ UCE-tok 순으로 격차가 생긴다.
모듈을 섞은 하이브리드 (Gene2vec FG + integer FE + expression-sorted ORDER)가 가장 좋았다 — 어떤 단일 모델 토크나이저도 최적이 아니다.
06
다운스트림 태스크 — cell 임베딩 vs gene 임베딩
foundation model의 가치는 결국 다운스트림 성능. cell-level 임베딩이 잘 되는 태스크와 gene-level 임베딩이 잘 되는 태스크로 나뉜다.
"공식 발표 SOTA"와 "후속 벤치마크"의 결과가 다른 경우를 함께 표기 — 자세한 비판은 §07.
task 01
cell embedding
Cell type annotation
Reference로 fine-tune된 분류기. scGPT, CellFM, Geneformer가 자체 벤치마크에서 우위. 그러나 zero-shot 평가에선 HVG·scVI·Harmony에 밀린다 (Kedzierska 2025).
vs · Seurat · SingleR · ACTINN · scVI
task 02
cell embedding
Batch correction · integration
다른 lab/protocol 데이터를 같은 latent space에 정렬. scGPT가 복잡한 데이터셋에서 우위, Geneformer는 batch에 지배되는 경우가 잦다.
vs · Harmony · scVI · Scanorama
task 03
cell embedding
Drug response · IC50
bulk RNA-seq 임베딩 → 약물 IC50 회귀. scFoundation이 GDSC 벤치마크 SOTA.
Tahoe-x1은 100M perturbed cell 학습으로 cancer hallmarks·gene essentiality에서 SOTA.
vs · DeepCDR · CDPMF
task 04
gene embedding
Perturbation prediction
gene KO/OE/drug 후 transcriptome 예측. scGPT, GEARS+scFoundation embedding이 자체 발표 SOTA.
그러나 train-mean baseline이 일부 셋팅에서 foundation model을 이긴다 (Csendes 2025, Wei 2025).
vs · GEARS · CPA · train-mean
task 05
gene embedding
GRN · gene module inference
attention 가중치 또는 gene embedding 유사도로 regulatory network 추론.
scGPT의 attention-GRN, scPRINT-2의 graph-based가 알려진 interaction에 enrichment. 메커니즘 검증은 후속 연구 몫.
vs · GENIE3 · ARACNE · SCENIC
task 06
gene embedding
Imputation · denoising
sparse matrix의 0을 복원. scFoundation의 Read-Depth-Aware (RDA)가 expression reconstruction SOTA,
scPRINT-2 XPressor가 imputation SOTA. 단, T/S=1(no enhancement)에선 SAVER에 진다.
vs · SAVER · MAGIC · scImpute · scVI
07
Reality Check — 자체 SOTA vs 후속 벤치마크
같은 모델, 다른 평가. 비판 논문들이 같은 구조의 메시지를 보낸다 — fine-tune 데이터가 작거나 평가 지표가 task-specific일수록 foundation model의 우위가 사라진다.
탭을 클릭해 핵심 발견을 비교해 보세요.
TL;DR. Geneformer와 scGPT를 fine-tune 없이 그대로 쓰면, HVG (highly variable genes)라는 가장 단순한 baseline에도 cell type clustering에서 진다. scVI·Harmony도 마찬가지. fine-tune 성공 ≠ zero-shot 효용.
5개 데이터셋 (Pancreas, PBMC 12k, Tabula Sapiens, Immune…) 에서 HVG > Geneformer > scGPT 순. AvgBio·ASW 두 metric 모두.
scGPT를 random init과 비교했을 때 pretrain은 효과는 있다 — 단, data scale이 항상 도움이 되진 않음 (human 33M이 blood 10M보다 약간 낮음).
TL;DR. scFoundation/Geneformer/scGPT의 임베딩을 GEARS에 feature로 넣어도, 일부 셋팅에서 그냥 train set의 평균을 예측하는 trivial baseline을 못 이긴다. 임베딩의 가치가 모델 전체 성능에 dominate하지 않는다.
perturbation prediction 벤치마크 (Norman·Adamson·Replogle…) 에서 foundation model embedding 추가의 효과가 일관되지 않거나 음수인 케이스가 많다.
scELMo · GenePT 같은 LLM-derived embedding도 비슷한 패턴 — 어떤 셋팅에서 도움 되고 어떤 셋팅에선 baseline 미만.
핵심 인사이트: "fine-tune 데이터셋이 충분히 클 때만" foundation model이 baseline을 넘어선다.
시사점: perturbation prediction에서 foundation model 임베딩을 자랑하기 전에 train-mean baseline 점수부터 보고하자. 이걸 보고 안 하는 논문은 일단 의심.
TL;DR. 27개 perturbation prediction 방법을 같은 평가 파이프라인에서 비교. Foundation model (scGPT, scFoundation, GeneCompass, scELMo)은 fine-tune 데이터가 충분할 때만 baseline을 넘는다. "Cellular context embedding"이 unseen context로의 generalization을 결정한다.
27 method × 다중 perturbation type × 평가 metric = 가장 광폭의 비교.
"단일 임베딩 전략이 모든 metric에서 dominant하지 않음" — task·dataset에 따라 winner가 갈린다.
cellular context를 명시적으로 임베딩하는 방법이 unseen cellular context 일반화에 결정적.
perturbation 정보를 학습에 직접 넣은 모델 (Tahoe-x1)이 perturbation prediction에 유리한 구조적 이유를 정량화.
시사점: "어떤 임베딩이 최고냐"가 아니라 "내 dataset 크기와 task에 어떤 임베딩이 맞냐"가 옳은 질문. 모든 셋팅의 silver bullet은 없다.
TL;DR. AI Virtual Cell의 표준 평가 지표 (MAE, MSE, Pearson r)가 실제 과학적 유용성을 측정하지 못한다. 4개 CRISPRi Perturb-seq screen 중 3개에서 "all-zero predictions"가 experimental replicates를 MAE에서 이긴다. 그리고 Claude Opus 4.6를 in-context ranker로 쓰면 PRESAGE (특화 모델) 와 같은 성능이 나온다 — fine-tune 없이.
PerturbHD framework: hit-discovery ranking 문제로 재구성. recall@5% budget (prioritization), recall@20% FDR (simulation) 두 개의 운영적 metric.
Claude Opus 4.6에 training perturbation/effect/hit triple을 CSV로 prompt → test perturbation을 0-100으로 점수 → K562/HepG2/Jurkat에서 PRESAGE와 동등 (recall@5% ~0.35-0.5).
Vanilla MAE의 PerturbHD 상관 ρ = 0.03 (uncorrelated). Vanilla MSE의 ρ = -0.23 (anti-correlated). Systema correlation과 MAE-top-100은 ρ ≥ 0.85.
현재 Virtual Cell 모델은 "triage tool"로 쓸 만하지만 "experiment 대체"는 못 한다 — prioritization → simulation으로 가면 utility가 3-10배 떨어진다.
시사점: perturbation prediction 모델을 만들고 있다면 (1) MAE/Pearson 말고 hit recall로 평가, (2) frontier LLM in-context baseline을 반드시 먼저 돌려보기. 못 이기면 fine-tune은 무의미.
08
Virtual Cell 비전 — 3세대의 패러다임 이동
"세포의 행동을 컴퓨터에서 그대로 재현한다"는 비전은 20여 년에 걸쳐 세 번 패러다임이 바뀌었다.
1세대 (mechanistic) → 2세대 (data atlas) → 3세대 (AI Virtual Cell, AIVC).
Foundation model은 3세대의 핵심 building block이지만, Bereket 2026의 결론을 잊지 말 것 — 현재는 아직 triage tool 단계다.
1st generation
Mechanistic simulation
2003 — 2012
반응-확산 방정식, ODE/PDE, Gibson-Bruck stochastic simulation으로 세포의 부분 시스템을 시뮬레이션.
VCell (Slepchenko 2003-)이 BioModel→MathModel→Simulation 통합. Karr 2012의
Mycoplasma genitalium 525-gene whole-cell model이 정점.
한계: 알려진 메커니즘과 측정된 파라미터에 전적으로 의존. 진핵세포 확장에 조합 폭발.
2nd generation
Large-scale data atlas
2017 — 2024
측정 인프라가 폭발적으로 커지며 atlas 시대가 열림. HCA (Regev 2017-) · HuBMAP (NIH 2019-)·
GTEx v8 (2020) · Tabula Sapiens (2022)가 cell type/state 공간을 공유 좌표계로.
CELLxGENE Discover 가 33M-350M cells의 de facto 표준.
전환: 측정 ≠ 예측. Atlas 위에 학습할 모델이 필요해짐 → 3세대로.
3rd generation
AI Virtual Cell (AIVC)
2023 —
Foundation model + generative AI로 데이터에서 직접 cell behavior를 학습.
Bunne 2024 (Cell)의 AIVC 로드맵이 분야의 새 framework. Diffusion · flow matching · autoregressive transformer가
시간 변화 모델링의 후보.
현재: Bereket 2026 — "triage tool로는 OK, experiment 대체는 아직."
Bunne et al. (2024) — AIVC의 두 핵심 추상화: UR + VI
AI Virtual Cell의 두 building block을 정의. 이 framework가 이후 모든 AIVC 논문의 공통 어휘가 됨.
UR · Universal Representation분자 / 셀 / 조직 모두를 하나의 공유 latent 공간에 매핑. DNA, RNA, 단백질, cell state, tissue structure가 같은 표현 공간을 공유.
VI · Virtual InstrumentUR 위에서 동작하는 도구. Decoder VI는 해석 가능한 출력 복원, Manipulator VI는 "현재 UR + 섭동 prompt → 새 UR" 매핑을 학습.
Multiscale 설계: 분자 (Transformer/LLM) → 세포 (Autoencoder/ViT) → 다세포 (GNN/ENN/ViT).
각 층은 아래 층을 aggregate해서 위 층을 만든다. 여기서 다루는 scFM 대부분은 "세포 스케일 UR" 의 구현체.
오해 주의 — "현재 AIVC는 어디까지 왔는가?"
Bereket & Leskovec 2026은 4개 CRISPRi Perturb-seq screen에서 PRESAGE·GEARS·linear regression 모두 recall@20% FDR이 4-12%에 그친다고 보고.
Replicate ceiling이 20-40%이니 모델은 ceiling의 절반도 못 미친다.
반면 prioritization (recall@5% budget)은 모델이 0.35-0.5로 의미 있다 — "실험 대체"는 아직, "실험 우선순위 매기기"는 OK.
더 놀라운 건, 일반 frontier LLM (Claude Opus 4.6) 을 prompt해서 ranker로 쓰면 특화 모델 PRESAGE와 같은 성능이 나온다는 점. AIVC의 정의 자체를 다시 묻게 한다.
09
리소스 — 모델 코드와 출처
바로 받아 쓸 수 있는 핵심 모델의 공식 GitHub/HuggingFace와 참고 논문의 Google Scholar 검색 링크.
autodidact / single-cell-foundation-models · 2026-05-09 · 학생용 학습 자료
참고 축: single-cell foundation timeline, biology review, corpus comparison, embedding strategies, virtual-cell evolution.
인용은 Google Scholar 검색 링크로 연결됩니다. ← Autodidact 인덱스로 · github.com/joonan-lab/autodidact