Virtual Cell · Single-cell Foundation Models · 한글 인터랙티브 해설

싱글셀 파운데이션 모델

2022년 scBERT가 BERT를 단세포에 처음 끼워 넣은 뒤, 학습 corpus는 수백만 → 3억 5천만 cells로, 파라미터는 10M → 27B로 커졌다. 핵심 흐름은 토큰화 전략 / 핵심 모델 / 비판적 벤치마크 / Virtual Cell 비전으로 나뉜다. 처음 보는 사람을 위해 scRNA-seq · transformer · 토큰화 · foundation model의 기초 개념도 위에 따로 정리했다.

350M cells최대 학습 corpus (scPRINT-2)
27B params최대 모델 (C2S-Scale)
00

읽기 전 — 기초 개념

scRNA-seq, transformer, 토큰화, foundation model — 이 네 가지를 모르면 본문이 잘 읽히지 않는다. 각각 한 카드로 압축. 아는 부분은 빠르게 넘기고, 모르는 부분만 보고 넘어가도 된다.

① biology · scRNA-seq
단세포 RNA-seq 한 장 요약
세포 한 개씩 mRNA를 sequencing해서 만든 cells × genes 행렬 (보통 ~20,000 유전자). 한 셀 안에서 70-90%가 0(드롭아웃·낮은 발현)이라 매우 sparse하고, 유전자에는 자연스러운 순서가 없다 — DNA처럼 5'→3' 같은 위치가 없다. 고전 파이프라인은 normalize → HVG (highly variable genes) → PCA → UMAP → Leiden clustering → marker gene으로 cell type 라벨링.
celli = (g1, g2, …, g20K) ∈ ℕ20K
② model · transformer
Attention과 MLM 두 줄 요약
Transformer는 입력을 토큰 시퀀스로 받아 각 토큰이 다른 모든 토큰을 "쳐다보며"(self-attention) 표현을 만든다. BERT는 일부 토큰을 [MASK]로 가리고 맞히게 학습(MLM = masked language modeling). GPT는 다음 토큰을 자동회귀적으로 생성(CLM). 단세포 모델은 이런 언어모델 문법을 gene expression에 옮긴 시도다.
Attention(Q,K,V) = softmax(QK/√d) · V
③ design · tokenization
유전자를 토큰으로 만드는 법
NLP에선 단어가 토큰이지만, 단세포에선 토큰을 어떻게 정의할지가 곧 모델 디자인이다. ① FG (gene identity) — gene ID 자체를 어떻게 임베딩할지(random / gene2vec / ESM2 단백질 / GPT 텍스트). ② FE (expression) — 발현값을 어떻게 표현할지(continuous / binning / no-op). ③ ORDER — 어떤 순서로 줄세울지(random / 발현 순위 / 염색체). 다섯 가지 대표 모델이 이 3축에서 어떻게 다른지는 §05에서 분해한다.
token = (FG_emb, FE_emb, ORDER_pos)
④ foundation model 흐름
Foundation model이란
라벨 없는 큰 데이터로 자기지도학습 (SSL)을 한 번만 시켜 두면, 다양한 다운스트림 태스크에 이 가중치를 가져다 쓰는 패러다임. NLP의 BERT/GPT, 비전의 CLIP/DINO의 생물학판이다. 단세포에선 cell type annotation, perturbation 예측, batch correction, GRN 추론, expression 복원, drug response 예측 등이 표준 태스크다. 한계는 §07 — "후속 벤치마크에서는 SOTA가 아닐 수 있다"는 비판이 누적되고 있다.
pretrain (SSL on M cells) → fine-tune (k labels) → predict
01

scRNA-seq의 난제 — 왜 일반 Transformer를 그대로 쓸 수 없는가

일반 Transformer를 단세포에 그대로 들이대면 셋 다 무너진다. 모든 scRNA-seq 파운데이션 모델은 이 셋 중 하나 이상을 어떻게 다룰지에 대한 설계적 선택이다.

① 길이 폭발

20,000 유전자 = 20,000 토큰

BERT 한 문장은 보통 512 토큰. 한 셀의 발현 벡터는 ~20,000 차원. 표준 self-attention은 O(L²) 복잡도라 그대로 쓸 수 없다.
해법: Performer 근사(scBERT) · top-k expressed (Geneformer 2,048) · gene patching (CellPatch 10-100배 단축) · 단백질 임베딩(UCE).
② 무순서

유전자에는 자연 순서가 없다

DNA는 5'→3'로 위치가 정해져 있고 단어는 어순이 있지만, 발현 벡터의 유전자 ID는 임의 순서. Position embedding이 의미 있게 안 박힌다.
해법: 발현 순위로 정렬(Geneformer rank-ordering) · attention masking으로 순서 무시(scGPT) · 염색체 좌표 사용(UCE chromosome ORDER).
③ 70-90% sparse + batch

대부분 0, 그리고 lab마다 다르다

한 셀에서 detect되는 유전자는 보통 1,000-3,000개뿐. 나머지 90%는 0(true zero인지 dropout인지 알기 어려움). 게다가 lab/protocol/시퀀서마다 분포가 다른 batch effect까지.
해법: 발현된 유전자만 마스크(scFoundation RDA) · batch token 명시 입력(scGPT condition tokens) · 다중 study 스트래티파이드 샘플링.
02

scFM 타임라인 — 가속하는 corpus와 파라미터

슬라이더를 움직이면 그 시점에 발표된 모델이 강조되고, 누적 학습 cell 수와 최대 파라미터가 갱신된다. 노드 색은 토큰화 전략(§03)을 나타낸다 — 클릭하면 아래에 한 줄 요약이 뜬다.

2026
누적 cells:
최대 params:
활성 모델:
노드를 클릭해 모델 한 줄 요약을 보세요. 슬라이더로 연도를 바꿀 수 있습니다.
03

토큰화 전략 — 같은 문제, 다양한 답

"유전자를 어떻게 토큰화할까"에 대한 답이 여러 모델 가족을 만들었다. 버튼을 누르면 해당 전략 카드만 강조되고 나머지는 옅어진다. 각 카드의 모델은 §04 비교 테이블에서 정확한 파라미터로 다시 만난다.

strategy 05 · cross-species

단백질 임베딩으로 뼈대를

유전자 ID 대신 단백질 서열(ESM2) 임베딩을 사용. 진화적으로 보존된 서열을 공유 어휘로 삼아 zero-shot 종간 전이가 가능해진다.

04

핵심 모델 — 파라미터·corpus·태스크 비교

헤더 클릭으로 정렬, 검색창에서 키워드 필터. L 컬럼은 license — open은 코드+가중치 공개, weights는 가중치만(코드 부분 공개), gemma는 Gemma 라이선스 종속, 는 미확인. 모든 수치는 정리 노트와 원 논문 기준.

표시 16 / 총 16
Year Model · 저자 Strategy Architecture Params Cells (training) Organisms Context Objective Best task L Code
05

토크나이저 디자인 스페이스 — FG × FE × ORDER

Haber et al. (HEIMDALL, 2026)은 단세포 transformer의 토크나이저를 세 모듈로 분해해 비교했다. 아래 세 축을 토글하면 그 조합과 일치하는 모델이 매트릭스에서 노란색으로 강조된다. 가장 영향이 큰 모듈은 FG (gene identity), 그 다음이 ORDER, 그 다음이 FE (expression)이며, 분포 이동(cross-tissue, cross-species)에서만 차이가 드러난다.

FG · gene identity"무엇"
유전자 ID를 어떤 임베딩으로 표현할까. random 초기화 / 공발현 (gene2vec) / 단백질 서열 (ESM2) / GPT 텍스트 / random 중에서.
FE · expression"얼마나"
발현값을 어떻게 표현할까. continuous projection / integer binning / quantile / no-op (rank만 쓰기).
ORDER · sequence"어떤 순서"
유전자를 어떤 순서로 줄세울까. random / 발현 순위(expression-sorted) / 염색체 좌표.
모델FGFEORDER요약 (HEIMDALL 평가)
scBERT gene2vec integer binning random 분포 이동에 가장 강했다 — co-expression prior가 안정성을 준다.
Geneformer random no-op expression-sorted Rank-value encoding. Read depth normalization을 토크나이즈로 흡수.
scGPT random value binning expression-sorted Continuous expression을 vocab 토큰으로 변환해 LM 아키텍처에 그대로 얹기 좋다.
scFoundation random continuous expression-sorted Scalar→vector 직접 projection. Discretization loss 없음. Asymmetric encoder가 이를 활용.
UCE ESM2 no-op chromosome Perturbation reverse task에서 가장 약했다 (MCC 0.17). FE가 빠진 것이 결정적.
HEIMDALL 결론: in-distribution에서는 토크나이저가 별 차이 없지만, cross-tissue/cross-species shift에서 scBERT-tok ≈ Geneformer-tok > scGPT-tok > scFoundation-tok ≫ UCE-tok 순으로 격차가 생긴다. 모듈을 섞은 하이브리드 (Gene2vec FG + integer FE + expression-sorted ORDER)가 가장 좋았다 — 어떤 단일 모델 토크나이저도 최적이 아니다.
06

다운스트림 태스크 — cell 임베딩 vs gene 임베딩

foundation model의 가치는 결국 다운스트림 성능. cell-level 임베딩이 잘 되는 태스크와 gene-level 임베딩이 잘 되는 태스크로 나뉜다. "공식 발표 SOTA"와 "후속 벤치마크"의 결과가 다른 경우를 함께 표기 — 자세한 비판은 §07.

task 01
cell embedding
Cell type annotation
Reference로 fine-tune된 분류기. scGPT, CellFM, Geneformer가 자체 벤치마크에서 우위. 그러나 zero-shot 평가에선 HVG·scVI·Harmony에 밀린다 (Kedzierska 2025).
vs · Seurat · SingleR · ACTINN · scVI
task 02
cell embedding
Batch correction · integration
다른 lab/protocol 데이터를 같은 latent space에 정렬. scGPT가 복잡한 데이터셋에서 우위, Geneformer는 batch에 지배되는 경우가 잦다.
vs · Harmony · scVI · Scanorama
task 03
cell embedding
Drug response · IC50
bulk RNA-seq 임베딩 → 약물 IC50 회귀. scFoundation이 GDSC 벤치마크 SOTA. Tahoe-x1은 100M perturbed cell 학습으로 cancer hallmarks·gene essentiality에서 SOTA.
vs · DeepCDR · CDPMF
task 04
gene embedding
Perturbation prediction
gene KO/OE/drug 후 transcriptome 예측. scGPT, GEARS+scFoundation embedding이 자체 발표 SOTA. 그러나 train-mean baseline이 일부 셋팅에서 foundation model을 이긴다 (Csendes 2025, Wei 2025).
vs · GEARS · CPA · train-mean
task 05
gene embedding
GRN · gene module inference
attention 가중치 또는 gene embedding 유사도로 regulatory network 추론. scGPT의 attention-GRN, scPRINT-2의 graph-based가 알려진 interaction에 enrichment. 메커니즘 검증은 후속 연구 몫.
vs · GENIE3 · ARACNE · SCENIC
task 06
gene embedding
Imputation · denoising
sparse matrix의 0을 복원. scFoundation의 Read-Depth-Aware (RDA)가 expression reconstruction SOTA, scPRINT-2 XPressor가 imputation SOTA. 단, T/S=1(no enhancement)에선 SAVER에 진다.
vs · SAVER · MAGIC · scImpute · scVI
07

Reality Check — 자체 SOTA vs 후속 벤치마크

같은 모델, 다른 평가. 비판 논문들이 같은 구조의 메시지를 보낸다 — fine-tune 데이터가 작거나 평가 지표가 task-specific일수록 foundation model의 우위가 사라진다. 탭을 클릭해 핵심 발견을 비교해 보세요.

Kedzierska, Crawford, Amini, Lu (2025)

TL;DR. Geneformer와 scGPT를 fine-tune 없이 그대로 쓰면, HVG (highly variable genes)라는 가장 단순한 baseline에도 cell type clustering에서 진다. scVI·Harmony도 마찬가지. fine-tune 성공 ≠ zero-shot 효용.
  • 5개 데이터셋 (Pancreas, PBMC 12k, Tabula Sapiens, Immune…) 에서 HVG > Geneformer > scGPT 순. AvgBio·ASW 두 metric 모두.
  • scGPT를 random init과 비교했을 때 pretrain은 효과는 있다 — 단, data scale이 항상 도움이 되진 않음 (human 33M이 blood 10M보다 약간 낮음).
  • Pretrain corpus와 evaluation set이 겹쳐도 (Tabula Sapiens) 성능 향상이 일관되지 않음.
  • Batch integration: Geneformer 임베딩이 batch 구조에 지배됨 — 같은 기술로 찍은 experiment조차 잘 못 합침.
시사점: 새 데이터에 foundation model을 갖다 쓰기 전에 HVG → scVI 같은 1시간 baseline을 반드시 먼저 돌려보자. 이기지 못하면 fine-tune 비용을 들일 이유가 없다.

Csendes, Bondi-Kelly et al. (2025)

TL;DR. scFoundation/Geneformer/scGPT의 임베딩을 GEARS에 feature로 넣어도, 일부 셋팅에서 그냥 train set의 평균을 예측하는 trivial baseline을 못 이긴다. 임베딩의 가치가 모델 전체 성능에 dominate하지 않는다.
  • perturbation prediction 벤치마크 (Norman·Adamson·Replogle…) 에서 foundation model embedding 추가의 효과가 일관되지 않거나 음수인 케이스가 많다.
  • scELMo · GenePT 같은 LLM-derived embedding도 비슷한 패턴 — 어떤 셋팅에서 도움 되고 어떤 셋팅에선 baseline 미만.
  • 핵심 인사이트: "fine-tune 데이터셋이 충분히 클 때만" foundation model이 baseline을 넘어선다.
시사점: perturbation prediction에서 foundation model 임베딩을 자랑하기 전에 train-mean baseline 점수부터 보고하자. 이걸 보고 안 하는 논문은 일단 의심.

Wei, Yang et al. (2025)

TL;DR. 27개 perturbation prediction 방법을 같은 평가 파이프라인에서 비교. Foundation model (scGPT, scFoundation, GeneCompass, scELMo)은 fine-tune 데이터가 충분할 때만 baseline을 넘는다. "Cellular context embedding"이 unseen context로의 generalization을 결정한다.
  • 27 method × 다중 perturbation type × 평가 metric = 가장 광폭의 비교.
  • "단일 임베딩 전략이 모든 metric에서 dominant하지 않음" — task·dataset에 따라 winner가 갈린다.
  • cellular context를 명시적으로 임베딩하는 방법이 unseen cellular context 일반화에 결정적.
  • perturbation 정보를 학습에 직접 넣은 모델 (Tahoe-x1)이 perturbation prediction에 유리한 구조적 이유를 정량화.
시사점: "어떤 임베딩이 최고냐"가 아니라 "내 dataset 크기와 task에 어떤 임베딩이 맞냐"가 옳은 질문. 모든 셋팅의 silver bullet은 없다.

Bereket & Leskovec (2026)

TL;DR. AI Virtual Cell의 표준 평가 지표 (MAE, MSE, Pearson r)가 실제 과학적 유용성을 측정하지 못한다. 4개 CRISPRi Perturb-seq screen 중 3개에서 "all-zero predictions"가 experimental replicates를 MAE에서 이긴다. 그리고 Claude Opus 4.6를 in-context ranker로 쓰면 PRESAGE (특화 모델) 와 같은 성능이 나온다 — fine-tune 없이.
  • PerturbHD framework: hit-discovery ranking 문제로 재구성. recall@5% budget (prioritization), recall@20% FDR (simulation) 두 개의 운영적 metric.
  • Claude Opus 4.6에 training perturbation/effect/hit triple을 CSV로 prompt → test perturbation을 0-100으로 점수 → K562/HepG2/Jurkat에서 PRESAGE와 동등 (recall@5% ~0.35-0.5).
  • Vanilla MAE의 PerturbHD 상관 ρ = 0.03 (uncorrelated). Vanilla MSE의 ρ = -0.23 (anti-correlated). Systema correlationMAE-top-100은 ρ ≥ 0.85.
  • 현재 Virtual Cell 모델은 "triage tool"로 쓸 만하지만 "experiment 대체"는 못 한다 — prioritization → simulation으로 가면 utility가 3-10배 떨어진다.
시사점: perturbation prediction 모델을 만들고 있다면 (1) MAE/Pearson 말고 hit recall로 평가, (2) frontier LLM in-context baseline을 반드시 먼저 돌려보기. 못 이기면 fine-tune은 무의미.
08

Virtual Cell 비전 — 3세대의 패러다임 이동

"세포의 행동을 컴퓨터에서 그대로 재현한다"는 비전은 20여 년에 걸쳐 세 번 패러다임이 바뀌었다. 1세대 (mechanistic) → 2세대 (data atlas) → 3세대 (AI Virtual Cell, AIVC). Foundation model은 3세대의 핵심 building block이지만, Bereket 2026의 결론을 잊지 말 것 — 현재는 아직 triage tool 단계다.

1st generation

Mechanistic simulation

2003 — 2012
반응-확산 방정식, ODE/PDE, Gibson-Bruck stochastic simulation으로 세포의 부분 시스템을 시뮬레이션. VCell (Slepchenko 2003-)이 BioModel→MathModel→Simulation 통합. Karr 2012Mycoplasma genitalium 525-gene whole-cell model이 정점.
한계: 알려진 메커니즘과 측정된 파라미터에 전적으로 의존. 진핵세포 확장에 조합 폭발.
2nd generation

Large-scale data atlas

2017 — 2024
측정 인프라가 폭발적으로 커지며 atlas 시대가 열림. HCA (Regev 2017-) · HuBMAP (NIH 2019-)· GTEx v8 (2020) · Tabula Sapiens (2022)가 cell type/state 공간을 공유 좌표계로. CELLxGENE Discover 가 33M-350M cells의 de facto 표준.
전환: 측정 ≠ 예측. Atlas 위에 학습할 모델이 필요해짐 → 3세대로.
3rd generation

AI Virtual Cell (AIVC)

2023 —
Foundation model + generative AI로 데이터에서 직접 cell behavior를 학습. Bunne 2024 (Cell)의 AIVC 로드맵이 분야의 새 framework. Diffusion · flow matching · autoregressive transformer가 시간 변화 모델링의 후보.
현재: Bereket 2026 — "triage tool로는 OK, experiment 대체는 아직."

Bunne et al. (2024) — AIVC의 두 핵심 추상화: UR + VI

AI Virtual Cell의 두 building block을 정의. 이 framework가 이후 모든 AIVC 논문의 공통 어휘가 됨.
UR · Universal Representation 분자 / 셀 / 조직 모두를 하나의 공유 latent 공간에 매핑. DNA, RNA, 단백질, cell state, tissue structure가 같은 표현 공간을 공유.
VI · Virtual Instrument UR 위에서 동작하는 도구. Decoder VI는 해석 가능한 출력 복원, Manipulator VI는 "현재 UR + 섭동 prompt → 새 UR" 매핑을 학습.
Multiscale 설계: 분자 (Transformer/LLM) → 세포 (Autoencoder/ViT) → 다세포 (GNN/ENN/ViT). 각 층은 아래 층을 aggregate해서 위 층을 만든다. 여기서 다루는 scFM 대부분은 "세포 스케일 UR" 의 구현체.
오해 주의 — "현재 AIVC는 어디까지 왔는가?"

Bereket & Leskovec 2026은 4개 CRISPRi Perturb-seq screen에서 PRESAGE·GEARS·linear regression 모두 recall@20% FDR이 4-12%에 그친다고 보고. Replicate ceiling이 20-40%이니 모델은 ceiling의 절반도 못 미친다. 반면 prioritization (recall@5% budget)은 모델이 0.35-0.5로 의미 있다 — "실험 대체"는 아직, "실험 우선순위 매기기"는 OK. 더 놀라운 건, 일반 frontier LLM (Claude Opus 4.6) 을 prompt해서 ranker로 쓰면 특화 모델 PRESAGE와 같은 성능이 나온다는 점. AIVC의 정의 자체를 다시 묻게 한다.

09

리소스 — 모델 코드출처

바로 받아 쓸 수 있는 핵심 모델의 공식 GitHub/HuggingFace와 참고 논문의 Google Scholar 검색 링크.

인용 — single-cell foundation 정리본

autodidact / single-cell-foundation-models · 2026-05-09 · 학생용 학습 자료
참고 축: single-cell foundation timeline, biology review, corpus comparison, embedding strategies, virtual-cell evolution. 인용은 Google Scholar 검색 링크로 연결됩니다.
← Autodidact 인덱스로 · github.com/joonan-lab/autodidact