가상세포 파운데이션 모델 (Virtual Cell · Single-cell Foundation Models)

싱글셀 파운데이션 모델

2022년 scBERT가 BERT를 단세포에 처음 끼워 넣은 뒤, 학습 corpus는 수백만 → 3억 5천만 cells로, 파라미터는 10M → 27B로 커졌다. 핵심 흐름은 토큰화 전략 / 핵심 모델 / 비판적 벤치마크 / Virtual Cell 비전으로 나뉜다. 처음 보는 사람을 위해 scRNA-seq · transformer · 토큰화 · foundation model의 기초 개념도 위에 따로 정리했다.

scRNA-seq, transformer, 토큰화, foundation model — 이 네 가지를 모르면 본문이 잘 읽히지 않는다. 각각 한 카드로 압축. 아는 부분은 빠르게 넘기고, 모르는 부분만 보고 넘어가도 된다.

① biology · scRNA-seq

단세포 RNA-seq 한 장 요약

세포 한 개씩 mRNA를 sequencing해서 만든 cells × genes 행렬 (보통 ~20,000 유전자). 한 셀 안에서 70-90%가 0(드롭아웃·낮은 발현)이라 매우 sparse하고, 유전자에는 자연스러운 순서가 없다 — DNA처럼 5'→3' 같은 위치가 없다. 고전 파이프라인은 normalize → HVG (highly variable genes) → PCA → UMAP → Leiden clustering → marker gene으로 cell type 라벨링.

cell_i = (g₁, g₂, …, g_20K) ∈ ℕ^20K

② model · transformer

Attention과 MLM 두 줄 요약

Transformer는 입력을 토큰 시퀀스로 받아 각 토큰이 다른 모든 토큰을 "쳐다보며"(self-attention) 표현을 만든다. BERT는 일부 토큰을 [MASK]로 가리고 맞히게 학습(MLM = masked language modeling). GPT는 다음 토큰을 자동회귀적으로 생성(CLM). 단세포 모델은 이런 언어모델 문법을 gene expression에 옮긴 시도다.

Attention(Q,K,V) = softmax(QK^⊤/√d) · V

③ design · tokenization

유전자를 토큰으로 만드는 법

NLP에선 단어가 토큰이지만, 단세포에선 토큰을 어떻게 정의할지가 곧 모델 디자인이다. ① FG (gene identity) — gene ID 자체를 어떻게 임베딩할지(random / gene2vec / ESM2 단백질 / GPT 텍스트). ② FE (expression) — 발현값을 어떻게 표현할지(continuous / binning / no-op). ③ ORDER — 어떤 순서로 줄세울지(random / 발현 순위 / 염색체). 다섯 가지 대표 모델이 이 3축에서 어떻게 다른지는 §05에서 분해한다.

token = (FG_emb, FE_emb, ORDER_pos)

④ foundation model 흐름

Foundation model이란

라벨 없는 큰 데이터로 자기지도학습 (SSL)을 한 번만 시켜 두면, 다양한 다운스트림 태스크에 이 가중치를 가져다 쓰는 패러다임. NLP의 BERT/GPT, 비전의 CLIP/DINO의 생물학판이다. 단세포에선 cell type annotation, perturbation 예측, batch correction, GRN 추론, expression 복원, drug response 예측 등이 표준 태스크다. 한계는 §07 — "후속 벤치마크에서는 SOTA가 아닐 수 있다"는 비판이 누적되고 있다.

pretrain (SSL on M cells) → fine-tune (k labels) → predict

모델	FG	FE	ORDER	요약 (HEIMDALL 평가)
scBERT	gene2vec	integer binning	random	분포 이동에 가장 강했다 — co-expression prior가 안정성을 준다.
Geneformer	random	no-op	expression-sorted	Rank-value encoding. Read depth normalization을 토크나이즈로 흡수.
scGPT	random	value binning	expression-sorted	Continuous expression을 vocab 토큰으로 변환해 LM 아키텍처에 그대로 얹기 좋다.
scFoundation	random	continuous	expression-sorted	Scalar→vector 직접 projection. Discretization loss 없음. Asymmetric encoder가 이를 활용.
UCE	ESM2	no-op	chromosome	Perturbation reverse task에서 가장 약했다 (MCC 0.17). FE가 빠진 것이 결정적.

모델

ORDER

요약 (HEIMDALL 평가)

scBERT

gene2vec

integer binning

random

분포 이동에 가장 강했다 — co-expression prior가 안정성을 준다.

Geneformer

random

no-op

expression-sorted

Rank-value encoding. Read depth normalization을 토크나이즈로 흡수.

scGPT

random

value binning

expression-sorted

Continuous expression을 vocab 토큰으로 변환해 LM 아키텍처에 그대로 얹기 좋다.

scFoundation

random

continuous

expression-sorted

Scalar→vector 직접 projection. Discretization loss 없음. Asymmetric encoder가 이를 활용.

UCE

ESM2

no-op

chromosome

Perturbation reverse task에서 가장 약했다 (MCC 0.17). FE가 빠진 것이 결정적.

싱글셀 파운데이션 모델

읽기 전 — 기초 개념

scRNA-seq의 난제 — 왜 일반 Transformer를 그대로 쓸 수 없는가

20,000 유전자 = 20,000 토큰

유전자에는 자연 순서가 없다

대부분 0, 그리고 lab마다 다르다

scFM 타임라인 — 가속하는 corpus와 파라미터

토큰화 전략 — 같은 문제, 다양한 답

발현 순위만 쓴다

발현값을 그대로 임베딩

발현값을 vocab 토큰으로

LLM이 유전자를 설명한다

단백질 임베딩으로 뼈대를

셀을 문장으로, LLM을 그대로

약물 / 노크아웃을 토큰으로

RNA 너머 — 위치와 chromatin

핵심 모델 — 파라미터·corpus·태스크 비교

토크나이저 디자인 스페이스 — FG × FE × ORDER

다운스트림 태스크 — cell 임베딩 vs gene 임베딩

Reality Check — 자체 SOTA vs 후속 벤치마크

Kedzierska, Crawford, Amini, Lu (2025)

Csendes, Bondi-Kelly et al. (2025)

Wei, Yang et al. (2025)

Bereket & Leskovec (2026)

Virtual Cell 비전 — 3세대의 패러다임 이동

Mechanistic simulation

Large-scale data atlas

AI Virtual Cell (AIVC)

Bunne et al. (2024) — AIVC의 두 핵심 추상화: UR + VI

리소스 — 모델 코드와 출처

인용 — single-cell foundation 정리본