Transformer 계열 gLM은 nucleotide token 사이의 문맥 의존성을 attention matrix로 계산합니다. motif, splice boundary, enhancer-promoter bridge, reverse-complement symmetry처럼 DNA에서 중요한 “관계”가 모델 내부에서 어떤 모양으로 잡히는지를 시각적으로 풀어둔 한글 자료입니다.
Attention Workspace
token x token 관계를 matrix와 arc로 나란히 봅니다.
학습 포인트
DNA의 “문맥”은 자연어 문맥보다 더 물리적입니다. motif의 내부 염기, TSS와 enhancer 거리, splice donor/acceptor, 양가닥 reverse complement 구조가 모두 attention의 후보 관계가 됩니다.
1
Attention 단위는 nucleotide가 아니라 token입니다
DNABERT의 overlapping k-mer, Nucleotide Transformer의 blocked 6-mer, DNABERT-2와 GROVER의 BPE는 같은 DNA라도 다른 matrix를 만듭니다.
k-mer는 motif를 단어처럼 묶지만 mask leakage가 생길 수 있습니다.
BPE는 attention pair 수를 줄이지만 boundary가 생물학적 motif와 항상 일치하지는 않습니다.
2
Head는 서로 다른 관계를 나눠 보는 렌즈입니다
한 head는 promoter motif 내부를, 다른 head는 enhancer-promoter bridge를, 또 다른 head는 positional bias나 splice boundary를 강조할 수 있습니다.
Enformer는 global attention으로 distal regulatory information을 통합합니다.
cell type, assay noise, training leakage를 분리해야 합니다.
Enformer PDF의 enhancer prioritization도 이 사다리와 닮아 있습니다. attention matrix는 내부 공유 신호이고, gradient/ISM은 특정 output track에 붙은 신호입니다. 그래서 “모델이 봤다”와 “그 track 예측에 중요했다”를 같은 말로 쓰면 안 됩니다.
Benchmark Reality Check
최근 연구들의 공통 메시지는 꽤 차갑습니다. 범용 gLM이 모든 regulatory task를 이기지는 않으며, tokenization과 long-context 설계보다 task와 출력 형식의 맞춤이 더 큰 차이를 만들 때가 많습니다.
Paper / benchmark
무엇을 봤나
관찰된 패턴
읽을 때의 교훈
DART-EvalPatel 2024
regulatory element, variant effect, motif-sensitive genomic tasks를 넓게 비교합니다.
쉬운 cCRE류 task는 잘 맞지만 VEP와 fine-grained regulatory prediction은 여전히 어렵고, ChromBPNet 같은 supervised expert가 강한 영역이 남습니다.
attention 시각화만으로 “범용 DNA 이해”를 주장하지 않고, function-specific readout을 같이 둡니다.
DNALONGBENCHCheng 2025
최대 1Mb sequence context에서 promoter, enhancer, variant effect 같은 long-range task를 평가합니다.
quadratic self-attention 모델은 긴 입력에서 제외되거나 제한되고, expert long-context 모델들이 더 현실적인 비교점이 됩니다.
Long context 시나리오에 HyenaDNA, Caduceus, sparse/compressed context를 attention의 대안으로 명시했습니다.
LingoDNABenchLiang 2026
sequence-only self-supervised pretraining이 시간에 따라 바뀌는 gene regulation을 얼마나 담는지 봅니다.
conservation-like signal은 잡지만, cell-state-dependent regulation과 causal mechanism은 pretraining objective와 어긋날 수 있습니다. RandomWeight baseline까지 비교됩니다.
“MLM이 attention했다”를 “regulation을 이해했다”로 바로 올리지 않도록 해석 사다리를 추가했습니다.
Representation probesTang 2025
DNA LM representation이 regulatory prediction에서 one-hot이나 supervised-from-scratch 대비 얼마나 더 나은지 묻습니다.
많은 gLM embedding이 실제로는 local composition과 one-hot 정보에 가까울 수 있고, supervised task model이 강한 경우가 보고됩니다.
matrix의 패턴을 biological grammar로 읽기 전에 baseline과 attribution 검증을 요구합니다.
AlphaGenomeAvsec 2026
sequence-to-function 모델로 expression, splicing, chromatin-like output을 함께 예측합니다.
순수 language model이라기보다 기능 예측에 맞춘 통합 모델입니다. attention보다 출력 형식과 variant-effect interface가 중심입니다.
gLM attention을 해석할 때도 마지막 검증층은 functional prediction이어야 합니다.
GENERATOR-v2Qin 2026
coarse 6-mer token, nucleotide-level supervision, long-range functional context를 함께 다룹니다.
FNS와 GCP는 long context, nucleotide resolution, efficiency 사이의 긴장을 직접 설계 대상으로 삼습니다.
Tokenization Lab에 “한 칸의 크기”와 “남긴 token끼리 dense attention”이라는 두 축을 넣었습니다.
모델별로 “attention한다”의 의미
같은 gLM이라도 attention 기반 Transformer, convolution-hybrid, SSM 계열은 문맥을 섞는 방식이 다릅니다.
빠른 점검
matrix가 예쁘게 보이는 것과 생물학적으로 맞는 것은 별개의 문제입니다.
Question
선택지를 고르면 해설이 표시됩니다.
읽을 때의 원칙
비교보다 메커니즘모델 목록보다 attention/dependency가 어떤 형태로 생기는지 먼저 봅니다.
attention과 대안을 같이 배치HyenaDNA와 Caduceus를 포함해 “왜 full attention만으로는 긴 genome을 다루기 어렵나”라는 질문도 함께 다룹니다.
해석 caveat 유지attention heatmap은 hypothesis generator이고, dependency map과 in silico mutagenesis가 더 직접적인 검증 렌즈입니다.