Genomic Language Model Attention Lens

gLM은 DNA에서 무엇에attention하는가

Transformer 계열 gLM은 nucleotide token 사이의 문맥 의존성을 attention matrix로 계산합니다. motif, splice boundary, enhancer-promoter bridge, reverse-complement symmetry처럼 DNA에서 중요한 “관계”가 모델 내부에서 어떤 모양으로 잡히는지를 시각적으로 풀어둔 한글 자료입니다.

Attention Workspace

token x token 관계를 matrix와 arc로 나란히 봅니다.

학습 포인트

DNA의 “문맥”은 자연어 문맥보다 더 물리적입니다. motif의 내부 염기, TSS와 enhancer 거리, splice donor/acceptor, 양가닥 reverse complement 구조가 모두 attention의 후보 관계가 됩니다.

Attention 단위는 nucleotide가 아니라 token입니다

DNABERT의 overlapping k-mer, Nucleotide Transformer의 blocked 6-mer, DNABERT-2와 GROVER의 BPE는 같은 DNA라도 다른 matrix를 만듭니다.

k-mer는 motif를 단어처럼 묶지만 mask leakage가 생길 수 있습니다.
BPE는 attention pair 수를 줄이지만 boundary가 생물학적 motif와 항상 일치하지는 않습니다.

Head는 서로 다른 관계를 나눠 보는 렌즈입니다

한 head는 promoter motif 내부를, 다른 head는 enhancer-promoter bridge를, 또 다른 head는 positional bias나 splice boundary를 강조할 수 있습니다.

Enformer는 global attention으로 distal regulatory information을 통합합니다.
DNABERT는 attention visualization으로 motif discovery를 보였습니다.

긴 DNA에서는 attention 비용이 병목입니다

Full self-attention은 token 수가 늘수록 pair 수가 제곱으로 늘어납니다. 그래서 BPE, ALiBi, FlashAttention, sparse attention, SSM/Hyena/Mamba 계열이 등장합니다.

HyenaDNA는 1M nucleotide context를 long convolution으로 처리합니다.
Caduceus는 BiMamba와 RC equivariance로 DNA 구조 prior를 넣습니다.

Attention은 설명이 아니라 가설입니다

밝은 attention cell은 생물학적 단서를 줄 수 있지만 causal proof는 아닙니다. Nucleotide dependency analysis처럼 염기를 바꿔 예측 분포가 어떻게 흔들리는지 보는 방식이 더 직접적입니다.

GROVER 노트도 attention 해석의 causal 한계를 명시합니다.
Silva 2025는 perturbation 기반 dependency map으로 motif와 RNA contact를 복원합니다.

Tokenization Lab

PDF들을 다시 읽어보면 “attention이 어디를 보나”보다 먼저 “무엇을 한 칸으로 세나”가 갈립니다. 토큰화가 달라지면 행렬의 행과 열, pair 수, variant 해석 위험이 같이 바뀝니다.

1-mer / nucleotide-level염기 해상도 보존, pair 수는 큼

CCGATGCTTATAAAGGCCACGT

Splice site, SNV, TF motif 같은 짧은 신호는 염기 단위가 가장 직관적입니다. HyenaDNA와 Caduceus류가 긴 context에서도 single-nucleotide resolution을 지키려는 이유입니다.

Overlapping 6-merDNABERT식 motif 단어, mask leakage 주의

CCGATGCGATGCGATGCTATGCTATGCTATGCTATACTATAA

Motif를 “단어”처럼 만들지만, 겹치는 토큰이 masked token의 대부분을 이미 포함할 수 있습니다. DNABERT-2 PDF가 지적한 핵심 leakage 이슈입니다.

BPE / variable vocabularysequence length 약 5배 감소 가능, boundary가 변수

CCGATGCTATAAAGGCCACGTGACCTGA

DNABERT-2와 GROVER의 장점은 attention pair를 크게 줄이는 것입니다. 다만 very short core-promoter처럼 작은 motif task에서는 압축이 신호를 흐릴 수 있습니다.

Learned chunking / sparse function contextMxDNA, MergeDNA, DNAChunker, GENERATOR-v2 계열

TATAAAGGCCA>GACTACTACTenhancer-binpromoter-bin

최근 노트들은 고정 k-mer보다 task-adaptive chunking으로 가고 있습니다. GENERATOR-v2는 FNS로 nucleotide supervision을 보존하고, GCP로 기능 region만 남겨 긴 context를 압축합니다.

Overlapping k-mer는 예쁘지만 누수가 있습니다

6-mer들이 한 칸씩 겹치면 masked token 주변 토큰 안에 정답 염기들이 남습니다. motif block이 밝아 보여도, 그것이 진짜 생물학 문법인지 토큰 설계의 shortcut인지 분리해야 합니다.

높음motif readability주의mask identity leakage

BPE는 attention 예산을 사는 방법입니다

DNABERT-2는 BPE, ALiBi, FlashAttention으로 full attention의 비용 압박을 낮춥니다. PDF ablation에서는 BPE가 다수 task에서 k-mer보다 강했지만, 작은 motif task는 예외가 될 수 있습니다.

작음token count변수motif boundary

Learned tokenization은 “어디를 자를지”도 학습합니다

MxDNA, MergeDNA, DNAChunker는 motif, repeat, functional fragment를 같은 길이로 자르지 않습니다. attention map은 더 작아지지만, 한 토큰 안에 들어간 염기 기여를 다시 풀어 읽는 장치가 필요합니다.

강점adaptive context위험hidden intra-token signal

GENERATOR-v2의 핵심은 context와 resolution의 화해입니다

FNS는 coarse k-mer prediction을 nucleotide marginal로 내려오게 하고, GCP는 기능 region을 sparsify한 뒤 남은 token끼리는 dense attention을 하게 합니다.

98kbreported contextdenseretained-token attention

Interpretation Ladder

attention map은 출발점입니다. 원문 PDF들을 따라가면 “예쁜 heatmap”에서 “염기를 바꿨을 때 기능 예측이 실제로 흔들리는가”로 점점 더 강한 질문을 던지게 됩니다.

Attention weight

query token이 어떤 key token에 weight를 주는지 봅니다.

Output: token x token heatmap, head별 arc
Caveat: 높은 attention은 causal importance와 같지 않습니다.

Attribution

gradient x input이나 saliency로 출력이 입력 염기에 얼마나 민감한지 봅니다.

Output: 염기별 contribution track
Caveat: track-specific이지만 saturation과 gradient noise가 있습니다.

In silico mutagenesis

염기 하나를 바꾸고 모델 출력 차이를 직접 계산합니다.

Output: variant effect, motif disruption score
Caveat: 계산량이 크고 model calibration에 민감합니다.

Nucleotide dependency

query 염기 치환이 target 위치 예측 분포를 얼마나 바꾸는지 봅니다.

Output: pairwise dependency block, off-diagonal interaction
Caveat: 일부 모델에서는 토큰화 artefact block이 생길 수 있습니다.

Functional validation

MPRA, eQTL, chromatin tracks, saturation mutagenesis와 맞춥니다.

Output: 생물학적 effect와의 외부 정합성
Caveat: cell type, assay noise, training leakage를 분리해야 합니다.

Enformer PDF의 enhancer prioritization도 이 사다리와 닮아 있습니다. attention matrix는 내부 공유 신호이고, gradient/ISM은 특정 output track에 붙은 신호입니다. 그래서 “모델이 봤다”와 “그 track 예측에 중요했다”를 같은 말로 쓰면 안 됩니다.

Benchmark Reality Check

최근 연구들의 공통 메시지는 꽤 차갑습니다. 범용 gLM이 모든 regulatory task를 이기지는 않으며, tokenization과 long-context 설계보다 task와 출력 형식의 맞춤이 더 큰 차이를 만들 때가 많습니다.

DART-EvalPatel 2024

regulatory element, variant effect, motif-sensitive genomic tasks를 넓게 비교합니다.

쉬운 cCRE류 task는 잘 맞지만 VEP와 fine-grained regulatory prediction은 여전히 어렵고, ChromBPNet 같은 supervised expert가 강한 영역이 남습니다.

attention 시각화만으로 “범용 DNA 이해”를 주장하지 않고, function-specific readout을 같이 둡니다.

DNALONGBENCHCheng 2025

최대 1Mb sequence context에서 promoter, enhancer, variant effect 같은 long-range task를 평가합니다.

quadratic self-attention 모델은 긴 입력에서 제외되거나 제한되고, expert long-context 모델들이 더 현실적인 비교점이 됩니다.

Long context 시나리오에 HyenaDNA, Caduceus, sparse/compressed context를 attention의 대안으로 명시했습니다.

LingoDNABenchLiang 2026

sequence-only self-supervised pretraining이 시간에 따라 바뀌는 gene regulation을 얼마나 담는지 봅니다.

conservation-like signal은 잡지만, cell-state-dependent regulation과 causal mechanism은 pretraining objective와 어긋날 수 있습니다. RandomWeight baseline까지 비교됩니다.

“MLM이 attention했다”를 “regulation을 이해했다”로 바로 올리지 않도록 해석 사다리를 추가했습니다.

Representation probesTang 2025

DNA LM representation이 regulatory prediction에서 one-hot이나 supervised-from-scratch 대비 얼마나 더 나은지 묻습니다.

많은 gLM embedding이 실제로는 local composition과 one-hot 정보에 가까울 수 있고, supervised task model이 강한 경우가 보고됩니다.

matrix의 패턴을 biological grammar로 읽기 전에 baseline과 attribution 검증을 요구합니다.

AlphaGenomeAvsec 2026

sequence-to-function 모델로 expression, splicing, chromatin-like output을 함께 예측합니다.

순수 language model이라기보다 기능 예측에 맞춘 통합 모델입니다. attention보다 출력 형식과 variant-effect interface가 중심입니다.

gLM attention을 해석할 때도 마지막 검증층은 functional prediction이어야 합니다.

GENERATOR-v2Qin 2026

coarse 6-mer token, nucleotide-level supervision, long-range functional context를 함께 다룹니다.

FNS와 GCP는 long context, nucleotide resolution, efficiency 사이의 긴장을 직접 설계 대상으로 삼습니다.

Tokenization Lab에 “한 칸의 크기”와 “남긴 token끼리 dense attention”이라는 두 축을 넣었습니다.

모델별로 “attention한다”의 의미

같은 gLM이라도 attention 기반 Transformer, convolution-hybrid, SSM 계열은 문맥을 섞는 방식이 다릅니다.

빠른 점검

matrix가 예쁘게 보이는 것과 생물학적으로 맞는 것은 별개의 문제입니다.

Question

선택지를 고르면 해설이 표시됩니다.

읽을 때의 원칙

비교보다 메커니즘모델 목록보다 attention/dependency가 어떤 형태로 생기는지 먼저 봅니다.

attention과 대안을 같이 배치HyenaDNA와 Caduceus를 포함해 “왜 full attention만으로는 긴 genome을 다루기 어렵나”라는 질문도 함께 다룹니다.

해석 caveat 유지attention heatmap은 hypothesis generator이고, dependency map과 in silico mutagenesis가 더 직접적인 검증 렌즈입니다.

사용한 정리 노트

링크는 Google Scholar 검색으로 연결됩니다.