Nature Biotechnology · Brief Communication · 2026
無參考序列發現
於 barcoded 單細胞定序
sc-SPLASH ── 跳過對齊、直接從 raw reads 進行 statistics-first 推論,揭露超越基因表達的轉錄體複雜性
sc-SPLASH BKC SPLASH2
Dehghannasiri R, Kokot M, Starr AL, et al.
Stanford · Silesian Univ. of Tech. · Yale
DOI: 10.1038/s41587-026-03084-6
01 · 動機

為何 scRNA-seq 仍只看基因表達?

既有工具受限,barcoded droplet 資料更難處理
對齊偏差難避免alignment bias — 對缺乏高品質 reference 的物種尤甚
多數工具只處理特定事件splicing、V(D)J、editing 各自為政,計算負擔重
Barcoded droplet 資料量爆炸百萬級 cells 共用一個 library,barcode 與 UMI 易出錯
盲點:alleles, paralogs, 重複序列許多生物多樣性訊號被 reference-based pipeline 抹除
SPLASH 已在 bulk 與 Smart-seq2 證明 reference-free 統計推論可行;本研究將其擴展至 10x Chromium 與 Visium。
02 · 方法核心

anchor + target 的統計直觀

不依賴 reference — 直接從 raw reads 抽取 k-mer 對
Anchor → Target 固定的 k-mer (anchor) 之後出現多樣的 k-mer (target)

CCAGCCATCAGAACCCCAGGAACCATC·TAA
CCAGCCATCAGAACCCCAGGAACCATC·TAG
CCAGCCATCAGAACCCCAGGAACCATC·CCA
對每個 anchor 建立跨樣本的 target 計數表,檢驗 target 分布是否與樣本相依
0 → 1
Effect size
兩群 target 分布的可分離度
closed-form
P-value
OASIS test,可控 multiple testing
03 · 流程

sc-SPLASH 三階段管線

從 barcoded FASTQ 到 significant anchors
01 BKC cell barcode 萃取 → UMI 去重 → 每細胞 anchor-target 計數 C++
02 Contingency table 構建 稀疏矩陣合併跨細胞 target 計數 SPLASH
03 P-value 計算與 Benjamini-Yekutieli 校正 effect size > 0.2 且 p < 0.05 → significant anchor OASIS
後處理可選:構建 extendor → 對 reference / Pfam / BLAST / IgBLAST 比對;postprocessing 可用 JSON 設定自動化。
04 · 效能 · 預處理

BKC ≈ 50× faster than UMI-tools

並行 C++ 重寫,取代 single-thread Python
50×
提速倍率
vs. UMI-tools 單線程 Python
165 s
BKC 平均
UMI-tools: 9,272 s(僅 whitelist + extract,未含去重)
7 GB
RAM 使用
含 barcode filter + UMI dedup + R1/R2 輸出
BKC 額外功能:單鹼基 barcode 校正、3-to-1 base packing、SATC 檔案輸出,並可作為獨立工具用於其他 pipeline。
基準資料集:pbmc_1k、pbmc_10k、Targeted_glio、Parent_glio(10x 官方),16 threads。
05 · 效能 · 整體比較

vs Cell Ranger · STARsolo

Tabula Sapiens muscle (donor 1) · 16 threads · default settings
工具runtimememory備註
Cell Ranger2,540 s70 GBv8.0.1,僅對齊
STARsolo491 s35 GBv2.7.10b,僅對齊
sc-SPLASH106 s8 GB含統計推論
~5×
faster vs STARsolo
記憶體少 ~25 GB
~20×
faster vs Cell Ranger
記憶體少 ~50 GB
Cell Ranger 與 STARsolo 僅執行對齊,仍需 Seurat / Scanpy 才能做 differential expression;sc-SPLASH 一條 pipeline 直達 significant anchors。
06 · 應用 · Tabula Sapiens

40 萬人類細胞、555 基因

L1-regularized GLM 整合 cell type metadata,supervised 推論
400K+
single cells
跨 16 組織、2 donors
555
cell-type-specific 基因
含 RPS24、MYL6 等 splicing 已知靶點
37 / 28
RPS24 / MYL6 跨組織
同一 anchor 在多 donor 跨組織重現
SPLASH 對 batch effects 穩健 ── target 變異作為 conditional probability given anchor 檢定,跨 donor 同組織的 anchor cluster 重疊顯著高於隨機(lung、muscle 兩組 p < 2.2 × 10⁻¹⁶)。
07 · V(D)J · 免疫多樣性

V-set 是最高 entropy 的 Pfam domain

Immunoglobulin variable domain — diversity 阻礙對齊
Entropy
2.16
最高 Pfam domain entropy
V-set 跨樣本 target 分布最分散遠超 Keratin、Histone 等
Effect size
0.90
最強差異表達
兩群 target 分布幾乎完全分離明確的細胞特異性
Unaligned
35 / 121
28.9% 無法對齊到基因組
高多樣性正是 reference-based 工具的盲區
IgBLAST 整合
60,697
in-frame V(D)J 序列
Plasma + B cells,跨 16 組織適合缺 reference 的物種免疫研究
08 · Visium · 空間轉錄組

鱗狀細胞癌中的 mtDNA 雙突變

human cutaneous squamous cell carcinoma · Visium spatial
! 最高 effect size
MT-ND4 出現 CC → TT 雙突變,主要(但非完全)表達於癌區 ── 符合 carcinoma lineage 早期自發突變的假說。
effect size = 0.757 · ChrM 11,413–11,466
+ 第二高 effect size
區分 keratin paralogs KRT16 vs KRT17:癌區傾向表達 KRT17,正常上皮傾向 KRT16。兩者皆是 SCC 常見上調基因。
effect size = 0.348
Visium 為 spot-level 解析度,但 sc-SPLASH 的 barcoded 處理框架不需修改即可套用 ── 同一 pipeline 處理 10x Chromium 與 Visium。
09 · 跨物種剪接保守

RPS24 exon 6:人類胚胎與電鰻

spatial alternative splicing — 演化上保守的細胞型差異
Human
胎兒小腸:epithelial 包含 3-nt microexon(exon 5),stromal 排除。
fetal intestine · Visium · highest effect size
Eel
主電器官:electrocytes 包含 exon 6,絕緣隔膜的 stromal cells 排除。
Electrophorus electricus · Chr11 7,503,567–7,506,064
→ 演化一致
電鰻 electrocytes 源自 骨骼肌系 ── 正是少數會包含 exon 6 的人類細胞型。RPS24 exon 在兩者間 homologous。
10 · 非模式生物 · 海綿

granny anchor — reference 中找不到

Spongilla lacustris · 淡水海綿 · 10x scRNA-seq
6.2
最高 entropy
於整個 sponge dataset
667
distinct targets
同一 anchor 後接的多樣序列
0
BLASTn / reference 命中
odSpoLacu1.1 與 NCBI 皆無
granny anchor GCCATCAGAACCCCAGGAACCATCTAA
+ 細胞型特異性
73 cells(~10K annotated)表達 granny → granulocytes 47/73 (64%)、amebocytes 12/73 (16%)。HCR RNA-FISH 確認:88% Acp5⁺ 細胞同時 granny⁺。
11 · 基因家族 · Granrep

五個 Granrep 基因 — 分泌型重複蛋白

PacBio HiFi 長讀手動組裝後揭露
基因連鎖主要表達alleles (4 個體)
Granrep1與 Granrep2 同 contigGranulocytes (一群)2-3
Granrep2與 Granrep1 同 contigGranulocytes (一群)5
Granrep3allelic 於 Granrep4/5Amebocytes3
Granrep4與 Granrep5 同 contig少量 granulocytes2
Granrep5與 Granrep4 同 contigGranulocytes (另一群)2
共同結構:signal peptide → 30-bp granny repeats → lysine-rich → 18-bp C-terminal repeats。蛋白預測為分泌型,granny 重複可能 O-glycosylated。
! 免疫應答
LPS 或 cGAMP 處理後 day 12 總 Granrep 表達上升 ~1.4×,與 Acp5 等 granulocyte marker 一致 ── 暗示 granulocyte 擴增與 Granrep 在免疫防禦中的角色。
12 · 跨物種平行

Ciona YYD repeat — 海鞘血細胞

Ciona robusta · 24-bp tandem repeats · 海鞘 hemocytes
4.80–5.97
entropy 跨子集
aquatic invertebrates 中唯一 entropy > 4 的重複序列 anchor
2 + 43
同源基因
HT 基因組 2 個 + C. intestinalis / savignyi 43 個 TBLASTn 命中
變態期
表達高峰
early rotation — 對應 12 h post-hatched
YYD anchor TGACAACAAAGCCGATGGTTACTATGA
→ 與 Granrep 平行
基因主要由 24-bp 重複組成,僅含 signal peptide;蛋白為分泌型;多數同源序列共享保守 YYD(推測 tyrosine sulfation,類似 cionin)。RNA-FISH 顯示 juvenile 期主要表達於循環 hemocytes。
Ciona 最高 entropy 的 anchor 是 trans-splicing leader(142,486 個 targets);第二、三高來自 Cics-1 SINE(拷貝數 ~40,000)。
13 · 結論

sc-SPLASH 帶來什麼?

ultra-efficient · reference-free · 統計優先
無需 reference 即可發現新基因Granrep 不在 Spongilla 基因組註解中、YYD 跨海鞘物種高度多態
同一 pipeline 處理 droplet 與 spatial10x Chromium · Visium · 不需 cell label annotation
BKC 可獨立使用50× faster UMI 去重 — 可插入既有 pipeline
JSON-driven 後處理extendor → STAR / Bowtie2 / Pfam / IgBLAST 全自動化
適合非模式生物的免疫與多態研究repeat-rich, polymorphic, 缺 reference 的場景皆可
github.com/refresh-bio/splash · github.com/refresh-bio/bkc · 整合至 SPLASH2 pipeline