單細胞轉錄組定序
批次效應校正技術指南

在合併來自不同實驗日期、操作者或定序平台的數據時，技術噪音往往會掩蓋真實的生物學差異。本指南將帶您探索如何識別、校正並評估這些批次效應。

為什麼需要校正？

本區塊旨在讓您直觀理解批次效應的危害。單細胞數據具有高維度與高稀疏性。當存在批次效應時，相同類型的細胞會按「樣本來源」聚類，而非「細胞類型」。請使用下方的互動按鈕，觀察校正前後在 UMAP 降維圖上的差異。

當前狀態：聚類異常 (按批次分離) 形狀：細胞類型 (圓形/三角形) | 顏色：樣本批次

⚠️ 未校正的風險

聚類異常：同類細胞被強行分開。
偽差異基因：組間比對找到的其實是技術偏差。
錯誤的細胞群注釋：導致後續生物學結論完全偏離。

✅ 校正後的目標

保留生物學結構：真正的細胞類型應聚在一起。
消除技術偏差：不同批次的同類細胞應均勻混合。
提升下游分析準確度：確保軌跡推斷、差異表達分析的可靠性。

主流校正演算法與原理

本區塊介紹學界公認效果較佳的三大類方法。根據您的數據規模與整合需求，選擇合適的演算法是成功的關鍵。點擊下方頁籤以切換不同的演算法詳情。

⚓

互鄰近錨點 (MNN)

推薦場景：中等數據量，常規分析

代表工具

Seurat v3/v4 (CCA/RPCA), mmnpy, batchelor

演算法原理

在不同批次間尋找「彼此互為最近鄰」的細胞對作為「錨點」（Anchors）。假設這些錨點細胞屬於同一類型，計算它們之間的向量位移，並將此位移應用於全體細胞，從而實現空間對齊。

核心優勢

✓ 不依賴細胞類型預標註。

✓ 能較好地保留生物學結構，適用於批次間細胞組成有差異的情況。

標準分析工作流

理解將原始數據轉換為可分析狀態的步驟。此流程圖展示了批次校正介入的確切時間點。

步驟 1：獨立預處理

對每個批次的數據獨立進行品質控制（QC，過濾死細胞/雙細胞）、標準化（Normalization）和高變基因篩選（HVG selection）。

步驟 2：識別共同特徵

整合各批次資訊，選取在所有批次中均表現出高變異性的基因子集（通常建議選取 2000-3000 個共有高變基因），以此作為整合的基礎空間。

步驟 3：執行整合校正

運行您選擇的校正演算法（如 Seurat CCA, Harmony, 或 scVI）。此步驟將計算整合矩陣或低維空間嵌入（Embeddings）。

步驟 4：降維可視化與聚類

基於校正後的低維空間運行 UMAP 或 t-SNE 進行可視化。後續的細胞分群（Clustering）也必須基於此校正後的空間進行。

評估校正效果與注意事項

校正並非「越強越好」，過度校正（Over-correction）會抹除真實的生物差異。了解如何科學地評估您的整合結果。

📊 定量評估指標

LISI

Local Inverse Simpson Index

衡量局部領域內批次混合程度的指標。數值越接近批次總數，代表局部混合越均勻。

ASW

Average Silhouette Width

計算批次標籤的輪廓係數。數值越低代表批次間越難區分，即混合效果越好（注意與評估細胞聚類時的 ASW 邏輯相反）。

kBET

k-nearest neighbor Batch Effect Test

統計學檢驗方法。評估各局部區域的批次分佈比例是否符合全體數據的分佈比例，拒絕率越低代表混合越好。

💡 核心警告與最佳實踐

絕對不要校正差異基因 (DEGs) 的計數矩陣

批次校正生成的矩陣僅能用於降維、聚類和可視化。在進行差異表達分析（如 DESeq2, FindMarkers）時，必須使用原始計數數據 (Raw Counts)，並將批次資訊作為回歸協變量加入模型中（例如設置 latent.vars = "batch"）。

區分「批次」與「生物條件」的混淆

如果批次與生物學分組完全重疊（例如：批次A全是健康人，批次B全是病人），強制整合可能會將疾病特徵作為批次效應抹除。實驗設計初期應確保不同生物條件均勻分佈在各個定序批次中。

定性評估：標誌基因 (Marker Genes) 檢查

在 UMAP 圖上確認不同批次的細胞交織後，務必繪製已知的細胞專一性 Marker genes。如果校正後連經典的 Marker 都無法區分細胞群，則暗示發生了過度校正。

單細胞轉錄組定序
批次效應校正技術指南

為什麼需要校正？

⚠️ 未校正的風險

✅ 校正後的目標

主流校正演算法與原理

互鄰近錨點 (MNN)

代表工具

演算法原理

核心優勢

線性整合與投影

代表工具

演算法原理

核心優勢

深度神經網絡 (VAE)

代表工具

演算法原理

核心優勢

標準分析工作流

步驟 1：獨立預處理

步驟 2：識別共同特徵

步驟 3：執行整合校正

步驟 4：降維可視化與聚類

評估校正效果與注意事項

📊 定量評估指標

LISI

ASW

kBET

💡 核心警告與最佳實踐

絕對不要校正差異基因 (DEGs) 的計數矩陣

區分「批次」與「生物條件」的混淆

定性評估：標誌基因 (Marker Genes) 檢查

單細胞轉錄組定序批次效應校正技術指南

為什麼需要校正？

⚠️ 未校正的風險

✅ 校正後的目標

主流校正演算法與原理

互鄰近錨點 (MNN)

代表工具

演算法原理

核心優勢

線性整合與投影

代表工具

演算法原理

核心優勢

深度神經網絡 (VAE)

代表工具

演算法原理

核心優勢

標準分析工作流

步驟 1：獨立預處理

步驟 2：識別共同特徵

步驟 3：執行整合校正

步驟 4：降維可視化與聚類

評估校正效果與注意事項

📊 定量評估指標

LISI

ASW

kBET

💡 核心警告與最佳實踐

絕對不要校正差異基因 (DEGs) 的計數矩陣

區分「批次」與「生物條件」的混淆

定性評估：標誌基因 (Marker Genes) 檢查

單細胞轉錄組定序
批次效應校正技術指南