單細胞轉錄組定序
批次效應校正技術指南

在合併來自不同實驗日期、操作者或定序平台的數據時,技術噪音往往會掩蓋真實的生物學差異。本指南將帶您探索如何識別、校正並評估這些批次效應。

為什麼需要校正?

本區塊旨在讓您直觀理解批次效應的危害。單細胞數據具有高維度與高稀疏性。當存在批次效應時,相同類型的細胞會按「樣本來源」聚類,而非「細胞類型」。請使用下方的互動按鈕,觀察校正前後在 UMAP 降維圖上的差異。

當前狀態:聚類異常 (按批次分離) 形狀:細胞類型 (圓形/三角形) | 顏色:樣本批次

⚠️ 未校正的風險

  • 聚類異常:同類細胞被強行分開。
  • 偽差異基因:組間比對找到的其實是技術偏差。
  • 錯誤的細胞群注釋:導致後續生物學結論完全偏離。

校正後的目標

  • 保留生物學結構:真正的細胞類型應聚在一起。
  • 消除技術偏差:不同批次的同類細胞應均勻混合。
  • 提升下游分析準確度:確保軌跡推斷、差異表達分析的可靠性。

主流校正演算法與原理

本區塊介紹學界公認效果較佳的三大類方法。根據您的數據規模與整合需求,選擇合適的演算法是成功的關鍵。點擊下方頁籤以切換不同的演算法詳情。

互鄰近錨點 (MNN)

推薦場景:中等數據量,常規分析

代表工具

Seurat v3/v4 (CCA/RPCA), mmnpy, batchelor

演算法原理

在不同批次間尋找「彼此互為最近鄰」的細胞對作為「錨點」(Anchors)。假設這些錨點細胞屬於同一類型,計算它們之間的向量位移,並將此位移應用於全體細胞,從而實現空間對齊。

核心優勢

不依賴細胞類型預標註。

能較好地保留生物學結構,適用於批次間細胞組成有差異的情況。

標準分析工作流

理解將原始數據轉換為可分析狀態的步驟。此流程圖展示了批次校正介入的確切時間點。

步驟 1:獨立預處理

對每個批次的數據獨立進行品質控制(QC,過濾死細胞/雙細胞)、標準化(Normalization)和高變基因篩選(HVG selection)。

步驟 2:識別共同特徵

整合各批次資訊,選取在所有批次中均表現出高變異性的基因子集(通常建議選取 2000-3000 個共有高變基因),以此作為整合的基礎空間。

步驟 3:執行整合校正

運行您選擇的校正演算法(如 Seurat CCA, Harmony, 或 scVI)。此步驟將計算整合矩陣或低維空間嵌入(Embeddings)。

步驟 4:降維可視化與聚類

基於校正後的低維空間運行 UMAP 或 t-SNE 進行可視化。後續的細胞分群(Clustering)也必須基於此校正後的空間進行。

評估校正效果與注意事項

校正並非「越強越好」,過度校正(Over-correction)會抹除真實的生物差異。了解如何科學地評估您的整合結果。

📊 定量評估指標

LISI

Local Inverse Simpson Index

衡量局部領域內批次混合程度的指標。數值越接近批次總數,代表局部混合越均勻。

ASW

Average Silhouette Width

計算批次標籤的輪廓係數。數值越低代表批次間越難區分,即混合效果越好(注意與評估細胞聚類時的 ASW 邏輯相反)。

kBET

k-nearest neighbor Batch Effect Test

統計學檢驗方法。評估各局部區域的批次分佈比例是否符合全體數據的分佈比例,拒絕率越低代表混合越好。

💡 核心警告與最佳實踐

絕對不要校正差異基因 (DEGs) 的計數矩陣

批次校正生成的矩陣僅能用於降維、聚類和可視化。在進行差異表達分析(如 DESeq2, FindMarkers)時,必須使用原始計數數據 (Raw Counts),並將批次資訊作為回歸協變量加入模型中(例如設置 latent.vars = "batch")。

區分「批次」與「生物條件」的混淆

如果批次與生物學分組完全重疊(例如:批次A全是健康人,批次B全是病人),強制整合可能會將疾病特徵作為批次效應抹除。實驗設計初期應確保不同生物條件均勻分佈在各個定序批次中。

定性評估:標誌基因 (Marker Genes) 檢查

在 UMAP 圖上確認不同批次的細胞交織後,務必繪製已知的細胞專一性 Marker genes。如果校正後連經典的 Marker 都無法區分細胞群,則暗示發生了過度校正。