scRNA-seq QC 指南

單細胞 RNA 定序數據分析中的
品質管制 (QC) 詳解

在 scRNA-seq 的數據分析流程中,品質管制 (Quality Control) 是極其關鍵的第一步。由於單細胞捕獲技術的限制和細胞本身的狀態差異,原始數據中會包含大量無用的雜訊(如死細胞、破裂液滴、雙細胞等)。

為什麼這很重要? 如果沒有嚴格的 QC,這些低品質數據會嚴重干擾後續的降維、分群 (Clustering) 和差異表現基因分析,甚至導致得出完全錯誤的生物學結論。

一、 細胞層級的 QC 核心指標

細胞層級的過濾旨在剔除品質不良的「細胞條碼 (Cell Barcodes)」。以下提供一個互動模擬器,讓您體驗不同閾值設定對數據集的影響。請嘗試拖曳下方滑桿。

1. 基因數量 nFeature_RNA

單一細胞中檢測到的基因總數。
過低 (<200): 細胞破裂或空液滴。
過高: 暗示為雙細胞 (Doublets)。

2. 總 UMI 數量 nCount_RNA

測得的所有轉錄本分子總數。應與基因數量呈現高度正相關。
異常高低通常與空液滴或多細胞有關。

3. 粒線體比例 MT%

判斷細胞死活/健康狀態的最重要指標。細胞破裂時 mRNA 流失,但粒線體 RNA 容易殘留。
常見閾值: 大於 5%~20% 剔除

📊 QC 散佈圖模擬器 (nCount vs nFeature)

總數: 1000
保留: --
剔除: --

過濾破裂細胞/空液滴

過濾潛在雙細胞

過濾死亡/垂死細胞

X軸: 總 UMI (nCount_RNA) | Y軸: 基因數 (nFeature_RNA)
綠色點代表通過目前閾值的「健康單細胞」。 紅色點代表被剔除的雜訊。

二、 基因層級的 QC

除了過濾細胞,我們也需要過濾掉沒有分析價值的基因,以減少運算負擔和統計雜訊。

極低表現基因過濾:
通常會將「在少於 3 個細胞中表現的基因」剔除。因為這些基因極有可能是測序錯誤的產物,或者表現量低到無法在後續分析中提供任何統計顯著性。

其他輔助細胞指標

  • 🧬
    核糖體基因比例 (Ribosomal Ratio) 過低有時暗示細胞狀態不佳,但此指標不如粒線體通用 (通常針對 RPS/RPL 開頭基因)。
  • 🩸
    紅血球基因比例 (Hemoglobin Ratio) 針對血液或富含血管組織,若非專門研究紅血球,通常會過濾掉 HBA, HBB 表現過高的細胞。

三、 進階 QC:處理技術性假象 (Artifacts)

基本的閾值過濾無法解決所有問題。即使過濾了極端值,仍有難以辨識的假象混入數據。現代分析需加入以下進階步驟:

1. 雙細胞 (Doublets)

兩個細胞被包裹在同一個液滴中。它們會在 UMAP 分群上形成不真實的「過渡狀態」。簡單的 nCount/nFeature 上限無法完全剔除由兩個小細胞組成的 Doublets。

解決方案:
使用演算法模擬雙細胞表現特徵,計算每個細胞的機率 (Doublet Score)。
常用工具: DoubletFinder, Scrublet, scDblFinder

2. 環境背景 RNA (Soup)

破裂細胞的 RNA 釋放到懸浮液中,被一起封裝到液滴裡。導致原本不該表現某基因的細胞(如 T 細胞)錯誤檢測出該基因(如肝細胞特異性基因)。

解決方案:
估算背景 RNA 分佈,並從表現矩陣中「減去」這部分污染值。
常用工具: SoupX, CellBender

四、 QC 閾值設定策略與最佳實踐

策略類型 固定閾值 (傳統) 自適應閾值 (目前最佳實踐)
概念 使用主觀的死板數值 (如 MT% < 5%) 基於數據分佈 (Data-driven) 決定
常見方法 文獻常規經驗值 絕對中位差 (MAD): 中位數 + 3 倍 MAD
缺點/優點 在多樣本整合或特殊組織分析時極易出錯。 對極端值更具強健性,能適應不同樣本本身的品質差異。(例如 scater 提供的 isOutlier())

💡 核心專家建議

  • 1

    沒有放諸四海皆準的閾值: QC 必須根據您的物種、組織類型(如心肌細胞粒線體本就偏高)、測序技術進行調整。務必查看小提琴圖與散佈圖。

  • 2

    聯合分佈比單一指標更重要: 就像上面的互動圖表,好的細胞應沿著對角線分佈;偏離軌跡的通常品質有問題。

  • 3

    寧可稍微寬鬆,也不要過度過濾 (Over-filtering): 過於嚴苛可能會把罕見的細胞亞群(例如靜止期細胞)給過濾掉。

  • 4

    將 QC 視為一個迭代過程: 初步寬鬆分群後,若發現某 Cluster 具高粒線體比例且缺乏特異標記,可回頭在 QC 步驟將其剔除。