單細胞 RNA 定序數據分析中的
品質管制 (QC) 詳解
在 scRNA-seq 的數據分析流程中,品質管制 (Quality Control) 是極其關鍵的第一步。由於單細胞捕獲技術的限制和細胞本身的狀態差異,原始數據中會包含大量無用的雜訊(如死細胞、破裂液滴、雙細胞等)。
為什麼這很重要? 如果沒有嚴格的 QC,這些低品質數據會嚴重干擾後續的降維、分群 (Clustering) 和差異表現基因分析,甚至導致得出完全錯誤的生物學結論。
一、 細胞層級的 QC 核心指標
細胞層級的過濾旨在剔除品質不良的「細胞條碼 (Cell Barcodes)」。以下提供一個互動模擬器,讓您體驗不同閾值設定對數據集的影響。請嘗試拖曳下方滑桿。
1. 基因數量 nFeature_RNA
單一細胞中檢測到的基因總數。
過低 (<200): 細胞破裂或空液滴。
過高: 暗示為雙細胞 (Doublets)。
2. 總 UMI 數量 nCount_RNA
測得的所有轉錄本分子總數。應與基因數量呈現高度正相關。
異常高低通常與空液滴或多細胞有關。
3. 粒線體比例 MT%
判斷細胞死活/健康狀態的最重要指標。細胞破裂時 mRNA 流失,但粒線體 RNA 容易殘留。
常見閾值: 大於 5%~20% 剔除。
📊 QC 散佈圖模擬器 (nCount vs nFeature)
過濾破裂細胞/空液滴
過濾潛在雙細胞
過濾死亡/垂死細胞
X軸: 總 UMI (nCount_RNA) | Y軸: 基因數 (nFeature_RNA)
綠色點代表通過目前閾值的「健康單細胞」。
紅色點代表被剔除的雜訊。
二、 基因層級的 QC
除了過濾細胞,我們也需要過濾掉沒有分析價值的基因,以減少運算負擔和統計雜訊。
通常會將「在少於 3 個細胞中表現的基因」剔除。因為這些基因極有可能是測序錯誤的產物,或者表現量低到無法在後續分析中提供任何統計顯著性。
其他輔助細胞指標
-
🧬
核糖體基因比例 (Ribosomal Ratio) 過低有時暗示細胞狀態不佳,但此指標不如粒線體通用 (通常針對 RPS/RPL 開頭基因)。
-
🩸
紅血球基因比例 (Hemoglobin Ratio) 針對血液或富含血管組織,若非專門研究紅血球,通常會過濾掉 HBA, HBB 表現過高的細胞。
三、 進階 QC:處理技術性假象 (Artifacts)
基本的閾值過濾無法解決所有問題。即使過濾了極端值,仍有難以辨識的假象混入數據。現代分析需加入以下進階步驟:
1. 雙細胞 (Doublets)
兩個細胞被包裹在同一個液滴中。它們會在 UMAP 分群上形成不真實的「過渡狀態」。簡單的 nCount/nFeature 上限無法完全剔除由兩個小細胞組成的 Doublets。
使用演算法模擬雙細胞表現特徵,計算每個細胞的機率 (Doublet Score)。
常用工具: DoubletFinder, Scrublet, scDblFinder
2. 環境背景 RNA (Soup)
破裂細胞的 RNA 釋放到懸浮液中,被一起封裝到液滴裡。導致原本不該表現某基因的細胞(如 T 細胞)錯誤檢測出該基因(如肝細胞特異性基因)。
估算背景 RNA 分佈,並從表現矩陣中「減去」這部分污染值。
常用工具: SoupX, CellBender
四、 QC 閾值設定策略與最佳實踐
| 策略類型 | 固定閾值 (傳統) | 自適應閾值 (目前最佳實踐) |
|---|---|---|
| 概念 | 使用主觀的死板數值 (如 MT% < 5%) | 基於數據分佈 (Data-driven) 決定 |
| 常見方法 | 文獻常規經驗值 | 絕對中位差 (MAD): 中位數 + 3 倍 MAD |
| 缺點/優點 | 在多樣本整合或特殊組織分析時極易出錯。 | 對極端值更具強健性,能適應不同樣本本身的品質差異。(例如 scater 提供的 isOutlier()) |
💡 核心專家建議
-
1
沒有放諸四海皆準的閾值: QC 必須根據您的物種、組織類型(如心肌細胞粒線體本就偏高)、測序技術進行調整。務必查看小提琴圖與散佈圖。
-
2
聯合分佈比單一指標更重要: 就像上面的互動圖表,好的細胞應沿著對角線分佈;偏離軌跡的通常品質有問題。
-
3
寧可稍微寬鬆,也不要過度過濾 (Over-filtering): 過於嚴苛可能會把罕見的細胞亞群(例如靜止期細胞)給過濾掉。
-
4
將 QC 視為一個迭代過程: 初步寬鬆分群後,若發現某 Cluster 具高粒線體比例且缺乏特異標記,可回頭在 QC 步驟將其剔除。