scRNA-seq 品質管制 (QC) 互動解析指南

單細胞 RNA 定序數據分析中的
品質管制 (QC) 詳解

在 scRNA-seq 的數據分析流程中，品質管制 (Quality Control) 是極其關鍵的第一步。由於單細胞捕獲技術的限制和細胞本身的狀態差異，原始數據中會包含大量無用的雜訊（如死細胞、破裂液滴、雙細胞等）。

為什麼這很重要？ 如果沒有嚴格的 QC，這些低品質數據會嚴重干擾後續的降維、分群 (Clustering) 和差異表現基因分析，甚至導致得出完全錯誤的生物學結論。

一、細胞層級的 QC 核心指標

細胞層級的過濾旨在剔除品質不良的「細胞條碼 (Cell Barcodes)」。以下提供一個互動模擬器，讓您體驗不同閾值設定對數據集的影響。請嘗試拖曳下方滑桿。

1. 基因數量 nFeature_RNA

單一細胞中檢測到的基因總數。
過低 (<200): 細胞破裂或空液滴。
過高: 暗示為雙細胞 (Doublets)。

2. 總 UMI 數量 nCount_RNA

測得的所有轉錄本分子總數。應與基因數量呈現高度正相關。
異常高低通常與空液滴或多細胞有關。

3. 粒線體比例 MT%

判斷細胞死活/健康狀態的最重要指標。細胞破裂時 mRNA 流失，但粒線體 RNA 容易殘留。
常見閾值: 大於 5%~20% 剔除。

📊 QC 散佈圖模擬器 (nCount vs nFeature)

總數: 1000

保留: --

剔除: --

最少基因數 (Min Feature) 200

過濾破裂細胞/空液滴

最多基因數 (Max Feature) 4000

過濾潛在雙細胞

最高粒線體比例 (Max MT%) 10%

過濾死亡/垂死細胞

X軸: 總 UMI (nCount_RNA) | Y軸: 基因數 (nFeature_RNA)
綠色點代表通過目前閾值的「健康單細胞」。紅色點代表被剔除的雜訊。

二、基因層級的 QC

除了過濾細胞，我們也需要過濾掉沒有分析價值的基因，以減少運算負擔和統計雜訊。

極低表現基因過濾：
通常會將「在少於 3 個細胞中表現的基因」剔除。因為這些基因極有可能是測序錯誤的產物，或者表現量低到無法在後續分析中提供任何統計顯著性。

其他輔助細胞指標

🧬
核糖體基因比例 (Ribosomal Ratio) 過低有時暗示細胞狀態不佳，但此指標不如粒線體通用 (通常針對 RPS/RPL 開頭基因)。
🩸
紅血球基因比例 (Hemoglobin Ratio) 針對血液或富含血管組織，若非專門研究紅血球，通常會過濾掉 HBA, HBB 表現過高的細胞。

三、進階 QC：處理技術性假象 (Artifacts)

基本的閾值過濾無法解決所有問題。即使過濾了極端值，仍有難以辨識的假象混入數據。現代分析需加入以下進階步驟：

1. 雙細胞 (Doublets)

兩個細胞被包裹在同一個液滴中。它們會在 UMAP 分群上形成不真實的「過渡狀態」。簡單的 nCount/nFeature 上限無法完全剔除由兩個小細胞組成的 Doublets。

解決方案：
使用演算法模擬雙細胞表現特徵，計算每個細胞的機率 (Doublet Score)。
常用工具: DoubletFinder, Scrublet, scDblFinder

2. 環境背景 RNA (Soup)

破裂細胞的 RNA 釋放到懸浮液中，被一起封裝到液滴裡。導致原本不該表現某基因的細胞（如 T 細胞）錯誤檢測出該基因（如肝細胞特異性基因）。

解決方案：
估算背景 RNA 分佈，並從表現矩陣中「減去」這部分污染值。
常用工具: SoupX, CellBender

四、 QC 閾值設定策略與最佳實踐

策略類型	固定閾值 (傳統)	自適應閾值 (目前最佳實踐)
概念	使用主觀的死板數值 (如 MT% < 5%)	基於數據分佈 (Data-driven) 決定
常見方法	文獻常規經驗值	絕對中位差 (MAD): 中位數 + 3 倍 MAD
缺點/優點	在多樣本整合或特殊組織分析時極易出錯。	對極端值更具強健性，能適應不同樣本本身的品質差異。(例如 scater 提供的 `isOutlier()`)

💡 核心專家建議

1

沒有放諸四海皆準的閾值： QC 必須根據您的物種、組織類型（如心肌細胞粒線體本就偏高）、測序技術進行調整。務必查看小提琴圖與散佈圖。
2

聯合分佈比單一指標更重要： 就像上面的互動圖表，好的細胞應沿著對角線分佈；偏離軌跡的通常品質有問題。
3

寧可稍微寬鬆，也不要過度過濾 (Over-filtering)： 過於嚴苛可能會把罕見的細胞亞群（例如靜止期細胞）給過濾掉。
4

將 QC 視為一個迭代過程： 初步寬鬆分群後，若發現某 Cluster 具高粒線體比例且缺乏特異標記，可回頭在 QC 步驟將其剔除。

scRNA-seq QC 指南

單細胞 RNA 定序數據分析中的品質管制 (QC) 詳解

一、 細胞層級的 QC 核心指標