尋找差異表達特徵 (Cluster Biomarkers)
本區塊介紹單細胞數據分析中差異表達 (DE) 的基礎。在完成細胞分群後,我們必須找出定義各群的「標誌基因」。理想的標誌物需要具備高靈敏度與高特異性。點擊下方卡片探索不同的比較策略與主流軟體函數。
➚ 比較策略 (DE Strategies)
一對多 (One vs. All)
將特定聚類與剩餘的「所有細胞」進行比較。目標是找出該群**專有**的特徵,通常用於定義大類型的細胞。
一對一 (One vs. One)
比較兩個特定的聚類 (如 Cluster A vs B)。通常用於區分非常相似的亞群 (Subtypes),尋找細微的特徵差異。
⚙ 核心工具 (Seurat 函數)
目前主流使用 R 工具包 Seurat 進行標誌物鑑定。
-
FindMarkers()
-
FindAllMarkers()
**自動遍歷**所有聚類,將每一群分別與其餘細胞進行比較。這是初步細胞類型鑑定最常用的函數。
關鍵篩選參數與互動模擬
設定適當的門檻 (Thresholds) 可以過濾技術雜訊並加速運算。本區塊透過模擬基因數據,讓您親自調整 logfc.threshold 與 p-value 門檻,觀察標誌基因如何從背景雜訊中被分離出來。
參數控制面板
其他重要參數 (靜態說明)
min.pct: 基因必須在至少 X% 的細胞中被偵測到 (過濾少數表現基因)。
only.pos: 若為 TRUE,僅保留「上調」的高表現基因。
差異表達模擬散佈圖 (Volcano Plot Proxy)
X 軸為 Log2 Fold Change,Y 軸為 -Log10(P-value)。紅色/青色點為符合您左側門檻設定的顯著標誌基因。
目標群高表現標誌基因
未達顯著門檻基因
統計檢定方法 (Statistical Tests)
scRNA-seq 數據具有高度稀疏性 (Sparse) 與 Dropout 現象。選擇正確的 test.use 模型對分析準確度至關重要。點擊下方列表探索不同的統計模型。
Wilcoxon Rank Sum Test (預設)
優點
非參數檢定,對數據分布不作假設,運算速度極快,且在多項基準測試中表現優異。
適用場景
絕大多數通用場景,是最穩定且推薦的預設起點。
結果解讀與可視化
算出結果矩陣後,真正的挑戰在於生物學解讀。本區解釋表格中的關鍵指標,並列出常用的視覺化驗證方法與最佳實踐建議。
✔ 解讀數據表格
-
p_val_adj
校正後的 p 值 (Bonferroni 或 FDR)。通常 < 0.05 視為統計上顯著。
-
avg_log2FC
表現量差異的對數倍數。正值代表在目標群中高表現。數值越大特異性越強。
-
pct.1 / pct.2
基因在目標群 (pct.1) 與對照群 (pct.2) 中表達細胞的比例。理想標誌物 pct.1 高且 pct.2 低。
⚏ 驗證圖表 (可視化方式)
▦
DoHeatmap
Top markers 表達矩陣
★ 最佳實踐建議
1. 不要過度依賴 p 值
單細胞分析中細胞數量極大,微小差異也會產生極顯著的 p 值。務必結合 log2FC 與 pct 差異判斷生物學意義。
2. 嚴格驗證 pct 差異
優質標誌基因應在目標群有高表達率 (如 >70%),在其他群表達率極低 (如 <20%)。
3. 結合先驗知識
生信分析只是輔助,最終鑑定需比對 CellMarker、PanglaoDB 等資料庫或文獻,確認基因符合已知細胞特徵。