單細胞轉錄組分析 (scRNA-seq)

非線性降維分析互動指南

探索 UMAP 與 t-SNE 如何將 20,000 個基因特徵的複雜細胞流形,轉化為直觀的 2D 視覺化圖譜。

為什麼需要「非線性」降維?

本區段旨在建立降維分析的核心觀念。在單細胞分析中,我們常面臨極高的資料維度。了解為何傳統線性方法不足,是非線性演算法派上用場的關鍵前提。

傳統 PCA (線性) 的局限

主成分分析 (PCA) 是標配,但它主要捕捉數據中的全域差異 (Global variance)。面對複雜的生物學流形 (Manifold),PCA 難以將細微的細胞亞群區分開,容易導致資料重疊。

非線性降維的優勢

  • 保留高維空間中點與點之間的局部鄰域關係
  • 能將複雜的非線性結構「攤平」到 2D 平面上,使細胞分群與生物學軌跡一目了然。

演算法對決:視覺化模擬器

此互動區塊模擬了三種演算法處理相同單細胞數據時的視覺差異。請點擊按鈕切換,觀察細胞群體在不同降維空間中的分佈特性與群間關係。

關鍵參數對比

調整這些參數會直接影響降維結果的緊密度與群間距離。了解它們的功能是優化圖譜的關鍵。

參數 t-SNE UMAP
核心變數 Perplexity n_neighbors / min_dist
功能影響 控制局部與全域結構的平衡。數值越大,考慮的鄰居越多。 n_neighbors 控制局部結構;min_dist 控制點的緊密程度。
建議設定 30 - 50 15-30 / 0.1-0.3

實戰流程 (R 語言 Seurat)

提供標準的分析代碼流程。注意:在運行非線性降維之前,必須先運行 PCA 以去噪並加速運算。

            # 假設已完成標準化與高變異基因篩選
            # 1. 運行 PCA (線性降維)
            pbmc <- RunPCA(pbmc, features = VariableFeatures(object = pbmc))
          
          # 2. 選擇主成分數量 (例如前 20 個 PC)
            # 3. 運行 UMAP (推薦)
            pbmc <- RunUMAP(pbmc, dims = 1:20)
          
          # 4. 運行 t-SNE (可選)
            pbmc <- RunTSNE(pbmc, dims = 1:20)
          
          # 5. 視覺化
            DimPlot(pbmc, reduction = "umap", label = TRUE)
          

常見誤區與注意事項

點擊下方問題展開詳細解說,避免在解讀降維圖表時產生常見的生物學誤判。

UMAP1 或 tSNE1 軸本身沒有明確的物理或生物學意義。這與 PCA 完全不同(PCA 的 PC1 代表數據中最大的變異方向)。它們只是用來將點散佈在 2D 空間中的相對座標。

t-SNE 中,兩個遠處分群之間的距離通常沒有意義,它通常會丟失全域結構。而在 UMAP 中,雖然相對距離(全域結構)保留得較好,更具生物學意義(如發育路徑),但仍應謹慎解讀,不宜直接量化絕對距離。

不一定。分群的視覺大小(點的分佈密度)很大程度上受到演算法設定參數(如 min_dist 或 perplexity)的影響,並不一定代表該群細胞內部的實際轉錄組異質性程度

不是。非線性降維通常是在 PCA 的空間(例如前 20-30 個主要成分)上運行,而不是直接在原始的 20,000 個基因上運行。這有助於消除雜訊並大幅提升運算效率。