單細(xì)胞轉(zhuǎn)錄組測序近幾年相當(dāng)熱門,這個技術(shù)能讓我們獲取每個測得細(xì)胞的轉(zhuǎn)錄組信息,但問題是單細(xì)胞測序相當(dāng)大的數(shù)據(jù)量給后續(xù)的數(shù)據(jù)分析帶來了不少挑戰(zhàn)。
單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析的難點主要在于細(xì)胞的質(zhì)量不確定,細(xì)胞的數(shù)量大,從單細(xì)胞測序技術(shù)誕生至今,測到的細(xì)胞通量越來越高,現(xiàn)在一次單細(xì)胞轉(zhuǎn)錄組測到的細(xì)胞數(shù)可達(dá)100K~200K[1]。因而,對分析人員的要求也越來越高。
雖然單細(xì)胞轉(zhuǎn)錄組的分析不容易,但依然是有清晰的流程噠(見下圖):
接下來我們一起看看,每一步都需要做些啥。
01
測序原始數(shù)據(jù)的處理
測序原始數(shù)據(jù)通常指測序下機(jī)得到的fastq文件,需要經(jīng)過一定的處理,將其中我們需要的信息,如barcode,UMI以及基因的序列等,給提取出來,方便下一步分析。
最初處理原始數(shù)據(jù)常用的是perl腳本,后來有了更方便的軟件或工具。目前我們常用的是fastp、 cutadapt、 trimmomatic等分析工具。這步處理主要是為了去除測序時引入的連續(xù)的N、低質(zhì)量reads、以及建庫時引入的接頭序列等。
通過這步分析,我們可以得到關(guān)注的barcode、UMI以及基因的序列。
02
獲得表達(dá)矩陣
處理完fastq之后,我們需要從中分析出每個細(xì)胞中基因表達(dá)的信息,即獲得表達(dá)矩陣。對于這一步處理,我們常采用的是STAR或者salmon,kallisto等比對工具,將測得的序列片段比對到參考基因組或者轉(zhuǎn)錄組。同時根據(jù)建庫時的barcode白名單對每個真實捕獲到的細(xì)胞barcode進(jìn)行比對,分出每個細(xì)胞的基因表達(dá)矩陣。
表達(dá)矩陣示意圖[5]
表達(dá)矩陣中包含了每個細(xì)胞轉(zhuǎn)錄組中各個基因表達(dá)水平的信息,是我們后續(xù)各類分析的基礎(chǔ)。
在有些集成度較高的軟件中,往往第一步和第二步是協(xié)同運行的,比如墨卓生物的生信分析軟件MobiVision?,其中內(nèi)置的mobivision quantify這個工具,可以自動化的完成從原始數(shù)據(jù)到表達(dá)矩陣的分析。
這樣的分析之后,我們可以統(tǒng)計得到細(xì)胞的個數(shù),各個細(xì)胞表達(dá)的基因數(shù)等信息。同時,通過對這些信息的統(tǒng)計分析,我們還可以判斷單細(xì)胞測序數(shù)據(jù)整體的質(zhì)量,為后面的分析步驟提供依據(jù)和參考。
單細(xì)胞測序數(shù)據(jù)質(zhì)控的指標(biāo)有很多,這里我們來重點看看3個最為常見的指標(biāo)。
細(xì)胞數(shù) Number of Cells
即捕獲到的細(xì)胞數(shù),是通過分析與細(xì)胞關(guān)聯(lián)的條形碼的數(shù)目計算出來的。根據(jù)這個值,我們可以知道這次單細(xì)胞測序捕獲了多少細(xì)胞。
中值UMI數(shù) Median UMI Counts per Cell
這個指標(biāo)代表的是每個細(xì)胞中被檢測到UMI數(shù)據(jù)的中位數(shù)。UMI是目前許多高通量單細(xì)胞測序平臺用到的一種分子標(biāo)簽,會給細(xì)胞中每個被捕獲的mRNA分子打上一個獨特的標(biāo)簽,用來在分析中校準(zhǔn)基因的表達(dá)量。通過這個指標(biāo),我們可以了解到每個高質(zhì)量細(xì)胞中大概有多少個mRNA分子被捕獲到。
中值基因數(shù) Median Genes per Cell
這個指標(biāo)代表的是每個細(xì)胞中被檢測到基因數(shù)目的中位數(shù)。雖然人體一共有約2萬個基因,但由于轉(zhuǎn)錄水平的不同和測序量的限制,每個細(xì)胞中能測到的基因只是這2萬個中的一部分——當(dāng)然,我們希望能測到的基因越多越好。這個指標(biāo)可以讓我們了解到,在這次單細(xì)胞測序?qū)嶒炛?,每個細(xì)胞中大概有多少個基因被測到。
03
細(xì)胞過濾
雖然上一步中我們得到了所有細(xì)胞中基因表達(dá)的信息,但并不是每個細(xì)胞中信息的質(zhì)量都符合我們后續(xù)分析的標(biāo)準(zhǔn),因此,我們需要對細(xì)胞進(jìn)行過濾,以便獲得相對完好的細(xì)胞。那么,怎樣進(jìn)行過濾呢?
在單細(xì)胞測序分析中,過濾的標(biāo)準(zhǔn)往往是某些特定基因的表達(dá)量,用來鑒別出質(zhì)量欠佳的細(xì)胞,將其過濾掉。其中最重要的參考標(biāo)準(zhǔn)是基因數(shù)以及線粒體基因表達(dá)情況。
以下3幅小提琴圖,分別展示了基因數(shù),mRNA分子總數(shù)、線粒體基因占比這三個常用的過濾指標(biāo)。
細(xì)胞過濾參考的指標(biāo)
首先可以通過基因數(shù)、mRNA分子數(shù)、線粒體基因占比三個參數(shù)進(jìn)行質(zhì)控去除質(zhì)量差的細(xì)胞。
nFeature_RNA 是每個細(xì)胞中檢測到的基因數(shù)量。
nCount_RNA 是細(xì)胞內(nèi)檢測到的mRNA分子總數(shù)。
percent.mt 是細(xì)胞內(nèi)線粒體基因表達(dá)量占所有基因表達(dá)量的比例。
如果nFeature_RNA 過低,表示該細(xì)胞可能已經(jīng)死亡或?qū)⒁劳龌蛘呖赡苁强找旱巍?/p>
如果nFeature_RNA 與 nCount_RNA 數(shù)值過高,表示細(xì)胞在形成油包水的結(jié)構(gòu)制備過程中,兩個或者多個細(xì)胞被包裹在一個液滴中。
如果線粒體基因占比較高,則說明細(xì)胞的質(zhì)量較差。這是因為線粒體基因會在受損或凋亡細(xì)胞表達(dá)升高,因而線粒體基因占比較高,表明細(xì)胞可能已經(jīng)受損或者正處于凋亡過程中。
不過,每種細(xì)胞或組織類型如何設(shè)定線粒體閾值,要依實際情況而定。比如某些細(xì)胞的呼吸作用很旺盛,其線粒體基因的比例就會可能很高,而不是因為細(xì)胞破裂或者細(xì)胞狀態(tài)不好引起的。而有些細(xì)胞本來基因的表達(dá)數(shù)就很少,比如中性粒細(xì)胞。所以這三個參數(shù)的設(shè)置要根據(jù)細(xì)胞類型而設(shè)置。
04
降維和聚類
拿到過濾后的細(xì)胞后,我們就可以進(jìn)行進(jìn)一步的分析,了解樣本中有哪些類型的細(xì)胞,每個細(xì)胞分別屬于哪種細(xì)胞類型,甚至細(xì)胞亞型。
要做到這一點,我們首先要知道哪些細(xì)胞是屬于同一類的,這就需要進(jìn)行降維和聚類。
所謂降維,就是把多維度的復(fù)雜數(shù)據(jù)用更少的維度展示出來,同時盡量保留原始數(shù)據(jù)中的主要信息。比如照片和地圖,就是對三維物體和真實世界的一種降維展示。
從三維的地球到二維的世界地圖,就是一種“降維”
而聚類的概念就比較簡單了,顧名思義,就是把相似的類別聚在一起。
單細(xì)胞測序分析的降維聚類圖,就是將各個細(xì)胞的基因表達(dá)情況在二維平面上展示出來,并且將基因表達(dá)特征近似的細(xì)胞聚在一起。
在降維聚類圖中,細(xì)胞間的距離是由它們表達(dá)譜的相似程度決定的。表達(dá)譜相似的細(xì)胞會聚在一起,被標(biāo)記為同一種顏色,提示它們可能屬于同一種細(xì)胞類型,為后續(xù)判斷細(xì)胞類型提供分析基礎(chǔ)。
聚類后UMAP可視化結(jié)果
05
找到細(xì)胞簇的Maker基因
對于第四步中發(fā)現(xiàn)的每一個細(xì)胞簇(cluster,即降維聚類圖中聚在一起的一群細(xì)胞),我們可以通過分析找到在其中特異表達(dá)的cluster marker基因,用于后續(xù)的細(xì)胞類型注釋分析。
在通常情況下,我們會將某一個cluster與其他所有cluster相比的差異基因作為這個cluster的marker基因。當(dāng)然,如果需要的話,也可以計算兩實驗組間或者兩cluster間的差異基因來作為marker。這些都可以用Seurat軟件包內(nèi)的FindMarkers函數(shù)來實現(xiàn)。
06
細(xì)胞類型注釋
在得到細(xì)胞簇以及它們的marker基因后,我們就要對這些細(xì)胞簇的細(xì)胞類型進(jìn)行判定,這一步就是細(xì)胞類型注釋。
細(xì)胞類型注釋是基于不同細(xì)胞類型中特異表達(dá)的marker基因來進(jìn)行的。在第五步中,我們找到了每個細(xì)胞簇的marker基因,如果某個細(xì)胞簇的marker和某個細(xì)胞類型的marker基因相符,就可以被判定為對應(yīng)的細(xì)胞類型。
這一步是單細(xì)胞分析中非常重要的環(huán)節(jié),有一些細(xì)胞自動注釋軟件可以幫助我們定義細(xì)胞類型,比如singleR或者scCATCH。
當(dāng)然受限于前期實驗設(shè)計或數(shù)據(jù)分析的差異,自動注釋的結(jié)果有時并不能與預(yù)期相符,我們還可以通過單細(xì)胞公共數(shù)據(jù)庫(比如CellMarker、PangLaoDB、CancerSCEM、SingleCellPortal等)或者已發(fā)表文章,來尋找自己感興趣的單細(xì)胞注釋參考數(shù)據(jù)集或已知的細(xì)胞類型marker,以提高注釋準(zhǔn)確度。
比如,對于外周血單個核細(xì)胞(PBMC)數(shù)據(jù)集,我們可以用第五步中的方法計算出每個細(xì)胞簇的marker(下表中第二列),然后基于這些marker基因,就可以找到對應(yīng)的細(xì)胞類型(下表中第三列),于是就能輕松地進(jìn)行細(xì)胞類型注釋啦!
進(jìn)行了注釋后,我們在降維聚類圖上看到的,就不再是以數(shù)字編號的細(xì)胞簇,而是有名有姓的具體細(xì)胞類型:
細(xì)胞類型注釋結(jié)果樣例
當(dāng)我們獲得了完整的細(xì)胞類型注釋后,就可以開始進(jìn)行下游的深入分析啦,比如不同細(xì)胞類型的差異基因、通路富集,也可以進(jìn)行擬時序分析、細(xì)胞通訊分析等等,對樣本中各類細(xì)胞的功能、狀態(tài)和相互作用進(jìn)行更加深入詳細(xì)的分析。
總結(jié)
通過上面的六步,我們可以完成單細(xì)胞測序數(shù)據(jù)的基本分析。其中從第一步到第三步是相對耗時較長的,對計算資源的需求較高的,因此也是挑戰(zhàn)較大的。
主營項目
1. 動物實驗
動物飼養(yǎng)、疾病造模、行為學(xué)檢測、心功能、無創(chuàng)血壓、血常規(guī)、全自動生化檢測等
2. 細(xì)胞實驗
CCK8/MTT、原代細(xì)胞分離、流式細(xì)胞實驗、細(xì)胞劃痕、侵襲、遷移、EDU染色、轉(zhuǎn)染、穩(wěn)定株
3. 分子生物學(xué)
PCR檢測、熒光定量PCR、絕對定量PCR、端粒酶長度、pull down、雙熒光素酶、SSR、SNP檢測等
4. 蛋白實驗
WB、Co-IP、酵母雙雜
5. 病理實驗
HE染色、免疫組學(xué)、電鏡
6. 生理生化實驗
肝腎功能、抗氧化、免疫反應(yīng)等生理免疫指標(biāo);動植物營養(yǎng)指標(biāo)、微量元素、重金屬、酶活等。
7. 多組學(xué)實驗
基因組、轉(zhuǎn)錄調(diào)控、蛋白組、代謝組、微生物多樣性、宏基因組、生信分析
8. 整體課題實驗
方案設(shè)計、整體實驗交付、標(biāo)書寫作、論文潤色、協(xié)助投稿
聯(lián)系我們
康旭禾生物提供包括動物實驗、細(xì)胞實驗、分子實驗、病理實驗、流式檢測實驗及論文翻譯、潤色、投稿輔助等相關(guān)的各項服務(wù)。
聯(lián)系方式:15579126092
公司官網(wǎng):http://consurebio.com/
公司地址:江西省南昌市南昌縣小藍(lán)VR產(chǎn)業(yè)基地D座2樓