[摘要]中藥是中華傳統(tǒng)文化的瑰寶,是中華民族智慧的結(jié)晶。新方法技術(shù)的不斷應(yīng)用使得中藥研究與時俱進。高通量轉(zhuǎn)錄組研究經(jīng)過數(shù)年的發(fā)展,已經(jīng)成為一項較為成熟的研究手段。該文對中藥轉(zhuǎn)錄組研究概況進行了綜述,比較了Roche公司的GS FLXTM平臺和Illumina公司的HiSeqTM 2000平臺兩大測序平臺,介紹了中藥轉(zhuǎn)錄組分析的流程,并以西洋參和金銀花為例,闡述了中藥轉(zhuǎn)錄組研究的特色。對傳統(tǒng)中藥進行高通量轉(zhuǎn)錄組研究,可以從整體水平上了解目標物種的功能基因概況,明確活性成分的代謝通路,為中藥研究奠定分子生物學基礎(chǔ),為傳統(tǒng)中醫(yī)藥理論提供現(xiàn)代生物學闡釋。但是,目前的中藥轉(zhuǎn)錄組研究仍面臨著分子基礎(chǔ)薄弱,測序投資成本高,分析人員緊缺等困難。未來,伴隨測序技術(shù)的發(fā)展與完善,轉(zhuǎn)錄組與蛋白質(zhì)組、代謝組等組學的聯(lián)合應(yīng)用,將為開創(chuàng)高通量篩選與高效率研發(fā)相結(jié)合的新型中藥產(chǎn)業(yè)發(fā)展模式奠定堅實的基礎(chǔ)。
[關(guān)鍵詞]中藥; 轉(zhuǎn)錄組; 西洋參; 金銀花
中藥經(jīng)過數(shù)千年的積累沉淀,承載著豐富的中醫(yī)理論。近年來,中藥研究進展飛速,不僅為醫(yī)藥產(chǎn)業(yè)提供了巨大的新藥創(chuàng)制資源,更成為未來多靶點藥物研發(fā)的源泉,彌補了西藥治療位點單一的不足。目前,指紋圖譜技術(shù)和質(zhì)譜色譜技術(shù)的應(yīng)用,促進了中藥有效成分的發(fā)現(xiàn)與鑒定[1-2]。然而尚有許多中醫(yī)藥理論因缺少現(xiàn)代自然科學的支撐和驗證,難以被社會所接受。轉(zhuǎn)錄組(transcriptome)是指特定生物體在某種狀態(tài)下所有基因轉(zhuǎn)錄產(chǎn)物的總和,轉(zhuǎn)錄組研究屬于功能基因組學研究的范疇,是連接基因組與蛋白質(zhì)組的紐帶。轉(zhuǎn)錄組研究著重于功能基因的表達,闡述生物學過程中的分子機理,已經(jīng)成為生物學領(lǐng)域較為成熟的研究手段。應(yīng)用高通量轉(zhuǎn)錄組分析技術(shù),可以從基因?qū)用嫔辖庾x中醫(yī)藥的現(xiàn)代內(nèi)涵,闡述中藥有效成分的代謝通路,為高通量發(fā)掘新型活性藥物成分奠定了堅實的基礎(chǔ)。自2009年以來,已有青蒿Artemisia annua[3]、西洋參Panax quinquefolius[4]、淫羊藿Epimedium Sagittatum[5]、金銀花Lonicera japonica[6-7]等數(shù)種傳統(tǒng)中藥材進行了高通量轉(zhuǎn)錄組的測序和分析。本文綜述了轉(zhuǎn)錄組技術(shù)在中藥領(lǐng)域的研究進展,對金銀花、西洋參等代表物種的研究進行了詳細闡述,總結(jié)了中藥轉(zhuǎn)錄組分析的特色與不足,并對中藥轉(zhuǎn)錄組的研究進行展望。
1中藥轉(zhuǎn)錄組研究
1.1中藥轉(zhuǎn)錄組研究概況
截至2014年1月,已有17種中藥進行了高通量轉(zhuǎn)錄組的研究。其中,開展研究最早的是青蒿A. annua[3],隨后,中藥轉(zhuǎn)錄組研究發(fā)展迅猛,2012年,有8種中藥進行了轉(zhuǎn)錄組研究(表1)。除了胡黃連Picrorhiza kurrooa[8]和百合Lilium regale[9],剩余的15種中藥的轉(zhuǎn)錄組測序工作均由中國人完成,體現(xiàn)了我國在中藥研究領(lǐng)域的霸主地位。早期的轉(zhuǎn)錄組測序主要以GS FLXTM System和GS FLXTM Titanium System平臺為主;到2012年,主要的測序平臺變?yōu)镮llumina HiSeqTM 2000;只有羅漢果Siraitia grosvenorii[10]和金銀花L. japonica[6]的轉(zhuǎn)錄組研究采用了Illumina GAⅡ platform平臺。金銀花L. japonica[6]注釋得到的基因數(shù)目最少,為5 330~6 591個,梅花鹿鹿茸Cervus nippon [14]注釋得到的基因數(shù)目最多,為138 642個。梅花鹿鹿茸轉(zhuǎn)錄組注釋得到了較多的基因,除了其本身基因豐富、可變剪切較多之外,還可能是由于其轉(zhuǎn)錄組的拼接效果較差,contig的N50為90 bp,使得原本由多個外顯子構(gòu)成的基因注釋成了分別的幾個較短的基因,從而使得注釋得到的基因數(shù)目偏多。
1.2中藥轉(zhuǎn)錄組的測序平臺比較
表1可知,中藥轉(zhuǎn)錄組研究的兩大平臺為Roche公司的GS FLXTM平臺和Illumina公司的HiSeqTM 2000平臺。GS FLXTM平臺的歷史可以追溯到2005年,454公司推出了基于焦磷酸測序法的高通量基因組測序系統(tǒng)[22],這一技術(shù)開創(chuàng)了邊合成邊測序(sequencing-by-synthesis, SBS)的先河,其后的第二代基因組測序系統(tǒng)——Genome Sequencer FLXTM System(GS FLX)[23]就是在此基礎(chǔ)上建立起來的(圖1)。454公司被Roche公司收購之后,于2008 年10 月,推出了全新的測序試劑——GS FLXTM Titanium,全面提升了測序的準確性、讀長和測序通量。目前,Roche 454 GS FLXTM Titanium System每次運行能產(chǎn)生100萬條序列,平均讀長能達到400~600 nt,且第400個堿基的準確率能達到99%。一次運行所需時間不到10 h,便能獲得40 Gb左右的測序數(shù)據(jù)。HiSeqTM 2000平臺是Illumina公司Solexa平臺中最為成功的商業(yè)化型號,一次運行可以獲得60億條序列,總數(shù)據(jù)量達到540~600 Gb,彌補了平均讀長較短的不足[24]。其測序的原理基于橋式PCR,HiSeqTM 2000平臺在此基礎(chǔ)上改進了聚合酶,并使用甲酰胺變性,提高了橋式PCR的擴增效率(圖1)。另外,HiSeqTM 2000平臺價格相對較低,因此,成為目前應(yīng)用最為廣泛的二代測序平臺。
2中藥轉(zhuǎn)錄組研究的特色
2.1中藥轉(zhuǎn)錄組分析流程
最早進行轉(zhuǎn)錄組研究的青蒿A. annua[3],采用454 GS FLXTM平臺,共獲得406 044條序列,平均讀長為210個堿基;組裝得到42 678條contig和147 699條singleton。可以說,數(shù)據(jù)拼接是轉(zhuǎn)錄組研究中數(shù)據(jù)分析的第一步。根據(jù)測序平臺的不同,所采用的數(shù)據(jù)拼接軟件也各不相同。例如,在GS FLXTM平臺上,甘草Glycyrrhiza uralensis[11]、丹參Salvia miltiorrhiza[12]和人參Panax ginseng[15]均采用該平臺自帶的拼接軟件GS De Novo Assembler software v2.0.01 (454 Life Sciences, Roche)來完成序列的組裝;而在HiSeqTM 2000平臺上,首烏Polygonum cuspidatum[16]和紅花Carthamus tinctorius[17]采用的軟件為SOAPdenovo,白木香Aquilaria sinensis[21]采用的軟件為Trinity。
原始數(shù)據(jù)經(jīng)過拼接之后,就可以進行下一步的基因注釋。在基因注釋的過程中,通過不同數(shù)據(jù)庫的交叉比較,可以得到較好的注釋效果。通常第一步是在NCBI(美國國立生物技術(shù)信息中心)的非冗余(non-redundant,nr)蛋白庫中通過BLASTX進行比對,設(shè)定閾值為1×10-5。由于非冗余蛋白庫中存放著大量物種的蛋白質(zhì)序列,這一步通常耗費較多的時間,得到的注釋結(jié)果也較為全面。為了對注釋得到的基因進行功能分類,常采用InterProScan[25]和Blast2GO[26]進行GO(Gene Orthology,基因本體論)注釋。GO注釋包含三大層面:細胞組分(cellular component)、分子生物學功能(molecular function)和生物學途徑(biological process),每個層面下又有不同級別的細分類,可以較為清晰的呈現(xiàn)轉(zhuǎn)錄組的功能分類情況[27]。另外,常采用的還有COG(clusters of orthologous group,直系同源聚類分析)注釋[28]。通過COG注釋,可以根據(jù)同源比對注釋未知蛋白序列,還可以查看特定條目下的蛋白數(shù)目及缺失情況,從而能推測特定代謝通路是否存在。另一個可以用于基因通路分析的數(shù)據(jù)庫是KEGG(Kyoto encyclopedia of genes and genomes,京都基因與基因組百科全書)[29]。KEGG 的PATHWAY 數(shù)據(jù)庫整合了分子互動網(wǎng)絡(luò)(比如通道,聯(lián)合體)的知識,實現(xiàn)了基因目錄與更高級別的細胞、物種和生態(tài)系統(tǒng)水平的系統(tǒng)功能的關(guān)聯(lián)。KEGG強大的圖形功能,能夠更為直觀全面的展現(xiàn)基因在代謝途徑上的分布以及各代謝通路之間的相互關(guān)系。早期研究中,青蒿A. annua[3]的轉(zhuǎn)錄組研究只使用了nr庫注釋和GO注釋,西洋參[4]P. quinquefolius的轉(zhuǎn)錄組研究只使用了nr庫注釋和KEGG注釋;而在近期研究中,金銀花L. japonica[6]、虎杖Polygonum cuspidatum[18]、杜仲Eucommia ulmoides[19]等的轉(zhuǎn)錄組研究全面的使用了nr庫注釋、GO注釋、COG注釋和KEGG注釋,標志著中藥轉(zhuǎn)錄組研究的方法體系日趨完善。
2.2轉(zhuǎn)錄組技術(shù)在中藥中的應(yīng)用及優(yōu)勢
雖然中藥轉(zhuǎn)錄組的研究尚處于起步階段,相關(guān)研究還很零散,但是,已有數(shù)種中藥物種的轉(zhuǎn)錄組研究取得了突破性進展,顯示出轉(zhuǎn)錄組技術(shù)在中藥研究中的巨大潛力,為后續(xù)中藥轉(zhuǎn)錄組的研究奠定了基礎(chǔ)。中藥轉(zhuǎn)錄組研究能夠通過數(shù)據(jù)分析,發(fā)現(xiàn)與中藥活性成分相關(guān)的新基因型和新代謝通路。例如,甘草G. uralensis[11]的轉(zhuǎn)錄組研究通過數(shù)據(jù)分析發(fā)現(xiàn)了甘草酸骨架合成相關(guān)的16個酶的候選基因,通過與Real-time PCR實驗相結(jié)合,又發(fā)現(xiàn)了9個可能參與甘草酸合成的基因,包括3個細胞色素P450和6個糖基轉(zhuǎn)移酶基因,加深了對甘草酸生物合成途徑的認識。紅花C. tinctorius[17]的轉(zhuǎn)錄組研究著重對類黃酮和不飽和脂肪酸的生物合成通路進行分析,KEGG預測結(jié)果表明相關(guān)通路基因在紅花中較為保守。另外,中藥轉(zhuǎn)錄組研究還能有效結(jié)合轉(zhuǎn)錄組和生化實驗數(shù)據(jù),明晰其活性成分的作用機制,從基因表達的層面上,更好地闡釋中醫(yī)藥理論的深刻內(nèi)涵。例如,西洋參P. quinquefolius[4]的轉(zhuǎn)錄組研究結(jié)合了甲基茉莉酸誘導實驗和Real-time PCR實驗,確定了5個可能參與人參皂苷合成的候選基因,包括一個細胞色素P450和4個UDP-糖基轉(zhuǎn)移酶基因。金銀花L. japonica[6]的轉(zhuǎn)錄組研究結(jié)合氣象色譜質(zhì)譜及高效液相色譜技術(shù),建立起了基因表達量與活性物質(zhì)含量之間的關(guān)聯(lián)。
2.3代表中藥轉(zhuǎn)錄組研究解析
2.3.1 西洋參轉(zhuǎn)錄組研究 西洋參P. quinquefolius[4]是目前應(yīng)用最廣泛的傳統(tǒng)中藥材之一,也是較早開展轉(zhuǎn)錄組研究的中藥材之一。西洋參轉(zhuǎn)錄組研究采用454 GS FLXTM Titanium System平臺,共得到209 747條高質(zhì)量序列,平均讀長為427個堿基,數(shù)據(jù)組裝得到16 592條contig和14 496條singleton。通過nr庫注釋,得到21 684個基因。通過KEGG通路注釋,發(fā)現(xiàn)西洋參的轉(zhuǎn)錄組中包含了甾醇骨架合成通路、油菜素類固醇合成通路和豆甾醇合成通路的所有基因。人參皂苷的合成途徑中有2步是由細胞色素P450基因催化的,第一步是催化達瑪烷轉(zhuǎn)化為原人參二醇,第二步是催化原人參二醇轉(zhuǎn)化為原人參三醇。因此,在西洋參轉(zhuǎn)錄的研究中,著重進行了細胞色素P450的注釋和分析,共獲得了150個細胞色素P450基因,并進行了甲基茉莉酸誘導實驗的驗證,篩選得到了一系列與人參皂苷合成相關(guān)的細胞色素基因。另外,該研究在新基因型發(fā)掘方面,還發(fā)現(xiàn)了235個糖基轉(zhuǎn)移酶基因。西洋參的轉(zhuǎn)錄組研究結(jié)合了高通量測序、數(shù)據(jù)分析和后期的實驗驗證,研究體系完整,實驗結(jié)果詳實。實現(xiàn)了對西洋參人參皂苷代謝通路的分析,有利于今后工程西洋參的研發(fā)和應(yīng)用。