喜訊 | 竺立哲教授課題組在Nature 子刊Nature Communications 發(fā)表論文
喜訊
? ? ? ? 近日,生命與健康科學(xué)學(xué)院竺立哲教授課題組與南方科技大學(xué)陳煒教授、香港科技大學(xué)黃旭輝教授和沙特阿卜杜拉國(guó)王科技大學(xué)高欣教授課題組合作,在Nature?子刊Nature Communications(《自然通訊》)上發(fā)表論文“A deep learning framework to predict binding preference of RNA constituents on protein surface”。竺立哲教授為該論文的共同通訊作者之一。
? ? ? ? 該論文提出的NucleicNet,是一種研究RBP 和RNA 結(jié)合的全新算法框架,可以同時(shí)提供 RBP 和 RNA 相互作用時(shí)的結(jié)構(gòu)信息以及大規(guī)模的結(jié)合強(qiáng)度信息。此外,該框架可適用于其他類(lèi)似問(wèn)題,如蛋白質(zhì)和藥物小分子的相互作用,為新藥研發(fā)提供新思路。
?
科研成果簡(jiǎn)介
? ? ? ? RNA 結(jié)合蛋白(RBP)是基因表達(dá)調(diào)控中不可或缺的一類(lèi)生物分子,對(duì)于轉(zhuǎn)錄后調(diào)控尤為關(guān)鍵。比如,Argonaute蛋白是RNA 干擾(RNAi)的核心酶, PUF 蛋白可以直接影響 mRNA 的表達(dá)等。破譯RNA與蛋白相互作用的特異性和機(jī)制,對(duì)于理解RBPs功能、鑒定和識(shí)別RBPs、研究轉(zhuǎn)錄后調(diào)控以及設(shè)計(jì)用于RBPs識(shí)別和調(diào)節(jié)的RNAs等一系列問(wèn)題都具有重要意義。
? ? ? ? 目前研究RBP 和 RNA 相互作用的實(shí)驗(yàn)方法可分為兩類(lèi),一為基于A(yíng)ssay 的大規(guī)?;?yàn)分析,二為基于RBP 和RNA 結(jié)合復(fù)合物的結(jié)構(gòu)分析。前者可大規(guī)模地測(cè)試 RBP 和RNA 的結(jié)合強(qiáng)度及RBP 對(duì)RNA 序列的選擇性?;诖祟?lèi)實(shí)驗(yàn)結(jié)果的計(jì)算方法(如DeepBind等)可以整合和學(xué)習(xí)化驗(yàn)數(shù)據(jù)從而推斷特異性模式,但無(wú)法揭示它們相互作用時(shí)的結(jié)構(gòu)細(xì)節(jié),尤其是無(wú)法鑒別其相互作用是通過(guò)堿基直接完成還是通過(guò)主鏈間接達(dá)成。復(fù)合物結(jié)構(gòu)分析可以揭示RBP-RNA 作用細(xì)節(jié),但受限于結(jié)構(gòu)生物學(xué)實(shí)驗(yàn)的高昂成本無(wú)法大規(guī)模快速進(jìn)行,導(dǎo)致在含某一特定RBP的已知RBP-RNA 復(fù)合物結(jié)構(gòu)中的RNA 序列數(shù)量較少,通常不具有統(tǒng)計(jì)學(xué)意義。此外,已知的基于結(jié)構(gòu)和序列的計(jì)算方法都只能區(qū)分結(jié)合位點(diǎn)和非結(jié)合位點(diǎn),而無(wú)法預(yù)測(cè)RBP 對(duì)特定RNA 序列的偏好性和作用模式。
? ? ? ?? 針對(duì)以上問(wèn)題,該論文提出了一種僅僅基于已知的復(fù)合物結(jié)構(gòu)便可預(yù)測(cè)RBP-RNA相互作用機(jī)制和特異性的深度學(xué)習(xí)算法框架NucleicNet。該方法具有以下四大功能:
? ? ? ? (1)預(yù)測(cè)RBP與RNA具體作用模式,并將其可視化;
? ? ? ? (2)無(wú)需大規(guī)?;?yàn)數(shù)據(jù)即可得到與實(shí)驗(yàn)可比的結(jié)果;
? ? ? ? (3)可對(duì)RBP與某一RNA序列的結(jié)合強(qiáng)度進(jìn)行評(píng)分;
? ? ? ? (4)在不同RBPs家族中具有普適性,或可被用于識(shí)別新的RBPs及預(yù)測(cè)它們與RNA結(jié)合的位點(diǎn)及特異性。
? ? ? ?? 如上圖所示,NucleicNet 從蛋白質(zhì)的結(jié)構(gòu)出發(fā),首先在被研究蛋白質(zhì)的表面產(chǎn)生空間點(diǎn)陣,然后預(yù)測(cè)空間點(diǎn)陣中的每一個(gè)點(diǎn)結(jié)合RNA 各個(gè)基團(tuán)(磷酸、核糖、腺嘌呤、鳥(niǎo)嘌呤、胞嘧啶、尿嘧啶)的概率。對(duì)于每一個(gè)空間點(diǎn),該方法使用斯坦福大學(xué) Russ Altman 課題組(也是本文作者之一)所研發(fā)的 FEATRURE 框架去提取和該點(diǎn)有關(guān)的結(jié)構(gòu)及理化性質(zhì)信息。這些信息會(huì)被輸入到一個(gè)深度學(xué)習(xí)模型之中,從而得到該點(diǎn)結(jié)合RNA 各個(gè)基團(tuán)的概率。不同空間點(diǎn)與 RNA 基團(tuán)的結(jié)合情況合并到一起,就可以得到RBP 與RNA 結(jié)合的結(jié)構(gòu)信息,同時(shí)可預(yù)測(cè)每個(gè)點(diǎn)與潛在RNA序列的結(jié)合強(qiáng)度。由于算法本身的并行性,我們可以在短時(shí)間內(nèi)預(yù)測(cè)RBP 和大量RNA 的結(jié)合機(jī)制及結(jié)合強(qiáng)度。對(duì)于已知的RBP,NucleicNet 可以對(duì)所有可能結(jié)合的RNA 序列進(jìn)行打分和排序;對(duì)于任一蛋白質(zhì),NucleicNet 可預(yù)測(cè)其與RNA 結(jié)合的可能性(結(jié)合位點(diǎn)及傾向的RNA 序列),因此可用于識(shí)別該蛋白是否是RBP。
? ? ? ? 該論文同時(shí)使用了機(jī)器學(xué)習(xí)的標(biāo)準(zhǔn)評(píng)價(jià)方法以及實(shí)驗(yàn)方法去驗(yàn)證該方法的有效性。以機(jī)器學(xué)習(xí)的標(biāo)準(zhǔn)評(píng)價(jià)方式來(lái)看,該方法的準(zhǔn)確性比其他已知方法提高了 35%。同時(shí),在僅被用于預(yù)測(cè)RBP 上的氨基酸位點(diǎn)是否是RNA結(jié)合位點(diǎn)時(shí),NucleicNet 的預(yù)測(cè)準(zhǔn)確率也優(yōu)于其他已知方法,盡管這并非其主要設(shè)計(jì)目標(biāo)。
? ? ? ?? 該論文使用了三種生物實(shí)驗(yàn)去驗(yàn)證其有效性。第一種RNACompete 實(shí)驗(yàn)使用RBP 在大規(guī)模的RNA 庫(kù)中去競(jìng)爭(zhēng)性地結(jié)合 RNA,從而得到該RBP 和RNA 的結(jié)合選擇性。結(jié)果顯示,NucleicNet 預(yù)測(cè)出的結(jié)合選擇性和RNACompete 實(shí)驗(yàn)結(jié)果得到的結(jié)合選擇性非常吻合(Pearson 相關(guān)系數(shù)高達(dá) 0.8)。
? ? ? ? 第二個(gè)實(shí)驗(yàn)是讓NucleicNet 去區(qū)分能和 Argonaute蛋白形成成熟的RISC complex 的 guide RNA strand 以及被釋放的passenger RNA strand。直觀(guān)來(lái)看,guide strand 同 Argonaute 的結(jié)合性應(yīng)該比passenger strand 要高,因?yàn)間uide strand 最終可以和 Argonaute 結(jié)合形成了穩(wěn)定的復(fù)合物。預(yù)測(cè)的結(jié)果顯示,在 222 例實(shí)驗(yàn)中,NucleicNet 可以正確預(yù)測(cè)其中 76% 的實(shí)驗(yàn),為guide strand 打出更高的結(jié)合強(qiáng)度評(píng)分。值得一提的是,NucleicNet 的訓(xùn)練數(shù)據(jù)不含有任何Assay 化驗(yàn)的信息,因此其預(yù)測(cè)結(jié)果與Assay 實(shí)驗(yàn)的高吻合度說(shuō)明了NucleicNet 從結(jié)構(gòu)數(shù)據(jù)中學(xué)習(xí)蛋白質(zhì)和RNA 結(jié)合的統(tǒng)計(jì)學(xué)規(guī)律的能力。
? ? ? ? 最后一個(gè)實(shí)驗(yàn)是驗(yàn)證NucleicNet 預(yù)測(cè)的 Ago 和 siRNA 的結(jié)合強(qiáng)度是否和該siRNA 的敲低效率成正相關(guān)。結(jié)果顯示,在 37 例基因中,22 例實(shí)驗(yàn)呈正相關(guān)。也就是說(shuō),盡管在活體實(shí)驗(yàn)條件下有眾多其他因素會(huì)影響到 siRNA 的敲低效率,Argonaute 和siRNA 的結(jié)合強(qiáng)度仍是影響敲低效率的首要因素。這同時(shí)也意味著NucleicNet 有助于設(shè)計(jì)出敲低效率更高的siRNA。
? ? ? ? 綜上所述,NucleicNet 是一種研究RBP 和RNA 結(jié)合的全新算法框架。通過(guò)使用深度學(xué)習(xí)和FEATURE 特征提取框架,該方法可以同時(shí)提供RBP 和RNA 相互作用時(shí)的結(jié)構(gòu)信息以及大規(guī)模的結(jié)合強(qiáng)度信息。大量的計(jì)算實(shí)驗(yàn)和生物實(shí)驗(yàn)驗(yàn)證了該方法的有效性。同時(shí),該框架亦或適用于其他類(lèi)似問(wèn)題,如蛋白質(zhì)和藥物小分子的相互作用,為新藥研發(fā)提供了新的思路。
?
竺立哲教授簡(jiǎn)介
?
? ? ? ? 竺立哲教授是香港中文大學(xué)(深圳)生命與健康科學(xué)學(xué)院及瓦謝爾計(jì)算生物研究院的助理教授、博士生導(dǎo)師。他目前為本科生主講“分子模擬與建模I”(Molecular Simulations & Modeling I),下學(xué)期將開(kāi)設(shè)“計(jì)算生物學(xué)”(Computational Biology)課程。
? ? ? ? 竺立哲教授畢業(yè)于阿姆斯特丹大學(xué)化學(xué)系,曾任瑪麗居里初級(jí)研究員,通過(guò)分子模擬手段研究蛋白質(zhì)受體別構(gòu)效應(yīng)的機(jī)理。竺教授于2012年赴香港科技大學(xué)從事博士后研究,致力于增強(qiáng)抽樣算法同馬爾可夫態(tài)模型方法的整合。
? ? ? ? 竺立哲教授團(tuán)隊(duì)目前的研究興趣包括RNA與蛋白質(zhì)相互作用,RNA/DNA 干擾機(jī)制,高效自動(dòng)化路徑搜索方法,機(jī)器學(xué)習(xí)與增強(qiáng)采樣算法的整合等。迄今已在國(guó)際主流期刊 Nature Communications,Physical Review Letters, The Journal of Physical Chemistry Letters, PLOS Computational Biology, Current Opinion in Structural Biology, Journal of Computational Chemistry 等發(fā)表論文20余篇。
