淺談基因網絡分析(Gene network analysis)

如果說你問我各種Microarray 分析中，最困難的是什麼，我會說是基因網絡分析(Gene network analysis)。這裡基因網絡分析的定義是：研究基因之間交互作用，以及其協同進行生物作用的方法。他跟另一種生物途徑分析(Pathway analysis)意義有些重疊，差別在生物途徑分析的途徑本身是已經確定了基因網路，我們只是分析我們有興趣的基因是否經由這個路徑運作，無法發現新的基因網路。實事上途徑分析的知識來源，其實就是基因網絡分析。在古代基因體科學尚未出現時，生物學家得一個一個基因去研究，才能構建一個基因網絡，那是一個很長的過程，現今那些眾所皆知的生物途徑，幾乎是是累積所有生物學者共同努力的成果，既便是現在，如果能在學術生涯中，能發現一個生物途徑，對生物學家而言，算是非常光榮的成就。

##ReadMore##
到了後基因體時代，我們開始有分析所有基因體的能力，我們更有機會去分析複雜的基因網路，所以Bioinformatics自開始發展，就不斷被期待著，找到生物分析界的聖杯，解決基因網絡分析的難題。然而，基因網絡分析確始終停留在理論上可行，但實際上所能作的有限的階段。這並不是因為生物資訊研究者偷懶，實在是基因網絡分析的複雜度遠遠超過生物標幟(biomarker)的搜尋這類基礎應用。找生物標幟時，你只要在數萬個基因中找一兩個目標就可以了，但基因網絡分析則要在數萬乘以數萬的基因關係中，到找某幾個基因的組合。以現有的統計工具及數學模型，要解析這樣複雜仍有相當程度的困難，即便真預測到了這樣的組合，要以分子生物方法去驗証，也有相當程度的困難。所以基因網絡分析在＂應該可以做＂及＂現在能做＂之間，有很大落差。

在十年前小Lucas覺得網絡分析等待的不是新的量測技術（用 Array or NGS 都一樣），缺的是數學模型及用以解構複雜的適合語言，也許過兩年就可以撥雲見日，但十年過去了，期待中的突破性的發展仍只聞樓梯響，當客戶們用渴望的眼望看著我，問說可以幫忙做基因網絡分析嗎？可以找出是由什麼基因進行做調控嗎？每每被問到這個問題，我只能尷尬的跟客戶們說，我現在能作的很少，我只能幫你的基因作作Pathway的註解，試著找幾篇文獻幫你把基因連起來，這些註解的工作，没辦法幫你評估這個網絡是否存在，也不能幫你解釋這個網絡跟你關心的事有什麼關係，請你回去多看看 paper，用傳統分子生物的方法去猜測及驗証看看。

那現在的基因網絡分析能做到什麼地步呢？廣意的看大致包括了兩類：第一種是之前提過的生物途徑分析，他是從基因功能組分析(Gene-functional annotation enrichment analysis)延伸而來的，另一類是基因關聯網路，跟我定義的網路分析比較接近，他們通常是利用兩基因間關聯，去連接組合出預測網路。這兩種方法，現在都有不少的工具可以用，但如同前面所說的，目前這些工具還是無法提供準確的預測，原因我們分開來討論：

生物途徑分析（Pathway analysis）
生物途徑分析的原理，與常用的 GO analysis 一樣，把生物途徑中所有基因成員，當作一個基因組（如果一個 GeneOntology 的分類一樣），然後去評估這群基因是否有高於背景值的變異頻率，用以推論生物反應是否跟此生物途徑有關。

使用DAVID把 Gene list 的基因標示在MAPK signal pathway 中

一般可以作基因組分析的軟體，通常都可以順便作這樣的預測，我常用的是DAVID，而主流的生物途徑資料庫，通常也會提供這樣的分析功能，例如KEGG、Reactome，你可以從這些軟體中，找到合適生物途徑＂註解＂，用以解釋你所發現基因變化。但這個註解是否正確，我個人郤抱持著懷疑的態度，我不太確定生物途徑可以像GeneOntology 這樣玩基因組分析。因為如同我們知道的，基因組分析很容易受到取樣數及基因組的組成影響分析結果，通常要足夠的取樣數及夠大的基因組，所得到的分析結果才比較可信。然而生物途徑的基因通常很少，而且其中許多調控因子（甚至應該說大部份的調控因子），都是利用表現量以外的方式調節，所以他們在途徑中變動與基因表現無關，所以就在這種取樣少，而且Noise大於 Signal的狀況下，算出來的p 值是否具有參考價值？除此之外，這類分析只能分析你選出來的基因，跟已知的生物途徑有無關係，並不能由基因群本身產生新的知識，預測未知的基因網路，嚴格說來，並不真得符合"基因網絡分析" 的定義，比較像是功能註解。

基因關連網路(Gene conncetion analysis)
基因關連網路分析並不是從已知的生物途徑開始，而是以基因間的關係作為分析單位，在您指定的基因群中，尋找彼此的關連，進而將基因連接成一個基因網絡，這個方法比較接近基因網路分析的概念，因為他可以由零散的基因關係中，去組合出一個新的基因網路。

這類分析方法的基礎是基因-基因關連，如何建置一個完整且正確率高的資料庫，則是成功的關鍵。最常見的基因關連知識的來源，可以從幾個方面獲得，例如大規模的蛋白質分析而來（你可以從這裡找到很多資料）。這些資料庫中蛋白質間的關連，許多是經有間接的方法式取得或根本只是預測，難免有一定比例的錯誤存在，是不是真的還需要更仔細的方法。如果能找到有人曾經花時間設計實驗來驗証過的關連，應該比較可靠，所以何妨就從過去發表的文獻中，去收集學者研究過的基因關係，把他們建成知識資料庫。這種作法生物資訊界有叫作"Text mining"，只要寫個程式來自動讀文獻作筆記就好了，例如iHop 就是非常好用的工具。不過說實在的，讀Paper也並不是件容易的事，如果遇到作者英文不好或英文太好時，程式看不懂或誤會了作者的意思，就很產生錯誤的結果，所以text ming 約莫有3%~的錯誤率，要小心不可以太信相他們分析的結果就是了。不過以自動分析為基礎的軟體，資料庫建置成本低，所以相關軟體價格也比較容易讓人親近，甚至有些是免費的。雖然我想有朝一日，程式一定可以更人腦一樣好，解決程式高錯誤率的問題，但現階段也有一個容易方法可以做到，那就是請一堆博士來唸書，作人肉Text ming，這是最好的方法，缺點是博士們的薪水很高，而且他們也有自已的生活，不可能給你一天操二十四小時，所以這種人工建置的關連資料庫，成本非常的高，以之為基礎的軟體，價錢也是天價。

由Ingenuity pathway assistant(IPA) 劃出的基因網路

目前已經有許多商用分析軟體，提供基因關連網路分析，例如: IPA, Pathway studio, GeneSpring, GeneGO 等等，因為職務之便，這些一貴松松的軟體，Lucas 都有玩過。但你問我有沒有因為有了這些工具而功力大增？其實也沒有，實事上是失望多於期望，並不是這些軟體不好用，目前基因網路分析還少了很多環節。我們打個比方，看看實際分析上會發生什麼困難：

我們假設真在有一個執行生物功能的基因網路存在，你輸入一群可疑的基因（通常不能太多，不然網路會複雜到無法分析），這些基因很幸運的全部在這個網絡上，更幸運的是這個網路的所有基因關聯全都被發現了，紀錄在資料庫中。這樣足以中樂透的幸運的完美狀態，仍不保証你能劃出這個基因網路，因為如果某些基因交互作用（例如甲基因表現增加，磷酸化乙基因，活化乙基因的作用)，會有一個基因表現沒有變化所以沒有被選入，兩基因就不會被連接，少了這些連接存在的網路，就不能變得支離破碎難以辨識。基因迴路涉及太多表現層次以外的關聯，所以很難以用單一技術平台顯現所有關連，因此你只得到一個破碎的網路。在這個案子中你很幸運的可以猜測網絡碎片間關連，還是就有機會把它拼起來，但通常你拿到的是好幾個網路的碎片，絕望的混在一起。

基因網路分析可以利用圖學的方法，補強失落的環節，例如從一個基因向外延伸，或者找兩基因之間最短途徑，這些手法有助於拼湊破碎的網路，但郤是單憑猜測沒有實驗上的根據，換句話說，你可以用這些方法從任意的兩個基因，無中生有的建構一個以文獻堆砌成的網路，但是不是真的存在，就要看運氣了。

我好像把基因網路分析說的什麼也做不成似的，是的！我的確認為目前在預測新網路上，仍困難重重，這一部份還還在等待許多條件的成熟，實事上基因迴路分析也是 Lucas 基因體分析師的偉大航道上，最重要的課題，這些困難之處我們有些新的觀念及解決的方法，現在還在蘊釀中，等我們有了初步的結果，再跟大家分享。現階段，我建議不妨從生物途徑分析下手，從已知的生物途徑中，我們還是可以找到許多珍貴訊息，就大部份的＂正常＂的生物現象而言，其實是很有用的，這些生物途徑都是經過千錘百鍊,被一再驗証的結果, 而且完整的調控網路已定義出大部份的環節了, 基本上你只要把你找到的基因，映對到網路上，看上下游的基因有沒有發生相對映的變化，你甚至可以找到方便的藥物來進行干擾測試。有機會再介紹幾個簡單的方法，從免費的軟體上，不需要花大錢,就可以出美美的圖。

Lucas' Place

搜尋此網誌

淺談基因網絡分析(Gene network analysis)

留言

張貼留言