解讀人類基因組的人(一):基因圖譜怎麼破解
昨天去聽了兩場演講,演講者是Dr. J. Craig Venter。他獲得Rochester Section of American Chemical Society所頒發的年度Harrison Howe Award(註),昨天前來領獎並發表演說。留意生物科學與生技產業新聞的人大概就知道Craig Venter是什麼人物。他就是賽雷拉公司(Celera Genomics Corp.)的創辦人兼董事長兼首席科學家,人類基因圖譜就是由Celera在短短兩年多內解讀完成。除此之外,由於Celara的加入,果蠅與擬南芥 (Arabidopsis)的完成都比原先預估提早數年,而日前Celera也宣佈已將老鼠的基因組解讀組合完畢,而且已經進行註解 (annotation)。
人類的基因圖譜有兩個團隊分別解讀完成。除了私人的Celera,另外就是由美英法日中共等五國學術單位共同組成的團隊,兩個團隊去年年底共同宣佈完成基因圖譜草圖,並且在今年二月分別把結果發表在<科學>(Science)與<自然>(Nature)上。兩個團隊彼此之間其實既是合作更是競爭的關係。在商言商,私人資金贊助Celera當然就是要獲利,但是對國際學術團隊而言,科學資訊應是無償公開給整個科學社群,所以在這些資料的發表與使用權上曾經有所歧見。不過,老實說,如果沒有Celera的競爭壓力,恐怕人類基因組還得延遲兩年到五年才會完成解讀。
除了資訊使用的歧見之外,Celera跟國際學術團隊在解讀與定序也採取截然不同的策略,事實上正是因為Celera採用的新方法,才使得他們能夠以驚人的速度後來居上,寫下解讀基因圖譜的歷史中將永遠被人傳述的一章。
人類的基因組大小是 2910000000 bp,但是現行定序DNA的儀器精確定序的限制是平均500-700 bp,所以要解讀全部的基因圖譜,必須把染色體DNA切成一小段一小段大約是幾百個bp,這樣才能有辦法去讀出一個一個密碼,最後再組合起來。傳統方法--也是國際學術團隊採用的方法--是先定出整個基因組中各個基因標記的位置,然後根據這些標記,建構出大片段DNA的相對關係,每個大片段再切成小一點的片段,再切成更小的片段,一直到大小約為小於1000 bp左右,就可以用儀器把遺傳密碼一一讀出來。在這個把大片段碎分成小片段的過程中,必須一一去決定彼此之間的相對關係,哪一段是哪一段來的,哪一段在前哪一段在後,因此必須耗費相當多的人力與時間,不過好處是如果過程都正確無誤,只要每個小片段都解讀出來,整個基因組也就依序組合出來了。
Celera採用的方法稱為「全基因體散彈槍法」(whole genome shotgun sequencing method),所謂的「散彈槍」法主要是因為他們並不去一一追蹤或決定每一個小片段究竟是怎麼來的,而是直接去定序,猶如亂槍打鳥一網打盡,所以稱為散彈槍法。每個小片段解讀出來了,就交由超級電腦去組合,由於各片段中會有重疊的部分,所以根據小片段序列重疊部分的上下文,經過複雜精密的比對與運算,就有機會把整個基因組排列出來。
用個比方來解釋:解讀基因圖譜就好像謄寫一套百科全書,書中有29億個字,分成二十三大冊,但是我們實驗提取基因體DNA時,這23對染色體可沒有編號依序排好,所以就像拿到的是沒有頁碼沒有裝訂的書,所以無法從第一冊第一頁第一行第一個字依序一一往下念;更糟糕的是每次我們只能抄謄幾百個字而已,所以人們要謄寫好整套完整可讀的書,必須把整套書拆開,每本都一頁一頁拆解,再把每一頁都割開來分成只有幾行字的片段,同時每段分別同時去謄寫。傳統方法就是先把每冊書都拆成幾小本,檢查一下插圖與章節,確定每小本書的相對章節;然後每一小本又拆開成幾章,然後把這幾章排好順序;再拆成幾頁,排好順序;每頁又撕開,檢查相對關係排好順序....如此重覆一直到每一小部分只有約一千字左右的內容,然後就有能力把這一千字左右一一抄出來。但是Celera不花費力氣在這麼多拆解與確定順序上,他們只把書分成幾個小本之後,就一頁一頁扯下來同時去抄寫了,也不管是先抄到哪一頁後讀哪一段,反正每段都會拿到,然後把所有的內容交由超級電腦,根據上下文去重組。
許多人質疑Celera的方法應用在哺乳動物基因體的可行性。因為哺乳動物的基因體中帶有太多重複小單元片段,這些小片段動輒反複出現了幾百幾千次,利用電腦重組遇到這些重複片段就無法決定到底該放在什麼地方,更別說排出上下文了。當初Celera進行人類基因組圖譜重組的電腦演算法中,把國際學術團隊所定出的基因標記也加入其中,所以有人認為Celera光用散彈槍的方法其實是無法完成的。然而,在Venter昨天的演講中提到,Celera最近成功地完成老鼠的基因圖譜定序,而且這次並沒有把老鼠的基因標記的資訊加入程式中。當初他們擔心老鼠的片段重組工作會比人類困難,因為老鼠的重複單元片段更多,不過他們最後發現電腦的重組比預期快很多,顯示他們的演算法比預期中還要有效,因此他們決定重新跑一次程式,把人類基因組的圖譜再組合一次,且這一次不使用基因標記的定位,結果新的結果比原先重組的草圖精確度提高十倍。因此,Venter 認為他們的方法不僅省時可行,而且可信度也比較高。
老王賣瓜,究竟Celera所得到的基因組圖譜品質是否真的比較好,這需要仔細去檢驗才知道。不過,不論如何,Celera的例子明確說明了一件事:科際整合的重要。數學家與電腦程式設計人員所設計繁複的演算程式,是散彈槍法的不可或缺的核心。就像在五○年代以後物理與化學方法引入了生物學的領域中,電腦在基因體或後基因體時代所扮演的角色將會日益重要。或許,唯有不斷援引新的方法與工具,才能成就非凡的事業。
(註)本來以為這個Harrison Howe Award只是美國化學會在我們這區的分會所發的小獎,沒什麼大不了的。但是一看介紹,才知道這個獎是專門頒給具潛力的卓越青壯化學家,在過去的獲獎者中,有40%於獲獎後十年左右也獲得了諾貝爾獎,所以這個獎其實眼光獨到,堪稱是頒給大師的先期指標。幾十年來有兩位華裔得獎人,都是台灣人:李遠哲在1983年獲獎,而1998年的得獎者則是中研院院士醣質生化學家翁啟惠。
2 個意見:
(註)上方那段:科「技」整合的重要
剛好看到~
不是故意要抓錯字,只是覺得版主的文章若是被人請求轉貼,然後錯字一起轉貼不太好而已,沒有冒犯的意思。
謝謝留言!也歡迎大家指正與提供意見,不管是挑錯別字,或是對於實質內容有不同的看法.
文中所提到的「科際整合」,我是確實是要用「科際」(inter-discipline)一詞,而不光是指「科技」(technology).我想說的是不同的領域之間的整合,包含思考與探討問題的方式.而各種不同技術的統整使用,正是很重要的一環.
不同學科之間的整合,其實已經不是一個新鮮的見解了,也不限於生物科學領域.像政治大學甚至都成立了「法律科際整合研究所」,企圖統整法律與醫學,工程,社會科學,企業...等等.現在很熱門的新領域叫做「系統生物學」(Systems Biology),其實就是一個新的整合不同學科與學科的概念,所產生的新領域.
張貼留言
訂閱 張貼留言 [Atom]
<< 首頁