首頁|新聞|快訊|醫(yī)訊|資訊|頭條|健康|科技|旅游|經(jīng)濟|娛樂|投資|文化|書畫

科學家首次完成對人類Y染色體的完整測序 最后一塊基因“拼圖”揭開哪些生命謎團

時間:2023-09-01 09:29:13   來源:科技日報

  編者按 8月23日,兩篇發(fā)表在《自然》雜志的論文宣告:科學家組裝了人類Y染色體的第一個完整序列,補齊了人類基因組這部“生命天書”。多年以來,“生命天書”初稿被科學家反復打磨、拾遺補闕。等待了20多年后,Y染色體的完整“章節(jié)”姍姍來遲。而這還只是一個開始,未來,有關遺傳、生育、疾病、進化的諸多密碼有望被一一破解。

  好消息傳來。美國國家人類基因組研究所領導美國約翰斯·霍普金斯大學、加州大學圣克魯斯分校等多家機構的科學家組裝了人類Y染色體的第一個完整序列。這是最后一個被完全測序的人類染色體,新序列填補了Y染色體長度的一半以上的空白。兩篇相關論文于8月23日發(fā)表在《自然》雜志上。

  幾十年來,Y染色體作為人類兩性染色體之一,由于其結構的復雜性,一直是基因組學界難啃的“硬骨頭”,F(xiàn)在,這一難以捉摸的基因組區(qū)域已經(jīng)被完整測序,這意味著,人類泛基因組的最后一塊“拼圖”被補上了。

  這次測序為當前人類參考基因組增加了逾3000萬個堿基對,揭示了多個基因家族的完整結構,并確認了41個新的蛋白質編碼基因,為研究生殖、進化和人口變化相關的重要問題提供了關鍵信息。

  Y染色體測序困難重重

  深圳華大生命科學研究院副院長金鑫在接受科技日報記者采訪時說:“人類基因組測序是理解人類疾病、健康和進化的關鍵。通過將個體基因序列與參考基因組進行比對,科學家可以找到與疾病相關的基因,進而為個體提供更精準的診斷和治療方案。”

  深圳華大生命科學研究院研究員周旸介紹說,完整人類基因組中約有30億個堿基對,科學家其實很難通過直接測序把序列測通,所以在測序的時候,需要將大片段的DNA進行隨機打斷再進行測序。對于常染色體是如此,對于X和Y染色體亦然。所以在測序結束后,科學家需要通過對測序數(shù)據(jù)進行拼接來得到完整真實的基因組序列。

  1999年,人類首次成功完成對人體染色體完整基因序列的測定?茖W家使用“短讀長”測序技術來做到這一點,將DNA切成大約一百個堿基的小片段,然后像拼拼圖一樣重新組裝它們。

  2022年,最新版人類參考基因組(T2T-CHM13)問世。該基因組包含22條常染色體和X染色體的無間隙序列,共有30.55億對堿基,比之前的人類參考基因組(GRCh38)增加了近2億堿基對的遺傳信息,約等于整個基因組8%的序列信息,達到了前所未有的完整程度。然而,人類參考基因組中的Y染色體,仍有約一半序列是缺失的。

  Y染色體的測序為什么如此棘手?周旸說:“這些未知區(qū)域主要集中在異染色質區(qū)域。該區(qū)域主要由微衛(wèi)星序列組成。要通過測序數(shù)據(jù)確定其序列是一件非常困難的事情。”

  微衛(wèi)星序列通常屬于重復序列,是一種在基因組中廣泛存在的特殊DNA序列重復單元。金鑫表示,由于Y染色體包含大量重復或“回文”序列,共有多達百萬個堿基對。而“短讀長”技術無法跨越這么長的重復序列,從而無法確定正確的序列順序,也就無法繪制出完整序列。

  組裝測序數(shù)據(jù)就像嘗試閱讀一本被切成條狀的長書,每一條都是書中的一句話。如果書中的所有句子都是唯一的,那么就更容易確定句子的順序。但是,如果同一句話重復了數(shù)千或數(shù)百萬次,那么這些句子的原始順序就沒有那么清楚了。Y染色體上約有3000萬個堿基字母是重復序列,就好像這本書的一半篇幅都重復著同樣的幾句話。

  技術“組合拳”助力測序

  如果把染色體比作一本書,那么被稱為“短讀長”的DNA測序技術一次只能讀取相對較短的序列,但現(xiàn)在,“長讀長”DNA測序技術可在不影響準確性的情況下生成更長的DNA序列讀數(shù),甚至可一次閱讀整個“句子”或“段落”。這樣,研究人員能夠更準確地判斷“句子”“段落”之間的排列順序,從而更有助于完成完整的測序。

  得益于“長讀長”DNA測序技術和創(chuàng)新的序列組裝方法,科學家們終于實現(xiàn)了對Y染色體的無間隙讀取。

  周旸說:“科學家利用‘長讀長’DNA測序技術,一定程度上降低了組裝Y染色體的難度。另外,科學家也針對新技術的測序數(shù)據(jù)開發(fā)了新的組裝算法進行自動化組裝,提升了組裝效率。”

  今年2月,美國國立衛(wèi)生研究院研究人員發(fā)布了一種創(chuàng)新的軟件工具Verkko,用于組裝來自各種物種的真正完整的基因組序列。研究人員稱,有了Verkko,研究人員現(xiàn)在只需按下一個按鈕就能自動獲取完整的基因組序列。

  英國《新科學家》雜志網(wǎng)站8月23日報道,研究人員還運用了英國牛津納米孔公司所開發(fā)的納米孔(Nanopore)測序技術。當單個DNA分子穿過一個納米孔時,就能讀取該分子的序列,產(chǎn)生數(shù)百萬個DNA堿基字母的片段,而不僅僅是幾百個。

  在本次研究中,得益于上述方法,團隊能夠應對Y染色體測序中的種種挑戰(zhàn)。

  Y染色體上的新發(fā)現(xiàn)

  此次發(fā)表的一篇論文稱,Y染色體包含62460029個堿基對序列。該數(shù)字比參考基因組GRCh38里的Y染色體數(shù)據(jù)多了3000萬個堿基對,標志著測序完整性的顯著進步。

  通過改進GRCh38中的錯誤并闡明DAZ和RBMY等基因家族的結構(這兩個基因家族都有助于精子的產(chǎn)生),該團隊增進了對Y染色體遺傳結構的理解。

  此外,這條完整的Y染色體有106個蛋白質編碼基因,比參考基因組多了41個。但幾乎所有這些額外的基因都只是一種被稱為TSPY的基因的副本。他們還辨識出以前被誤解為是細菌DNA的序列,這些序列其實是之前未知的人類Y染色體序列。

  在另一篇論文中,包括美國杰克遜基因組醫(yī)學實驗室在內的聯(lián)合團隊組裝了代表世界21個不同人群的43名男性的Y染色體。這些組裝結果更詳細地闡釋了Y染色體在人類演化歷史中的遺傳差異。研究結果揭示了新的DNA序列、保守區(qū)域的特征,以及促進Y染色體復雜結構的分子機制。

  金鑫表示,去年公布的T2T-CHM13完整基因組樣本取自一個葡萄胎的單倍基因組(完全性葡萄胎是一種罕見的妊娠并發(fā)癥,由來源于胎盤的細胞異常生長引起),而此次樣本取自健康的人類個體。

  上海交通大學長聘教軌副教授毛亞飛告訴記者,目前來看,這個數(shù)目的樣本已經(jīng)是人類基因組測序上很大的突破。不過,下一步還應該選擇更廣泛的樣本,包括不同種族、地理區(qū)域和人群,這樣才能更好地代表全球人類遺傳多樣性,進而有助于揭示人類種群之間的遺傳差異和相似性,從而提供更準確的基因組參考。

  完整基因測序意義非凡

  Y染色體通常與生理性別為男性的個體相關聯(lián),但它也可能存在于雌雄同體者中。盡管Y染色體上的基因相對較少,但這些基因復雜且處在動態(tài)變化中,并具有編碼精子生成等重要功能。完整的Y染色體參考序列將使科學家能夠以前所未有的方式更好地研究人類基因組中Y染色體的各種特征。

  研究發(fā)現(xiàn),不同個體含有10到40個TSPY基因拷貝。例如,一名男子的Y染色體有與精子形成有關的TSPY基因的23個拷貝,而另一名男子則有39個拷貝,F(xiàn)在,科學家可以使用新的參考圖譜和已建立的Y染色體測序方法更好地研究這種進化。這可能是未來體外受精領域或其他生殖和不孕癥領域的研究焦點。

  完整的、無間隙的Y染色體序列對于研究人類群體進化和遷移至關重要。毛亞飛補充說:“我們與猴子、黑猩猩等有共同的演化線索,通過解析基因組變化,可以了解人類是如何演化而來的。”

  “此前,人們其實已經(jīng)根據(jù)Y染色體的基因組草圖定位了許多與雄性發(fā)育、精子生成等過程相關的基因,也發(fā)現(xiàn)了Y染色體與諸如癌癥等疾病的關聯(lián);而最近發(fā)表的Y染色體完整序列將會為探索這些區(qū)域序列的功能提供扎實的數(shù)據(jù)基礎。”周旸指出,“新研究也進一步揭示了個體間Y染色體的差異。這些Y染色體上的變異以及與人類性狀的關聯(lián)分析將有助于人群演化、遺傳、疾病等方面的研究。”

  總之,完整的人類Y染色體將為許多新發(fā)現(xiàn)打開大門。下一步,研究人員計劃通過將Y染色體納入未來版本的人類泛基因組參考圖譜來進一步改善Y染色體的研究。泛基因組是一種新的基因組參考,它將來自不同祖先背景的多個人的基因組信息結合起來,最終可以實現(xiàn)更客觀的研究和臨床發(fā)現(xiàn),如幫助診斷疾病、預測醫(yī)療效果和指導治療等。

  受訪專家均相信,目前發(fā)表的Y染色體的組裝結果只是一個開始。隨著技術的不斷發(fā)展,總有一天全世界的每一個人都可以對自己的基因進行測序。

  金鑫展望道:“現(xiàn)在,我們去醫(yī)院都是做血常規(guī)、尿常規(guī)等檢測,未來有了臨床基因測序技術后,我們可能要先做個基因常規(guī)檢測,把最主要的遺傳信息跟疾病的關系、藥物的禁忌都先了解清楚,醫(yī)生再對癥下藥。所以,基因組測序會對整個人類,尤其是對了解我們自身的健康起到非常重要的作用。”

(責任編輯:華康)

熱點聚焦

最新閱讀

熱門排行