香港吉斯恩貝國際貿易有限公司

“DNA穀歌”來了 海量資料搜尋引擎開闢生物學研究新領域

发布时间:2025-10-17 21:18

互聯網有穀歌,如今生物學領域有了MetaGraph。這款搜尋引擎能夠快速篩選公共資料庫中儲存的海量生物資料。相關研究成果10月8日發表于《自然》。



“這是一項了不起的成就。”法國巴斯德研究所的Rayan Chikhi表示,“他們為分析原始生物資料設定了一個新標準。”這些資料包括DNA、RNA和蛋白質序列,來源於可能包含千萬億級DNA堿基的資料庫,相當於拍位元組(1拍位元組=1000萬億位元組)的資訊,其數量甚至超過谷歌龐大索引中的所有網頁。


儘管MetaGraph被視為“DNA穀歌”,但Chikhi更傾向於將其比作“YouTube搜尋引擎”,因為它背後的計算任務難度更高。就像在YouTube上搜索時,能夠檢索到所有以“紅色氣球”為特徵的視頻,即使這一關鍵字並未出現在標題、標籤或描述中。MetaGraph同樣無需提前對基因模式進行明確標注,就能找到隱藏在龐大測序資料集深處的這些模式。


開發MetaGraph的初衷是為了解決測序資料集的可及性問題。過去幾十年間,生物資料庫的規模呈爆炸式增長,卻給使用這些資料的科學家帶來了挑戰——原始測序讀數碎片化、雜訊多,且數量龐大,無法直接檢索。加拿大多倫多大學的Artem Babaian指出:“矛盾的是,資料量反而成了我們實際使用這些資料的最大障礙。”


論文共同通訊作者、瑞士蘇黎世聯邦理工學院的André Kahles表示,MetaGraph能夠幫助研究人員向序列讀取檔案庫(SRA)這樣的資料庫提出生物學問題。SRA作為一個公共資料庫,包含的DNA堿基已超過10億億個。


研究團隊借助數學“圖譜”解決了資料檢索難題。這種圖譜能將重疊的DNA片段連接起來,就像圖書索引中排列的使用相同詞彙的句子一樣。


研究人員整合了7個公共資助資料庫的資料,構建出涵蓋病毒、細菌、真菌、植物、動物,也包括人類在內的所有生物類群的序列集,其中包含1880萬個獨特的DNA和RNA序列集,以及2100億個氨基酸序列集。同時,他們還為這些序列開發了一款搜尋引擎,使用者只需通過文本提示,就能檢索這些整合後的原始資料檔案。


“這是一種與這類資料交互的全新方式。”Kahles說,“資料雖然經過壓縮處理,但可實現即時訪問。”為證明MetaGraph的實用價值,研究團隊利用它對全球241384個人類腸道微生物組樣本進行了檢索,旨在尋找全球抗生素耐藥性的基因標誌物。這項研究是在前期工作基礎上開展的。此前研究人員曾利用舊版MetaGraph追蹤過全球主要城市地鐵系統中細菌菌株的耐藥基因。據團隊介紹,在一台高性能電腦上完成這項分析僅需約1個小時。


MetaGraph並非目前唯一的大規模序列檢索工具。例如,Chikhi和Babaian共同開發了一個名為Logan的平臺,能將數十億條短測序讀數拼接成更長、更有組織的DNA片段。這種設計架構使其能在比MetaGraph更大規模的測序讀數集合中,識別出完整基因及其變異。Chikhi表示:“我們的工具功能較少,但性能更強。”


憑藉更廣的檢索範圍,Logan幫助研究人員發現了2億多個天然存在的“噬塑酶”變體,這些變體來源於多種細菌、真菌和昆蟲,其中部分變體的活性甚至優於實驗室設計的酶。9月,這一發現公佈於預印本bioRxiv。


Babaian認為,這類發現離不開開源檢索工具及其依託的公共測序資料庫。目前,一些生物資料庫正面臨資金削減的威脅,他強調,這些檢索技術的創新恰恰凸顯了“開放資料共用至關重要”。“這些資源正在推動全球科學進步,並開啟了一個全新的‘拍位元組級基因組學’領域。”

扫一扫在手机上阅读本文章

版权所有© 香港吉斯恩貝國際貿易有限公司    技术支持: 仙人球建站