“DNA穀歌”來了海量資料搜尋引擎開闢生物學研究新領域-香港吉斯恩貝國際貿易有限公司

互聯網有穀歌，如今生物學領域有了MetaGraph。這款搜尋引擎能夠快速篩選公共資料庫中儲存的海量生物資料。相關研究成果10月8日發表于《自然》。

“這是一項了不起的成就。”法國巴斯德研究所的Rayan Chikhi表示，“他們為分析原始生物資料設定了一個新標準。”這些資料包括DNA、RNA和蛋白質序列，來源於可能包含千萬億級DNA堿基的資料庫，相當於拍位元組（1拍位元組=1000萬億位元組）的資訊，其數量甚至超過谷歌龐大索引中的所有網頁。

儘管MetaGraph被視為“DNA穀歌”，但Chikhi更傾向於將其比作“YouTube搜尋引擎”，因為它背後的計算任務難度更高。就像在YouTube上搜索時，能夠檢索到所有以“紅色氣球”為特徵的視頻，即使這一關鍵字並未出現在標題、標籤或描述中。MetaGraph同樣無需提前對基因模式進行明確標注，就能找到隱藏在龐大測序資料集深處的這些模式。

開發MetaGraph的初衷是為了解決測序資料集的可及性問題。過去幾十年間，生物資料庫的規模呈爆炸式增長，卻給使用這些資料的科學家帶來了挑戰——原始測序讀數碎片化、雜訊多，且數量龐大，無法直接檢索。加拿大多倫多大學的Artem Babaian指出：“矛盾的是，資料量反而成了我們實際使用這些資料的最大障礙。”

論文共同通訊作者、瑞士蘇黎世聯邦理工學院的André Kahles表示，MetaGraph能夠幫助研究人員向序列讀取檔案庫（SRA）這樣的資料庫提出生物學問題。SRA作為一個公共資料庫，包含的DNA堿基已超過10億億個。

研究團隊借助數學“圖譜”解決了資料檢索難題。這種圖譜能將重疊的DNA片段連接起來，就像圖書索引中排列的使用相同詞彙的句子一樣。

研究人員整合了7個公共資助資料庫的資料，構建出涵蓋病毒、細菌、真菌、植物、動物，也包括人類在內的所有生物類群的序列集，其中包含1880萬個獨特的DNA和RNA序列集，以及2100億個氨基酸序列集。同時，他們還為這些序列開發了一款搜尋引擎，使用者只需通過文本提示，就能檢索這些整合後的原始資料檔案。

“這是一種與這類資料交互的全新方式。”Kahles說，“資料雖然經過壓縮處理，但可實現即時訪問。”為證明MetaGraph的實用價值，研究團隊利用它對全球241384個人類腸道微生物組樣本進行了檢索，旨在尋找全球抗生素耐藥性的基因標誌物。這項研究是在前期工作基礎上開展的。此前研究人員曾利用舊版MetaGraph追蹤過全球主要城市地鐵系統中細菌菌株的耐藥基因。據團隊介紹，在一台高性能電腦上完成這項分析僅需約1個小時。

MetaGraph並非目前唯一的大規模序列檢索工具。例如，Chikhi和Babaian共同開發了一個名為Logan的平臺，能將數十億條短測序讀數拼接成更長、更有組織的DNA片段。這種設計架構使其能在比MetaGraph更大規模的測序讀數集合中，識別出完整基因及其變異。Chikhi表示：“我們的工具功能較少，但性能更強。”

憑藉更廣的檢索範圍，Logan幫助研究人員發現了2億多個天然存在的“噬塑酶”變體，這些變體來源於多種細菌、真菌和昆蟲，其中部分變體的活性甚至優於實驗室設計的酶。9月，這一發現公佈於預印本bioRxiv。

Babaian認為，這類發現離不開開源檢索工具及其依託的公共測序資料庫。目前，一些生物資料庫正面臨資金削減的威脅，他強調，這些檢索技術的創新恰恰凸顯了“開放資料共用至關重要”。“這些資源正在推動全球科學進步，並開啟了一個全新的‘拍位元組級基因組學’領域。”

“DNA穀歌”來了 海量資料搜尋引擎開闢生物學研究新領域

“DNA穀歌”來了海量資料搜尋引擎開闢生物學研究新領域