NASA 為了讓科學家更有效取得其收集的大量科學資料,他們建立了一套科學探索引擎,能利用生成式 AI 來提供資料的前後脈絡結果。
文/Thor Olavsrud·譯/曾祥信
當你產生與收集的資料,跟美國國家航空暨太空總署(NASA)一樣多的時候,光是為一項研究專案找到正確的資料集,都會是一大挑戰。
NASA 機構擁有 7 個營運中心、9 座研究設施及 1 萬 8 千多名員工,持續不斷產生驚人的大量資料,這些資料被儲存在 30 多個科學資料儲存庫之中,涵蓋五大主題領域:天文物理學、太陽物理學、生物科學、物理科學、地球科學與行星科學。總體來說,該機構擁有來自 128 個資料來源的 8 萬 8 千多個資料集和 71 萬 5 千份文件。預計到了 2025 年,光是地球科學領域的資料量就會達到 250 PB。鑑於如此複雜的情況,科學家光是擁有領域專業知識還不足以應付一切。
位在阿拉巴馬州亨次維市的馬歇爾太空飛行中心,其中一位資料科學家 Kaylin Bugbee 表示:「研究人員必須知道該使用哪個儲存庫,以及該儲存庫存放了什麼內容。他們必須同時具備科學素養和資料素養」。
[ 推薦閱讀:【製造業】陶氏化學用 AI 加速化學分子搜尋 ]
2019 年,NASA 科學任務局(Science Mission Directorate,SMD)發表一份針對科學家一系列訪談的報告,明確指出這些科學家需要集中式的搜尋功能,以協助他們找到所需的資料。科學任務局的使命是與美國科學界合作,贊助科學研究,並利用飛機、氣球和太空計劃對地球軌道、太陽系及宇宙更遙遠處進行研究調查。在意識到賦予科學家和研究人員存取資料能力對其目標至關重要之後,科學任務局根據該報告發展開源科學計劃(Open Source Science Initiative,OSSI),致力使公共資助的科學研究計劃透明化、具兼容性、可存取且可被複製。開源科學計劃的使命是:承諾在科學進展過程中,盡早開放共享軟體、資料及知識(包括演算法、論文、文件和補充資訊)。
「這項使命確實來自科學家與科學界,而且它也符合科學任務局更廣泛的優先事項,即實現跨學科的科學」,Bugbee 如此說道,「這就是新發現的誕生所在」。
為了促成這項使命,該機構正努力結合神經網路與生成式 AI,讓科學家觸手可及大量的資料。
恢復資料的秩序
開源科學計劃的一項關鍵元素是「科學探索引擎(SDE, Science Discovery Engine)」,這是一套集中式的搜尋與探索功能,用來查詢 NASA 所有開放科學資料和資訊,它使用的是 Sinequa 的企業搜尋平台。
Bugbee 說:「在我們建立科學探索引擎以前,沒有辦法在單獨一個地方搜尋我們的開放資料和文件。如今,它讓我們可透過單一功能搜尋我們的開放科學資料」。
總部位在紐約的 Sinequa 公司,20 多年前以語義搜尋引擎起家,專注於使用人工智慧和大型語言模式(large lauguage model,LLM)來提供前後文搜尋資訊。他們整合微軟的 Azure OpenAI 服務與自家的神經搜尋功能,為該平台提供所需能力。
具體來說,Sinequa 的神經搜尋功能運用關鍵字與向量搜尋的結合來找尋資訊,同時其 GPT 能將蒐集到的資訊進行總結,成為可快速消化且重複使用的資料格式。而且它還讓科學家得以使用自然語言,以提出更深入的問題,並改進搜尋或回應結果。科學探索引擎能夠理解將近 9 千個不同的科學術語,隨著人工智慧不斷學習,可預期這個數字還會成長。
[ 加入 CIO Taiwan 官方 LINE 與 Facebook ,與全球CIO同步獲取精華見解 ]
Bugbee 和她的跨學科團隊 – 包括具有資料監管與資訊學等專業知識的科學家、開發人員以及人工智慧和機器學習專家 – 與專案利害關係人密切合作,以了解他們的需求,同時與 NASA 的資訊長團隊和 Sinequa 公司合作,共同打造概念驗證(proof of concept)原型。
「他們協助我們建立我們需要的環境」,她解釋道。「為了要擁有開放的能力,因此我們有一些特殊的架構需求」。
Bugbee 表示,她的團隊在啟動及運行系統時遇到最大的挑戰之一是,資料內容在 NASA 生態系統裡的分散程度。她的團隊花了約一年時間,試圖了解資訊全貌、資料和詮釋資料結構(meta schema)。
「所有真正為資料帶來豐富性的前後文脈絡資訊 – 例如程式碼和 GitHub、或是描述如何開發出資料的演算法文件 – 這類內容散佈在許多網頁上,我們費了好一番努力才釐清及確定這些資訊所在的位置」,她如此說道。
獲准發射
Bugbee 對資料管理和資料監管(data stewardship)並不陌生。她在 Data.gov 與美國總統歐巴馬提出的氣候資料計劃(Climate Data Initiative)中,就曾致力於提升詮釋資料的品質。但在科學探索引擎上的工作確實讓她更清楚認識到良好管理工作流程的重要性:透過有原則且妥善控制的流程,以建立、維護及管理資料。
「如果我能回到過去,我會從一開始就採取更健全的策劃工作流程」,她說道,「結果我們算是使用開箱即用的方法,這種作法在一段時日內發揮作用,但為了真正獲得我們想要的結果,就需要精心策劃的工作流程」。
雖然科學探索引擎仍在 beta 測試階段,但 Bugbee 表示,她的團隊迄今已收到許多來自科學家的正面回饋,他們計劃在 2024 年稍後就會交付更全面運作的系統。該團隊已經實現一套新的使用者介面,讓使用者能在開始搜尋前,根據主題進行過濾。
(本文授權非營利轉載,請註明出處:CIO Taiwan)