圖|OpenAI o3 等模型相對于人類病毒學(xué)專家的表現(xiàn)。
這些結(jié)果讓研究者“有點緊張”,因為這是歷史上第一次,幾乎任何人都可以接觸到一位不帶偏見的 AI 病毒學(xué)專家,該專家可能會指導(dǎo)非專業(yè)人士制造致命的生物武器。
這一結(jié)論來自來自非營利組織 SecureBio 的研究團隊及其合作者共同完成的新研究。他們表示,這一發(fā)現(xiàn)是一把雙刃劍——專業(yè)研究人員可以借助超智能 AI 模型預(yù)防傳染病的傳播,但非專業(yè)人士也可能利用它來制造致命的生物武器。
相關(guān)研究論文以“Virology Capabilities Test (VCT): A Multimodal Virology Q&A Benchmark”為題,已發(fā)表在預(yù)印本網(wǎng)站 arXiv 上。
論文鏈接:https://arxiv.org/abs/2504.16137
“縱觀歷史,有不少人試圖制造生物武器——而他們失敗的主要原因之一,就是缺乏足夠的專業(yè)知識,” 該論文的通訊作者 Seth Donoughe 說。“因此,謹(jǐn)慎對待這些能力的分配方式非常有必要。”
隨著 AI 的加速發(fā)展,評估已成為量化大語言模型(LLM)能力的關(guān)鍵,尤其是在科學(xué)推理方面。然而,常用的基準(zhǔn)有很大的局限性。它們通常依賴于在四個選項中只有一個正確答案的多選題。雖然這類基準(zhǔn)可以直接創(chuàng)建、評估和評分,但卻無法捕捉到稀有、隱性和不可被搜索的知識。
此外,盡管多模態(tài)已成為一種標(biāo)準(zhǔn)的 LLM 能力,并在現(xiàn)實世界中有著明確的應(yīng)用,但它們并不測試圖像推理能力,許多現(xiàn)有基準(zhǔn)都存在虛假 Ground truth 標(biāo)簽和快速飽和的問題。
由此,研究團隊開發(fā)了 Virology Capabilities Test (VCT),旨在測量病毒學(xué)的實用知識,尤其側(cè)重于故障排除實驗。它針對具有雙重用途潛力的病毒學(xué)方法以及其他密切相關(guān)的方法,不包括一般的分子和細(xì)胞生物學(xué)方法,也不包括出于安全考慮而明確有害的材料。具體來說,該基準(zhǔn)包括重要、困難、經(jīng)過驗證的問題,以及代表真實世界用途的多模態(tài)問題。
圖|VCT 所含材料
研究團隊從 184 位病毒學(xué)專家中收集問題,57 位活躍專家中的 36 位隨后參加了人類基準(zhǔn)測試,回答了他們沒有撰寫或?qū)彶榈膯栴}。他們在設(shè)計問題撰寫程序時考慮到了基準(zhǔn)可以通過相同的輸入內(nèi)容以多種不同的格式運行。所有問題均由人工回答,以評估問題難度和人工準(zhǔn)確性。
數(shù)據(jù)庫由問題和評審組成。共享數(shù)據(jù)集的 322 個問題中,最常提交的問題主題反映了病毒學(xué)家的核心專業(yè)領(lǐng)域:細(xì)胞培養(yǎng)病毒的技術(shù)、基因修飾的分子方法和細(xì)胞培養(yǎng)程序。每個提交的問題都由另外兩名熟悉該問題特定主題領(lǐng)域的專家進(jìn)行審查。審閱者對問題表示同意或不同意,并提供反饋意見。
圖|所有提交的問題在創(chuàng)建過程中的流程。
在研究團隊對完整基準(zhǔn)進(jìn)行評估的多模態(tài)模型中,OpenAI o3 表現(xiàn),準(zhǔn)確率達(dá)到 43.8%,即使在其專業(yè)子領(lǐng)域內(nèi),也超過了 94% 的病毒學(xué)家。相比之下,博士水平的病毒學(xué)家在面對專門針對每個人的子專業(yè)領(lǐng)域定制的 VCT 問題集時,得分僅為 22.1%。
圖|前沿 AI 模型在特定領(lǐng)域表現(xiàn)優(yōu)于專家,大于 0 的值表示 AI 模型的表現(xiàn)優(yōu)于人類,上方百分比顯示了 AI 模型相對于 36 位專家的整體表現(xiàn)。
研究發(fā)現(xiàn),截至 2025 年初,前沿大模型在病毒學(xué)領(lǐng)域提供實際疑難解答支持的能力,已達(dá)到甚至超過了人類專家水平,而且人類與模型之間的差距正在持續(xù)擴大。
這一趨勢在其他協(xié)議分析基準(zhǔn)測試中同樣顯著:在 ProtocolQA 基準(zhǔn)上,o1 模型的表現(xiàn)已接近專家水平;在 BioLP-Bench 基準(zhǔn)上,DeepSeek-R1 的成績已與專家持平。這兩項測試的結(jié)果相比不到一年前發(fā)布的 SOTA 分?jǐn)?shù),均有了大幅提升。
VCT 是一個包含 322 個可搜索的、相關(guān)的、多模態(tài)的病毒學(xué)實際疑難解答問題的數(shù)據(jù)集,其中的問題涉及一些罕見的知識,訓(xùn)練有素的病毒學(xué)家自己都認(rèn)為這些知識很難找到,甚至是隱性的,但 o3 等領(lǐng)先模型在基準(zhǔn)測試中的表現(xiàn)已經(jīng)超過了人類專家。
在開發(fā) VCT 的過程中,出于對傳播此類信息的潛在風(fēng)險的考慮,他們排除了某些可能特別有利于造成大規(guī)模危害的雙重用途病毒學(xué)課題。這些課題都是實用、罕見、重要的信息,能夠使?jié)駥嶒炇也《緦W(xué)工作更容易取得成功。
因此,在部署前測試中,VCT 可以作為潛在危險信息的信息替代衡量標(biāo)準(zhǔn),以更好地了解模型在特別敏感的生物學(xué)技能方面的能力,并為隨后的緩解機制提供信息。提供專家級病毒學(xué)故障診斷的能力本質(zhì)上具有雙重用途:它對有益的研究有用,但也可能被濫用。
圖|VCT 多選題例題,要求答題者從一組 4-10 個選項中找出所有正確的陳述。每個問題還附有評分標(biāo)準(zhǔn),用于在未提供答案陳述的情況下評估開放式回答。
研究團隊指出,如今迫切需要通過周到的訪問控制,在促進(jìn)有益研究與應(yīng)對安全風(fēng)險之間取得平衡。他們強調(diào),AI 系統(tǒng)在為高度雙重用途方法(即可被用于正當(dāng)或惡意目的的技術(shù))提供專家級故障診斷方面的能力,本身就應(yīng)被視為一種高度雙重用途技術(shù)。
專家級 AI 病毒學(xué)聊天機器人(僅通過文本互動提供建議)相較于能夠自主執(zhí)行任務(wù)的 AI 病毒學(xué) agent 而言,風(fēng)險較小,但兩者都需要進(jìn)行嚴(yán)格的訪問控制。尤其是某些特定領(lǐng)域的專業(yè)知識,如病毒學(xué)方法的實際故障診斷,可能被濫用于造成大規(guī)模危害,因此應(yīng)被排除在下一代廣泛可用的大模型能力之外。
針對 AI 系統(tǒng)中雙重用途生物學(xué)技能的問題,研究團隊建議,未來可參考生命科學(xué)領(lǐng)域已有的雙重用途研究監(jiān)管經(jīng)驗,例如由國 NSABB 主導(dǎo)的管理框架。NSABB 已呼吁統(tǒng)一現(xiàn)有的聯(lián)邦政策,并擴大需要聯(lián)邦審查的研究范圍,以更好地應(yīng)對潛在的雙重用途風(fēng)險。盡管 NSABB 尚未建議將基于人工智能的“硅學(xué)實驗”立即納入更新后的監(jiān)管體系,但它強調(diào)了持續(xù)評估 AI 與生物技術(shù)交叉研究風(fēng)險與益處的必要性。
類似 VCT 這樣的評估工具,未來可為政府機構(gòu)(如 AISI)及非政府組織提供實證依據(jù),幫助調(diào)整現(xiàn)有的雙重用途風(fēng)險管理框架,適應(yīng) AI 時代的需求,并為新一代模型的研究與部署制定更完善的指南。
幾個月前,該論文作者已將研究結(jié)果分享給各大 AI 實驗室。作為回應(yīng),xAI 發(fā)布了新的風(fēng)險管理框架,并承諾在其 AI 模型 Grok 的未來版本中,加入病毒學(xué)防護(hù)措施,包括訓(xùn)練模型拒絕有害請求,以及對輸入和輸出進(jìn)行內(nèi)容過濾。OpenAI 也在其模型 o3 和 o4-mini 中部署了多項與生物安全相關(guān)的保護(hù)措施,包括阻止?jié)撛诘挠泻敵觥?/p>
約翰·霍普金斯大學(xué)健康安全中心主任 Tom Inglesby 指出,僅靠行業(yè)自律是不夠的,他呼吁立法者和政策制定者采取更積極的行動,制定政策以規(guī)范 AI 帶來的生物風(fēng)險。
“在新的 LLM 發(fā)布前,應(yīng)該強制進(jìn)行風(fēng)險評估,以確保其不會帶來大流行病級別的潛在后果。”
論文共同一作 Jasper Götting 表示,由 SecureBio 和其他機構(gòu)開展的后續(xù)研究將很快檢驗 AI 輔助是否可以改善實際實驗室的實驗結(jié)果。
“在評估過程中,我們還觀察到一些 AI 與專家提供的答案不一致的情況,這促使我們思考如何可靠地衡量 AI 在專家知識不再是可靠標(biāo)準(zhǔn)的課題上取得的進(jìn)展。”
快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論