(資料圖片)
伴隨著大模型等人工智能產(chǎn)業(yè)的快速發(fā)展,新的安全風(fēng)險挑戰(zhàn)也接踵而至。今天上午,大數(shù)據(jù)協(xié)同安全技術(shù)國家工程研究中心(以下簡稱“BDS國家工程中心”)發(fā)布了國內(nèi)首份《大語言模型提示注入攻擊安全風(fēng)險分析報告》(以下簡稱“報告”),為國內(nèi)大模型安全發(fā)展提供整體指南。報告指出,提示注入攻擊已成大模型安全威脅之首,建議從安全測評、安全防御、安全監(jiān)測預(yù)警等方面,多維度提升大模型的安全性。、
大語言模型引領(lǐng)創(chuàng)新浪潮席卷全球,國內(nèi)迄今已有80余個大模型公開發(fā)布。在引領(lǐng)新一輪工業(yè)革命的同時,大模型的安全風(fēng)險也引發(fā)廣泛擔(dān)憂。此前,BDS國家工程中心的AI安全實驗室在承擔(dān)“安全大腦國家新一代人工智能開放創(chuàng)新平臺”研究中,對ChatGPT、BARD、Bing Chat等大模型產(chǎn)品進行了風(fēng)險評估,發(fā)現(xiàn)主流廠商的相關(guān)服務(wù)全部存在提示注入攻擊的安全風(fēng)險。此外,AI安全實驗室還在主流AI框架中發(fā)現(xiàn)200多個漏洞,影響超過40億終端設(shè)備。5月30日,二十屆中央國家安全委員會第一次會議上也明確提出,需“提升網(wǎng)絡(luò)數(shù)據(jù)人工智能安全治理水平”。
目前大語言模型面臨的風(fēng)險類型包括提示注入攻擊、對抗攻擊、后門攻擊、數(shù)據(jù)污染、軟件漏洞、隱私濫用等多種風(fēng)險。在這些安全威脅中,提示注入攻擊因利用有害提示覆蓋大語言模型的原始指令,具有極高危害性,也被全球性安全組織OWASP列為大語言模型十大安全威脅之首。
為推動行業(yè)采取有效防御措施,構(gòu)建更加安全可信的大語言模型,BDS國家工程中心發(fā)布了國內(nèi)首份《大語言模型提示注入攻擊安全風(fēng)險分析報告》。 報告面向大語言模型的提示注入攻擊和防御技術(shù)展開研究,并通過構(gòu)建了包含36000條的提示注入攻擊驗證數(shù)據(jù)的數(shù)據(jù)集,覆蓋3類典型攻擊方法和6類安全場景,用于對大語言模型的提示注入攻擊風(fēng)險測評。
測評結(jié)果顯示,目前的大型語言模型普遍面臨提示注入攻擊安全風(fēng)險,包括在自動問答系統(tǒng)中誤導(dǎo)用戶,或者通過對話系統(tǒng)中的輸入操縱回答結(jié)果。該報告在大模型安全測評、安全防御、安全監(jiān)測預(yù)警方面給出相關(guān)建議。在安全測評方面,需進行網(wǎng)絡(luò)安全測評和內(nèi)容安全測評,檢測模型軟件、插件及供應(yīng)鏈等的安全漏洞,并評估模型是否產(chǎn)生有害、有偏見、侵權(quán)或與事實不符的內(nèi)容,以提出整改建設(shè)方案。在安全防御方面,報告建議應(yīng)構(gòu)建多層次的協(xié)同防御體系,包括過濾和清洗訓(xùn)練數(shù)據(jù)、添加多樣化的輸入示例來提高模型魯棒性,以及攔截各類注入攻擊等措施來保護模型免受攻擊。在安全監(jiān)測預(yù)警方面,需建設(shè)大語言模型安全風(fēng)險監(jiān)測預(yù)警平臺,包括構(gòu)建威脅情報庫和建立自動化預(yù)警系統(tǒng),以實時追蹤安全事件、攻擊模式和漏洞信息,并及時發(fā)出預(yù)警。
基于報告形成測評能力,未來,BDS國家工程中心將通過“安全大腦國家新一代人工智能開放創(chuàng)新平臺”,為國內(nèi)大模型提供提示注入攻擊風(fēng)險安全測評,全面推動我國構(gòu)建安全可信的人工智能。
(文章來源:北京商報)
免責(zé)聲明:以上內(nèi)容為本網(wǎng)站轉(zhuǎn)自其它媒體,相關(guān)信息僅為傳遞更多信息之目的,不代表本網(wǎng)觀點,亦不代表本網(wǎng)站贊同其觀點或證實其內(nèi)容的真實性。如稿件版權(quán)單位或個人不想在本網(wǎng)發(fā)布,可與本網(wǎng)聯(lián)系,本網(wǎng)視情況可立即將其撤除。
聯(lián)系方式:291 32 36@qq.com
Copyright ? 1998-2023 by 中陜網(wǎng)版權(quán) 所有 京ICP備12018864號-5