大模型頻遭攻擊,安全治理迫在眉睫


中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)   時間:2025-11-25





  一張朋友圈普普通通的照片,經(jīng)人工智能大模型處理后,個人身份、人際關系等敏感信息就可能被泄露——近日,大模型“讀心術”登上熱搜,再次引發(fā)有關網(wǎng)絡安全的討論。大模型正面臨著被詐騙分子利用的風險,其安全漏洞令人心驚。


  “‘讀心術’只是初級階段,竊密者借助攻擊工具監(jiān)測大模型回復時長的細微差異,就能猜到用戶私密指令?!币晃痪W(wǎng)絡安全工程師告訴科技日報記者,利用孿生語言預測器,竊密者短時間內就可以“刺探”其他人與大模型的“私人聊天”。


  該安全工程師解釋說,大模型推理時為了節(jié)約算力,對于相似訴求往往會“合并同類項”,根據(jù)指令返回的時間差,就能計算出關鍵字節(jié),并對其進行拼接,從而找到答案。這一原理和“十八猜”游戲相似,但大模型設計的短板和孿生語言預測器的效率讓竊密更容易。


  事實上,孿生語言預測器只是大模型在網(wǎng)絡攻防領域遭受的新攻擊類型之一。從“提示詞植入”到“惡意代碼接管”再到“篡改基礎數(shù)據(jù)”,針對大模型、智能體的新攻擊、新武器、新策略從未停止。


  10月28日,第十四屆全國人民代表大會常務委員會第十八次會議表決通過關于修改網(wǎng)絡安全法的決定。此次修改,特別將“完善人工智能倫理規(guī)范,加強風險監(jiān)測評估和安全監(jiān)管,促進人工智能應用和健康發(fā)展”寫入網(wǎng)絡安全法。


  人工智能大模型在金融、醫(yī)療、政務等諸多關鍵領域深度滲透,大模型的安全性已經(jīng)超出了網(wǎng)絡安全范疇。采訪中,多位專家向記者表示,當務之急是構筑大模型安全屏障,通過技術創(chuàng)新、安全防控、行業(yè)共治等掌控方向,主導棋局。


  從“污染”數(shù)據(jù)下手,攻擊方式花樣百出


  在解答一道數(shù)學題的最后一步時,大模型寫道:“20+7+8+5+9=50”。這道心算也能秒出答案的簡單加法超級“智能”的生成式大模型卻做錯了?


  “我們能夠讓大模型始終輸出‘1+1=3’的結果。”盛邦安全烽火臺實驗室負責人何鵬程告訴記者,針對一個已經(jīng)成熟的模型,如果通過幾千個賬號給它輸出數(shù)百萬次相同的錯誤答案,后面再有人提問就會得到錯誤結果。


  通過數(shù)據(jù)“投毒”,將錯誤的信息強行植入大模型,會輸出混淆視聽的內容。有安全團隊的實驗表明,僅需250份惡意文檔,就能在130億參數(shù)模型中植入可隨時引爆的“投毒攻擊”。


  “如果給大模型設置外太空的故事場景,你甚至可以獲得某一危險行為的指導?!焙矽i程說,在攻防演練中,其團隊通過一些簡單的方式就能讓大模型發(fā)布危險言論。


  竊密是操控大模型的“后手”?!懊绹斯ぶ悄芄景菜碱5纳墒酱竽P途驮凇弦?guī)’操作的情況下發(fā)生過泄密?!本G盟科技通用解決方案銷售部總監(jiān)司志凡說,用戶聊天記錄、文檔等保密數(shù)據(jù)往往儲存在有“安保”措施的代碼解釋器沙盒中,但由于攻擊者使用了“間接提示注入”技術,這些被保護的數(shù)據(jù)竟然堂而皇之地從“大門”——官方應用程序編程接口,直接上傳到攻擊者的賬戶中。


  “大模型一旦被提示詞等技術‘策反’,就會成為竊取數(shù)據(jù)的‘幫兇’?!彼局痉哺嬖V記者,由于數(shù)據(jù)通過合法通道傳輸,這種竊取行為異常隱蔽,很難察覺。


  更為嚴峻的是,隨著攻擊技術迭代升級,竊密只是開端,未知攻擊還將持續(xù)增加。


  “現(xiàn)在大模型訓練門檻不斷降低,攻擊者頻繁發(fā)送大量查詢,根據(jù)模型的輸出就可以訓練出一個功能近似的‘山寨’模型。”浪潮云山東云御公司總經(jīng)理李聰說,這些“照貓畫虎”的模型學到了什么,會對正版模型產(chǎn)生哪些威脅,現(xiàn)在還不得而知。


  此外,智能體間的“信任背叛”也是一種新興威脅?!皭阂庵悄荏w可以利用相互間通信協(xié)議的信任機制,在已建立的對話中漸進式地注入隱蔽指令,控制受害者智能體、竊取敏感信息或執(zhí)行未授權操作,如擅自購買股票?!彼局痉脖硎荆@些交互對用戶完全不可見,防御和檢測難度極大。


  在采訪中,多位專家不約而同強調大模型底層開源的威脅?!耙坏╅_源底層有了漏洞,所有在此基礎上開發(fā)的行業(yè)專業(yè)模型,就會攜帶這個‘bug’?!笔畎踩债a(chǎn)品線總經(jīng)理郝龍表示,如果底層漏洞被黑客利用,就不僅是一次網(wǎng)絡安全事件,而是跨行業(yè)安全問題。


  “底層開源在促進技術進步的同時,也引入了新的攻擊面?!崩盥斦f,此前已發(fā)現(xiàn)的開源漏洞包括Ollama(一種開源跨平臺大模型工具)等開源工具的安全隱患,可導致任何未授權用戶具備模型和數(shù)據(jù)“管理員”權限,這相當于對入侵者“大開城門”,毫不設防。


  去年底,360數(shù)字安全集團發(fā)布的《大模型安全漏洞報告》顯示,近40個大模型存在相關安全漏洞,影響多個知名模型服務框架以及多款開源產(chǎn)品。


  用AI對抗AI,設置陷阱主動防御


  “國家支持創(chuàng)新網(wǎng)絡安全管理方式,運用人工智能等新技術,提升網(wǎng)絡安全保護水平?!毙滦薷牡木W(wǎng)絡安全法提出,應對新出現(xiàn)的安全漏洞和危機,要創(chuàng)新手段。


  網(wǎng)絡安全領域的科技創(chuàng)新從未停滯。在國家部委的支持下,盛邦安全開展了網(wǎng)絡空間測繪與反測繪相關的AI技術研究。郝龍解釋說:“網(wǎng)絡空間測繪如果被攻擊方利用,會繪制出不利于我們的‘網(wǎng)絡空間地圖’,而基于反測繪的AI引擎則可以阻斷攻擊方的探測和擾亂關聯(lián)分析?!碑斍?,該研究相關成果已應用在金融業(yè),顯著減少了關鍵基礎設施系統(tǒng)接收到的佯攻、探測等威脅的攻擊次數(shù),提升了安全防護效率。


  在AI技術的加持下,網(wǎng)絡誘捕情報、預測攻擊的技術能力也大幅提升。


  “在攻擊造成損毀前,提前預測發(fā)現(xiàn)攻擊,在技術層面是可行的?!睆V州大學副校長、粵港澳大灣區(qū)生成式人工智能安全發(fā)展聯(lián)合實驗室專家委員會專家田志宏表示,國際權威咨詢機構Gartner在相關報告中也提到前置安全,這一安防思路已成為未來的發(fā)展趨勢。


  在大模型神經(jīng)元里設置誘捕的訪問點,即“蜜點”,捕獲攻擊前的“踩點”等行為,進而防范真正的攻擊,是前置安全的應用之一。田志宏解釋:“‘蜜點’本來不是神經(jīng)網(wǎng)絡正常節(jié)點,一旦它被訪問了,就意味著大模型可能面臨風險?!?/p>


  “AI還可以讓‘蜜點’變得更加真實。比如誘捕郵箱里如果只有一兩封郵件,會被攻擊者識破?!焙矽i程說,大模型能短時間內“克隆”出業(yè)務郵箱,布防疑陣實現(xiàn)誘捕。


  AI被業(yè)界視為彌補工業(yè)大模型網(wǎng)絡安全能力不足的關鍵?!熬W(wǎng)絡安全智能體,可以將復雜的安全工作集納起來,像一支專業(yè)團隊一樣協(xié)同工作?!本G盟科技伏影實驗室主任研究員吳鐵軍說,“順應新形勢,網(wǎng)絡安全工程師需要擅用AI技術。比如,我們在‘風云衛(wèi)’平臺內置了20多個安全領域的AI智能體,即便非專業(yè)技術人員也能靈活組合,定制化地處理復雜安全任務。”


  為了應對大模型數(shù)量陡增的趨勢,浪潮云也開始探索以“工廠化”的方式,整合大模型訓練、部署、推理、運營等階段的安全能力。例如,加入對抗訓練,建立符合安全要求的大模型“生產(chǎn)流水線”。李聰說,以AI防護AI,有望更全面地抵御新型攻擊手段,進行全方位的檢測與防護。


  田志宏認為,讓攻擊者感受威脅才能“敲山震虎”?!耙恢币詠?,攻擊者沒有成本,就像壞人在黑暗里扔石頭,砸著了就賺了,砸不著就繼續(xù)扔?!彼f,主動防御要讓攻擊者有成本、被暴露,甚至損耗攻擊者的基礎設施。


  讓AI學會“反詐”,需多方協(xié)同共治


  “即便是當前433個已經(jīng)備案的大模型中,仍有不少模型存在不受控的漏洞?!焙慢堈f,至于僅在單位內部使用的大模型,其安全防護能力更加堪憂。


  “企業(yè)對安全的關注總是落后于對業(yè)務的要求?!闭劶霸?,郝龍說,一方面應用者對安全忽視懈怠,另一方面攻擊者被利益驅動實施攻擊。


  此前曾曝出某國一能源企業(yè)曾因客服機器人回復頻繁提問,泄露了其勘探的油田分布情況及開采進度等信息。不僅如此,繞過大語言模型的安全策略,欺騙大模型還可以輸出不當言論和作品。


  利益驅動無疑會加速攻擊者的步伐,留給應用者構筑統(tǒng)一防線的時間并不多。


  11月1日實施的國家標準《網(wǎng)絡安全技術 生成式人工智能服務安全基本要求》明確生成式人工智能服務安全要求。例如,要求服務提供者采取有效措施提高訓練數(shù)據(jù)質量,增強數(shù)據(jù)的真實性、準確性、客觀性、多樣性,并指導服務提供者做好數(shù)據(jù)處理、數(shù)據(jù)標注等方面的安全管理工作。


  “這一標準為統(tǒng)一防線的形成構筑了關鍵‘基石’。但它并非強制標準,沒有懲罰條款?!焙慢堈f,要執(zhí)行大模型基礎設施的強制性“等級保護制度”,還有很長的路要走。


  明年1月1日起,新修改的網(wǎng)絡安全法將實施,法律中新增相關條款被業(yè)內視為對人工智能實施強制性安全防護的“前奏”。


  “上位法的修改,將為后續(xù)細分領域的法律提供依據(jù)。”郝龍認為,人工智能安全技術的細化、評估要點的落實仍亟待完善。例如,當某個大模型采集數(shù)據(jù)時,如果數(shù)據(jù)抽樣安全評估發(fā)現(xiàn)其中不良違法信息比例超過5%,就不允許開展后續(xù)的訓練?!爸贫ú⒙涞剡@樣的規(guī)則,離不開各部門和整個行業(yè)協(xié)同推進?!?/p>


  賽迪研究院日前發(fā)布的《端側大模型安全風險與治理研究》認為,無論是個人居家助理還是工業(yè)互聯(lián)網(wǎng)中的大模型,均存在數(shù)據(jù)、模型、算法三個層面的安全風險,數(shù)據(jù)泄露、模型竊取、算法對抗攻擊等都對大模型安全構成嚴重威脅,尤其應關注自動駕駛、醫(yī)療診斷、工業(yè)質檢等高風險領域。


  吳鐵軍建議,對于可能影響個人權益、社會公共利益的重大算法應用,要建立備案和審查制度,行業(yè)協(xié)會、學術機構等專業(yè)力量也應參與到算法倫理的研究和治理中,形成多方協(xié)同的治理格局。


  郝龍表示,“模型在裸奔,安全后面追”的格局應該有所轉變。第三方安全認證與評估體系是大模型安全治理的“校準器”和“試金石”。它通過對硬件、軟件、數(shù)據(jù)、算法和隱私的全面“體檢”,并借助權威的認證標識將安全性能透明化,是確保國家標準在實踐中“不變形、不走樣”的關鍵保障。


  “隨著網(wǎng)絡安全法實施,大模型將逐步在創(chuàng)新與安全間找到平衡?!焙慢堈f,“既要鼓勵在金融、醫(yī)療、政務等領域的深度應用,釋放技術價值,又避免其淪為風險‘放大器’。AI大模型的進階勢不可擋,而安全治理是它行穩(wěn)致遠的‘壓艙石’?!保ㄓ浾?張佳星)


  轉自:科技日報

  【版權及免責聲明】凡本網(wǎng)所屬版權作品,轉載時須獲得授權并注明來源“中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)”,違者本網(wǎng)將保留追究其相關法律責任的權力。凡轉載文章及企業(yè)宣傳資訊,僅代表作者個人觀點,不代表本網(wǎng)觀點和立場。版權事宜請聯(lián)系:010-65363056。

延伸閱讀

?

版權所有:中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)京ICP備11041399號-2京公網(wǎng)安備11010502035964