大模型應(yīng)用亟待“標(biāo)準(zhǔn)體系”支撐
2025-03-20 13:04:29 來(lái)源:法治日?qǐng)?bào)·法治周末
□ 賀寶利
大模型AI給出的答案應(yīng)該是準(zhǔn)確無(wú)誤的吧?
錯(cuò)!結(jié)果可能會(huì)顛覆你的認(rèn)知與想象:看似文通字順的文章,“語(yǔ)義邏輯”與“事實(shí)邏輯”卻大相徑庭。
這種被AI行業(yè)稱(chēng)為“幻覺(jué)數(shù)據(jù)”的問(wèn)題,在國(guó)內(nèi)已經(jīng)被很多人所熟知。
事實(shí)上,早在2023年,美國(guó)斯坦福大學(xué)的一項(xiàng)研究顯示:主流大模型的“幻覺(jué)數(shù)據(jù)”發(fā)生率高達(dá)25%至40%。
當(dāng)前我國(guó)網(wǎng)民已經(jīng)突破11億,其中約2.5億人已成為生成式AI的用戶(hù)。高頻率出現(xiàn)的“幻覺(jué)數(shù)據(jù)”,已經(jīng)成為數(shù)字經(jīng)濟(jì)時(shí)代的“數(shù)據(jù)毒瘤”,也必將倒逼生成式人工智能“標(biāo)準(zhǔn)體系”的快速構(gòu)建。
廣義上看,“幻覺(jué)數(shù)據(jù)”的出現(xiàn)主要包括三大來(lái)源。首先,數(shù)據(jù)污染是“幻覺(jué)數(shù)據(jù)”的主要來(lái)源。一般來(lái)講,大模型的訓(xùn)練數(shù)據(jù)中,本身就可能包含錯(cuò)誤、過(guò)時(shí)或偏見(jiàn)信息。這些有問(wèn)題的數(shù)據(jù)經(jīng)過(guò)模型“學(xué)習(xí)”后,再以程式化的方式輸出,必然出現(xiàn)“以錯(cuò)鑄錯(cuò)”。其二,模型缺陷也是重要原因。當(dāng)前大模型普遍存在“過(guò)度自信”問(wèn)題,即使面對(duì)不確定的問(wèn)題也會(huì)給出確定性回答。這種機(jī)制“先天”缺陷導(dǎo)致模型容易產(chǎn)生虛假信息。其三,算法局限性加劇了這一問(wèn)題。當(dāng)前大模型并不完全具備人類(lèi)智慧思維,缺乏真正的理解、辨識(shí)、判斷能力,只是基于“統(tǒng)計(jì)規(guī)律生成文本”。這種機(jī)制決定了模型可能生成看似合理實(shí)則錯(cuò)誤的內(nèi)容。
回過(guò)頭來(lái)看,正是上述深層原因,導(dǎo)致“幻覺(jué)數(shù)據(jù)”“深度偽造”等“肆意橫行”,也成為今年全國(guó)兩會(huì)期間代表、委員們關(guān)注的熱點(diǎn)話題。其中全國(guó)政協(xié)委員、360公司創(chuàng)始人周鴻煒,全國(guó)人大代表、科大訊飛創(chuàng)始人劉慶峰等人的建議意見(jiàn)較為系統(tǒng)、客觀。而全國(guó)政協(xié)委員齊向東調(diào)研多家企業(yè)在接入“DeepSeek”時(shí),發(fā)現(xiàn)企業(yè)的“小數(shù)據(jù)”面對(duì)大模型“大數(shù)據(jù)”時(shí)近乎“裸奔”的尷尬局面,為企業(yè)在AI應(yīng)用過(guò)程敲響了安全警鐘。
值得慶幸的是,近日,互聯(lián)網(wǎng)信息辦公室、工業(yè)和信息化部、公安部、國(guó)家廣播電視總局聯(lián)合發(fā)布了《人工智能生成合成內(nèi)容標(biāo)識(shí)辦法》。
該辦法明確了人工智能生成合成內(nèi)容標(biāo)識(shí)主要包括顯式標(biāo)識(shí)和隱式標(biāo)識(shí)兩種形式。顯式標(biāo)識(shí),是指在生成合成內(nèi)容或者交互場(chǎng)景界面中添加的,具體以文字、聲音、圖形等方式呈現(xiàn)并可以被用戶(hù)明顯感知到的標(biāo)識(shí);隱式標(biāo)識(shí),是指采取技術(shù)措施在生成合成內(nèi)容文件數(shù)據(jù)中添加的,不易被用戶(hù)明顯感知到的標(biāo)識(shí)。
該辦法強(qiáng)調(diào),任何組織和個(gè)人不得惡意刪除、篡改、偽造、隱匿本辦法規(guī)定的生成合成內(nèi)容標(biāo)識(shí),不得為他人實(shí)施上述惡意行為提供工具或者服務(wù),不得通過(guò)不正當(dāng)標(biāo)識(shí)手段損害他人合法權(quán)益。
有了標(biāo)識(shí),就可以做到溯源,能溯源就會(huì)知曉“幻覺(jué)數(shù)據(jù)”“深度偽造”等“問(wèn)題內(nèi)容”來(lái)源于何處。這為后期的行業(yè)監(jiān)管奠定了基礎(chǔ)。這項(xiàng)從2025年9月1日起施行的管理辦法,旨在規(guī)范人工智能生成合成內(nèi)容,對(duì)促進(jìn)人工智能健康發(fā)展,保護(hù)公民、法人和其他組織合法權(quán)益,維護(hù)社會(huì)公共利益,意義極其重大。
也就是前不久,中國(guó)信息通信研究院依托中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟安全治理委員會(huì),正式啟動(dòng)2025年第一批人工智能安全評(píng)估工作。
評(píng)估項(xiàng)目主要圍繞AI自身安全能力與AI賦能安全能力兩大方面展開(kāi)。
AI自身安全能力評(píng)估,主要包括四大方面:大模型安全防范能力評(píng)估;圖文大模型安全能力評(píng)估;代碼大模型安全能力評(píng)估:生物特征識(shí)別安全能力評(píng)估。大模型安全防范能力評(píng)估關(guān)注大模型的全生命周期安全能力,全面評(píng)價(jià)大模型的安全水平,依據(jù)《大模型安全風(fēng)險(xiǎn)防范能力》系列標(biāo)準(zhǔn),重點(diǎn)考察“訓(xùn)練數(shù)據(jù)安全、模型安全、內(nèi)容安全和服務(wù)運(yùn)營(yíng)安全”4個(gè)方面。圖文大模型安全能力評(píng)估圖文大模型在多模態(tài)內(nèi)容生成應(yīng)用中的安全能力,以及圖文一致性、生成圖像標(biāo)識(shí)能力、抵抗攻擊等任務(wù)上的效果。代碼大模型安全能力評(píng)估代碼大模型在安全風(fēng)險(xiǎn)防范方面的能力,主要分為基礎(chǔ)功能和安全風(fēng)險(xiǎn)防范能力,基礎(chǔ)功能安全檢查包括文本到代碼、代碼到代碼、代碼到文本3個(gè)功能面,安全風(fēng)險(xiǎn)防范能力要求覆蓋內(nèi)容安全、模型安全方向的十余個(gè)安全風(fēng)險(xiǎn)檢查項(xiàng)。生物特征識(shí)別安全能力評(píng)估面向人臉識(shí)別技術(shù)提供方、技術(shù)使用方,依據(jù)“可信人臉應(yīng)用守護(hù)計(jì)劃”制定的標(biāo)準(zhǔn)規(guī)范開(kāi)展相關(guān)評(píng)測(cè),涉及人臉識(shí)別安全專(zhuān)項(xiàng)評(píng)估、金融APP人臉識(shí)別安全能力評(píng)估、移動(dòng)端電子政務(wù)類(lèi)人臉識(shí)別安全能力評(píng)估、金融聲紋反欺詐系統(tǒng)安全能力評(píng)估、掌紋掌靜脈識(shí)別系統(tǒng)能力評(píng)估、多因素身份認(rèn)證產(chǎn)品能力評(píng)估、H5端人臉識(shí)別安全能力評(píng)估7大方向。
AI賦能安全能力評(píng)估,包括安全大模型能力評(píng)估;內(nèi)容安全審核能力評(píng)估;AI深度合成內(nèi)容檢測(cè)能力評(píng)估三部分內(nèi)容。AI深度合成內(nèi)容檢測(cè)能力評(píng)估主要評(píng)估大模型的網(wǎng)絡(luò)安全原子能力和網(wǎng)絡(luò)安全通用能力。其中,網(wǎng)絡(luò)安全原子能力涉及惡意流量檢測(cè)、漏洞檢測(cè)、惡意代碼檢測(cè)、惡意郵件檢測(cè)計(jì)等;網(wǎng)絡(luò)安全通用能力檢測(cè)涉及安全問(wèn)答、安全語(yǔ)言翻譯、安全數(shù)據(jù)處理、安全告警研判等。內(nèi)容安全審核能力評(píng)估主要評(píng)估包括內(nèi)容審核機(jī)審系統(tǒng)、人工審核能力評(píng)估、審核系統(tǒng)成熟度評(píng)估、內(nèi)容勘誤能力評(píng)估和內(nèi)容巡查能力評(píng)估等,通過(guò)質(zhì)量高、范圍廣、有代表性的數(shù)據(jù)集,實(shí)現(xiàn)對(duì)內(nèi)容安全審核系統(tǒng)的功能和性能測(cè)試。AI深度合成內(nèi)容檢測(cè)能力評(píng)估,主要評(píng)估包括深度合成視頻、深度合成音頻、AIGC視頻、AIGC圖像4個(gè)方面的內(nèi)容檢測(cè)能力評(píng)估,面向主體為深度合成檢測(cè)服務(wù)提供方或相關(guān)系統(tǒng)開(kāi)展評(píng)估。
這項(xiàng)從發(fā)布評(píng)估報(bào)名時(shí)間開(kāi)啟,計(jì)劃在2025年7月中旬完成的批次評(píng)估工作,無(wú)疑是一次行業(yè)“安全自律”的巡檢,體現(xiàn)出了對(duì)行業(yè)發(fā)展的前瞻審視,必將對(duì)AI行業(yè)發(fā)展大到國(guó)家AI戰(zhàn)略、規(guī)劃、政策的研究出臺(tái),小到行業(yè)技術(shù)、標(biāo)準(zhǔn)的制定乃至檢測(cè)認(rèn)定,都會(huì)起到重要作用。
在數(shù)字化與智能化飛速發(fā)展的今天,大模型作為人工智能領(lǐng)域的核心驅(qū)動(dòng)力,正廣泛應(yīng)用于各個(gè)行業(yè),為經(jīng)濟(jì)增長(zhǎng)和社會(huì)發(fā)展注入強(qiáng)大動(dòng)力。從智能客服提升服務(wù)效率,到金融風(fēng)險(xiǎn)預(yù)測(cè)助力決策,大模型的身影無(wú)處不在。然而,隨著其應(yīng)用的深入,大模型生成“幻覺(jué)數(shù)據(jù)”等安全問(wèn)題不斷暴露的情況下,建立大模型應(yīng)用統(tǒng)一技術(shù)標(biāo)準(zhǔn)已刻不容緩。
大模型推理平臺(tái)是大模型應(yīng)用的核心基礎(chǔ)設(shè)施,其技術(shù)標(biāo)準(zhǔn)的統(tǒng)一對(duì)于保障大模型的性能、安全和互操作性具有重要意義。目前,不同的大模型推理平臺(tái)在架構(gòu)設(shè)計(jì)、算法實(shí)現(xiàn)、數(shù)據(jù)處理等方面存在較大差異,這不僅增加了企業(yè)和開(kāi)發(fā)者的使用成本,也限制了大模型技術(shù)的推廣和應(yīng)用。
在建立大模型使用統(tǒng)一技術(shù)標(biāo)準(zhǔn)的過(guò)程中,需要政府、企業(yè)、科研機(jī)構(gòu)等各方共同參與,形成合力。政府應(yīng)發(fā)揮主導(dǎo)作用,制定相關(guān)政策和法規(guī),引導(dǎo)和規(guī)范大模型垂直應(yīng)用適配框架與工具。加大對(duì)行業(yè)技術(shù)研發(fā)和標(biāo)準(zhǔn)制定的支持力度,鼓勵(lì)企業(yè)和科研機(jī)構(gòu)積極參與大模型技術(shù)的創(chuàng)新和應(yīng)用。同時(shí),加強(qiáng)對(duì)大模型技術(shù)應(yīng)用的監(jiān)管,確保其符合法律法規(guī)和道德規(guī)范。
企業(yè)作為大模型技術(shù)的主要應(yīng)用者和推動(dòng)者,應(yīng)積極參與大模型應(yīng)用統(tǒng)一技術(shù)標(biāo)準(zhǔn)的制定和實(shí)施。同時(shí),企業(yè)應(yīng)自覺(jué)遵守相關(guān)標(biāo)準(zhǔn)和規(guī)范,加強(qiáng)對(duì)大模型技術(shù)應(yīng)用工程中的風(fēng)險(xiǎn)管理,保障用戶(hù)的利益。
科研機(jī)構(gòu)作為大模型技術(shù)應(yīng)用的研究和創(chuàng)新主體,應(yīng)加強(qiáng)對(duì)大模型技術(shù)的基礎(chǔ)研究和應(yīng)用研究。深入探索大模型的工作原理和性能特點(diǎn),為大模型使用統(tǒng)一技術(shù)標(biāo)準(zhǔn)落地制定提供理論支持。同時(shí)加強(qiáng)與企業(yè)的合作,將科研成果轉(zhuǎn)化為實(shí)際生產(chǎn)力,積極參與國(guó)際交流與合作,學(xué)習(xí)和借鑒國(guó)際先進(jìn)經(jīng)驗(yàn),提升我國(guó)大模型技術(shù)的國(guó)際競(jìng)爭(zhēng)力。