杭州深度求索公司發(fā)布的DeepSeek-r1模型無(wú)疑成為春節(jié)科技圈頂流。春節(jié)期間,永信至誠(chéng)(688244)根據(jù)多家企業(yè)用戶咨詢,圍繞大模型時(shí)代下如何搭上DeepSeek大模型快車道?如何在自身傳統(tǒng)行業(yè)中借力大模型提升企業(yè)各方面能力?等方面進(jìn)行了深度測(cè)評(píng)。
依托春秋AI測(cè)評(píng),找到10萬(wàn)預(yù)算以內(nèi)模型
為了認(rèn)真回答這些問(wèn)題,及時(shí)解答用戶的疑問(wèn),永信至誠(chéng)依托生成式人工智能(AIGC)加持的春秋AI測(cè)評(píng)「數(shù)字風(fēng)洞」平臺(tái),以“魔法”測(cè)“魔法”,從企業(yè)的應(yīng)用實(shí)際出發(fā)搭建測(cè)試環(huán)境和橫向比較對(duì)象,加載40萬(wàn)余條兼容歐盟《人工智能法》、美國(guó)NIST《人工智能風(fēng)險(xiǎn)管理框架》、WDTA AI-STR-02《大語(yǔ)言模型安全測(cè)試方法》等國(guó)際測(cè)評(píng)標(biāo)準(zhǔn)的測(cè)試數(shù)據(jù),基于「數(shù)字風(fēng)洞」ISAC24測(cè)評(píng)標(biāo)準(zhǔn),試圖找到10萬(wàn)預(yù)算以內(nèi)“最適合企業(yè)用戶的基座模型”。
測(cè)試期間,永信至誠(chéng)面向DeepSeek在內(nèi)的國(guó)內(nèi)外主流AI大模型的智能度(Intelligibility)、安全度(Safety)、匹配度(Applicability)、一致度(Consistency)等方面設(shè)計(jì)了“數(shù)字風(fēng)洞ISAC24”測(cè)試標(biāo)準(zhǔn),并挑選了客戶可能會(huì)“選擇困難”的國(guó)內(nèi)外AI模型作為橫向測(cè)評(píng)對(duì)象??纯碊eepSeek和這些模型相比是否能展現(xiàn)出足夠優(yōu)勢(shì)。
最終測(cè)評(píng)數(shù)據(jù)顯示,DeepSeek-r1在綜合測(cè)評(píng)成績(jī)、智能度和匹配度上均領(lǐng)先于Llama3.1、GPT-4o-Mini以及其余被測(cè)模型?;卮鸬囊恢露壬衔挥谇傲?。但安全度方面有待加強(qiáng),需要在后期的應(yīng)用框架方面加安全防護(hù)和內(nèi)容過(guò)濾。
在測(cè)評(píng)之外,公司也做了一個(gè)初步測(cè)算:部署DeepSeek-r1-Distill-Qwen-14B的整體解決方案市場(chǎng)價(jià)不超過(guò)10萬(wàn)元人民幣,基本符合大多數(shù)企業(yè)客戶的初期預(yù)算和日常需求,并且它充分開源和完全商業(yè)授權(quán)的開源策略,讓更多研究人員和企業(yè)都可以基于DeepSeek-r1的訓(xùn)練過(guò)程進(jìn)行復(fù)現(xiàn)和深度開發(fā)。
500余萬(wàn)測(cè)評(píng)數(shù)據(jù)為數(shù)字風(fēng)洞提供科學(xué)依據(jù)
永信至誠(chéng)依托在網(wǎng)絡(luò)靶場(chǎng)和數(shù)字安全測(cè)評(píng)領(lǐng)域的深厚技術(shù)積累與業(yè)務(wù)實(shí)踐成果,構(gòu)建春秋AI測(cè)評(píng)「數(shù)字風(fēng)洞」平臺(tái),以春秋AI大模型為核心,基于標(biāo)準(zhǔn)化測(cè)評(píng)數(shù)據(jù)和海量業(yè)務(wù)場(chǎng)景模版,實(shí)現(xiàn)對(duì)AI智能產(chǎn)品智能度、安全度和匹配度的綜合測(cè)評(píng),通過(guò)以模測(cè)模、以模強(qiáng)模,簡(jiǎn)化測(cè)評(píng)流程,提高測(cè)評(píng)效率。
當(dāng)前平臺(tái)已接入百度千帆、通義千問(wèn)、月之暗面、虎博、商湯日日新、訊飛星火、360智腦、抖音豆包、紫東太初、孟子、智譜、百川等40余個(gè)AI大模型API,以及20余個(gè)本地搭建的開源AI大模型。平臺(tái)擁有基礎(chǔ)數(shù)據(jù)集100余個(gè),總測(cè)評(píng)用例超過(guò)500萬(wàn)條,模擬紅隊(duì)的AI越獄和變異性檢測(cè)載荷2萬(wàn)余個(gè)。
已發(fā)布Llama2-7b、OpenAI GPT-4o、通義千問(wèn)Qwen-72B(開源版)等大模型的測(cè)評(píng)報(bào)告,為大模型廠商提供專業(yè)的評(píng)估結(jié)果和具體整改和調(diào)試建議,以提升其內(nèi)容安全性和整體性能。已開始為眾多高新技術(shù)企業(yè)、國(guó)央企、院校、特區(qū)政府提供科研及服務(wù)類AI健康及安全測(cè)評(píng)服務(wù)。
永信至誠(chéng)作為AI大模型測(cè)試評(píng)估賽道領(lǐng)軍企業(yè),也將與DeepSeek等一眾AI大模型廠商和用戶攜手共進(jìn),用安全賦能AI,用AI反哺安全。歡迎廣大AI大模型領(lǐng)域廠商和用戶合作共生,共同維護(hù)新質(zhì)生產(chǎn)力時(shí)代技術(shù)的進(jìn)步,為經(jīng)濟(jì)繁榮、社會(huì)發(fā)展點(diǎn)亮的希望之光。(燕云)
校對(duì):劉星瑩