5月26日,紅杉中國對外宣布推出一款全新的AI基準測試工具xbench,并發(fā)布了一篇解釋其工作原理的論文。這一突破性進展標志著自2022年ChatGPT引爆通用人工智能(AGI)賽道以來,投資機構首次主導發(fā)布基準測試(Benchmark),給當下火爆的AI投資又加了一把火,在業(yè)內(nèi)也受到廣泛關注。
過去兩年多,AI Benchmark漸漸成為評估基礎大模型和AI Agent(AI 智能體)能力的通用工具,海內(nèi)外高校、研究機構和AI公司推出了大量不同維度的測試體系。隨著基礎模型的快速發(fā)展和AI Agent進入規(guī)?;瘧秒A段,被廣泛使用的基準測試卻面臨一個日益尖銳的問題:想要真實地反映AI的客觀能力正變得越來越困難。
基于以上需求,根據(jù)紅杉中國的介紹,xbench采用雙軌評估體系,構建多維度測評數(shù)據(jù)集,旨在同時追蹤模型的理論能力上限與Agent的實際落地價值。該體系創(chuàng)新性地將評測任務分為兩條互補的主線:(1)評估AI系統(tǒng)的能力上限與技術邊界;(2)量化AI系統(tǒng)在真實場景的效用價值(Utility Value)。其中,后者需要動態(tài)對齊現(xiàn)實世界的應用需求,基于實際工作流程和具體社會角色,為各垂直領域構建具有明確業(yè)務價值的測評標準。
此外,值得注意的是,xbench采用長青評估(Evergreen Evaluation)機制,通過持續(xù)維護并動態(tài)更新測試內(nèi)容,以確保時效性和相關性。紅杉中國將定期測評市場主流Agent產(chǎn)品,跟蹤模型能力演進,捕捉Agent產(chǎn)品迭代過程中的關鍵突破,進而預測下一個Agent應用的技術—市場契合點(TMF,Tech—Market Fit)。作為獨立第三方,紅杉中國致力于為每類產(chǎn)品設計公允的評估環(huán)境,提供客觀且可復現(xiàn)的評價結果。
證券時報記者了解到,首期發(fā)布的xbench包含兩個核心評估集:科學問題解答測評集(xbench—ScienceQA)與中文互聯(lián)網(wǎng)深度搜索測評集(xbench—DeepSearch),并對該領域主要產(chǎn)品進行了綜合排名。同期提出了垂直領域智能體的評測方法論,并構建了面向招聘(Recruitment)和營銷(Marketing)領域的垂類Agent評測框架。評測結果和方法論可通過xbench.org網(wǎng)站實時查看。
紅杉中國表示:xbench歡迎社區(qū)共建。對于基礎模型與Agent開發(fā)者,可以使用最新版本的xbench評測集來第一時間驗證其產(chǎn)品效果,得到內(nèi)部黑盒評估集得分;對于垂類Agent開發(fā)者、相關領域的專業(yè)和企業(yè),歡迎與xbench共建與發(fā)布特定行業(yè)垂類標準的Profession Aligned xbench;對于從事AI評測研究,具有明確研究想法的研究者,希望獲取專業(yè)標注并長期維護評估更新,xbench可以幫助AI評估研究想法落地并產(chǎn)生長期影響力。
有業(yè)內(nèi)人士分析,紅杉中國這一領先的舉動,更能凸顯出當下投資機構全面擁抱AI的決心,而且在過去兩年多的時間里,xbench一直是紅杉中國在內(nèi)部使用的跟蹤和評估基礎模型能力的工具,將這一“創(chuàng)投行業(yè)智能體”工具開源,并不斷在探求和推動AI技術上限的過程中尋找商業(yè)化落地的機會,給整個行業(yè)帶來新的變革。
此前有投資人曾表示,目前在美國一級市場,對AI產(chǎn)業(yè)鏈尤其是以AI智能體為代表的AI應用側的投資占絕對主導地位,而中國市場不同于美國,AI產(chǎn)業(yè)生態(tài)投資中硬件和軟件相對比較平衡,硬件領域的投資相對更符合中國資本市場鼓勵的方向,包括以算力生態(tài)為代表的進口替代硬件底座、自動駕駛,以及具身智能為代表的各類AI硬件和行業(yè)應用等。
而事實上,AI智能體也受到國內(nèi)很多機構的關注。以紅杉為LP的北京某AI垂直方向早期投資機構的負責人就透露,今年AI賽道呈現(xiàn)出大模型從科研模型向產(chǎn)業(yè)模型轉變,基礎的算法算力向?qū)嶋H的應用邁進,AI編程(AI Coding)、AI智能體(AI Agent)和AI硬件將是今年三個爆發(fā)的應用點。
中信建投研報稱,近期大廠密集更新Agent產(chǎn)品,微軟力求通過本地+云端協(xié)同構建Agent網(wǎng)絡;谷歌基于現(xiàn)有生態(tài)打造2C Agent 3P戰(zhàn)略;Anthropic則發(fā)布Claude 4模型,輔助Agent構建。國內(nèi)廠商亦同步跟進,金蝶國際打造蒼穹Agent平臺2.0和五大智能體助力企業(yè)AI管理;昆侖萬維通過天工超級智能體帶來高效辦公體驗。隨著Agent產(chǎn)品加速落地,AI產(chǎn)業(yè)持續(xù)向上,商業(yè)化落地節(jié)奏有望加快,Agent產(chǎn)品密集更新,利好有數(shù)據(jù)、有客戶、有場景的軟件企業(yè),AI產(chǎn)品有望帶動公司ARPU提升和項目單價上升;此外,模型私有化需求增加,利好一體機、超融合和B端服務外包企業(yè)。
校對:高源