等一下我老公呢杨幂视频,章子怡最大床战视频,护花使者泳装美女视频

亚洲小说图片区综合在线,日本公厕撒尿高清视频,国产又黄又湿又刺激网站,少妇自慰毛多水多

紅杉中國大動作！發(fā)布全新AI基準測試工具xbench，意義幾何？

來源：證券時報網(wǎng)作者：李明珠2025-05-26 20:47

5月26日，紅杉中國對外宣布推出一款全新的AI基準測試工具xbench，并發(fā)布了一篇解釋其工作原理的論文。這一突破性進展標志著自2022年ChatGPT引爆通用人工智能（AGI）賽道以來，投資機構首次主導發(fā)布基準測試（Benchmark），給當下火爆的AI投資又加了一把火，在業(yè)內(nèi)也受到廣泛關注。

過去兩年多，AI Benchmark漸漸成為評估基礎大模型和AI Agent（AI 智能體）能力的通用工具，海內(nèi)外高校、研究機構和AI公司推出了大量不同維度的測試體系。隨著基礎模型的快速發(fā)展和AI Agent進入規(guī)?；瘧秒A段，被廣泛使用的基準測試卻面臨一個日益尖銳的問題：想要真實地反映AI的客觀能力正變得越來越困難。

基于以上需求，根據(jù)紅杉中國的介紹，xbench采用雙軌評估體系，構建多維度測評數(shù)據(jù)集，旨在同時追蹤模型的理論能力上限與Agent的實際落地價值。該體系創(chuàng)新性地將評測任務分為兩條互補的主線：（1）評估AI系統(tǒng)的能力上限與技術邊界；（2）量化AI系統(tǒng)在真實場景的效用價值（Utility Value）。其中，后者需要動態(tài)對齊現(xiàn)實世界的應用需求，基于實際工作流程和具體社會角色，為各垂直領域構建具有明確業(yè)務價值的測評標準。

此外，值得注意的是，xbench采用長青評估（Evergreen Evaluation）機制，通過持續(xù)維護并動態(tài)更新測試內(nèi)容，以確保時效性和相關性。紅杉中國將定期測評市場主流Agent產(chǎn)品，跟蹤模型能力演進，捕捉Agent產(chǎn)品迭代過程中的關鍵突破，進而預測下一個Agent應用的技術—市場契合點（TMF，Tech—Market Fit）。作為獨立第三方，紅杉中國致力于為每類產(chǎn)品設計公允的評估環(huán)境，提供客觀且可復現(xiàn)的評價結果。

證券時報記者了解到，首期發(fā)布的xbench包含兩個核心評估集：科學問題解答測評集（xbench—ScienceQA）與中文互聯(lián)網(wǎng)深度搜索測評集（xbench—DeepSearch），并對該領域主要產(chǎn)品進行了綜合排名。同期提出了垂直領域智能體的評測方法論，并構建了面向招聘（Recruitment）和營銷（Marketing）領域的垂類Agent評測框架。評測結果和方法論可通過xbench.org網(wǎng)站實時查看。

紅杉中國表示：xbench歡迎社區(qū)共建。對于基礎模型與Agent開發(fā)者，可以使用最新版本的xbench評測集來第一時間驗證其產(chǎn)品效果，得到內(nèi)部黑盒評估集得分；對于垂類Agent開發(fā)者、相關領域的專業(yè)和企業(yè)，歡迎與xbench共建與發(fā)布特定行業(yè)垂類標準的Profession Aligned xbench；對于從事AI評測研究，具有明確研究想法的研究者，希望獲取專業(yè)標注并長期維護評估更新，xbench可以幫助AI評估研究想法落地并產(chǎn)生長期影響力。

有業(yè)內(nèi)人士分析，紅杉中國這一領先的舉動，更能凸顯出當下投資機構全面擁抱AI的決心，而且在過去兩年多的時間里，xbench一直是紅杉中國在內(nèi)部使用的跟蹤和評估基礎模型能力的工具，將這一“創(chuàng)投行業(yè)智能體”工具開源，并不斷在探求和推動AI技術上限的過程中尋找商業(yè)化落地的機會，給整個行業(yè)帶來新的變革。

此前有投資人曾表示，目前在美國一級市場，對AI產(chǎn)業(yè)鏈尤其是以AI智能體為代表的AI應用側的投資占絕對主導地位，而中國市場不同于美國，AI產(chǎn)業(yè)生態(tài)投資中硬件和軟件相對比較平衡，硬件領域的投資相對更符合中國資本市場鼓勵的方向，包括以算力生態(tài)為代表的進口替代硬件底座、自動駕駛，以及具身智能為代表的各類AI硬件和行業(yè)應用等。

而事實上，AI智能體也受到國內(nèi)很多機構的關注。以紅杉為LP的北京某AI垂直方向早期投資機構的負責人就透露，今年AI賽道呈現(xiàn)出大模型從科研模型向產(chǎn)業(yè)模型轉變，基礎的算法算力向?qū)嶋H的應用邁進，AI編程（AI Coding）、AI智能體（AI Agent）和AI硬件將是今年三個爆發(fā)的應用點。

中信建投研報稱，近期大廠密集更新Agent產(chǎn)品，微軟力求通過本地+云端協(xié)同構建Agent網(wǎng)絡；谷歌基于現(xiàn)有生態(tài)打造2C Agent 3P戰(zhàn)略；Anthropic則發(fā)布Claude 4模型，輔助Agent構建。國內(nèi)廠商亦同步跟進，金蝶國際打造蒼穹Agent平臺2.0和五大智能體助力企業(yè)AI管理；昆侖萬維通過天工超級智能體帶來高效辦公體驗。隨著Agent產(chǎn)品加速落地，AI產(chǎn)業(yè)持續(xù)向上，商業(yè)化落地節(jié)奏有望加快，Agent產(chǎn)品密集更新，利好有數(shù)據(jù)、有客戶、有場景的軟件企業(yè)，AI產(chǎn)品有望帶動公司ARPU提升和項目單價上升；此外，模型私有化需求增加，利好一體機、超融合和B端服務外包企業(yè)。