OpenAI推出AI Agent評測基準PaperBench

观点网

2025-04-03 09:01

  • 4月3日,美國開放人工智能研究中心(OpenAI)推出AI Agent評測基準PaperBench,旨在評估AI智能體復現前沿AI研究的能力。該基準要求智能體從零開始復現20篇ICML2024 Spotlight和Oral論文,涵蓋理解論文貢獻、開發代碼庫及成功執行實驗等環節。

    觀點網訊:4月3日,美國開放人工智能研究中心(OpenAI)宣布推出AI Agent評測基準PaperBench。該基準旨在評估AI智能體復現前沿AI研究的能力,要求智能體從零開始復現20篇ICML2024 Spotlight和Oral論文,涵蓋理解論文貢獻、開發代碼庫及成功執行實驗等環節。

    在測試中,表現最佳的智能體Claude3.5Sonnet(新版)結合開源框架,平均復現得分為21.0%。即便招募頂尖機器學習博士嘗試部分測試集,其表現也未超越人類基線。

    免責聲明:本文内容與數據由觀點根據公開信息整理,不構成投資建議,使用前請核實。

    審校:楊曉敏



    相關話題讨論



    你可能感興趣的話題

    AI

    科技