OpenAI推出AI Agent評測基準PaperBench

观点网 •

2025-04-03 09:01

4月3日，美國開放人工智能研究中心（OpenAI）推出AI Agent評測基準PaperBench，旨在評估AI智能體復現前沿AI研究的能力。該基準要求智能體從零開始復現20篇ICML2024 Spotlight和Oral論文，涵蓋理解論文貢獻、開發代碼庫及成功執行實驗等環節。

觀點網訊：4月3日，美國開放人工智能研究中心（OpenAI）宣布推出AI Agent評測基準PaperBench。該基準旨在評估AI智能體復現前沿AI研究的能力，要求智能體從零開始復現20篇ICML2024 Spotlight和Oral論文，涵蓋理解論文貢獻、開發代碼庫及成功執行實驗等環節。

在測試中，表現最佳的智能體Claude3.5Sonnet（新版）結合開源框架，平均復現得分為21.0%。即便招募頂尖機器學習博士嘗試部分測試集，其表現也未超越人類基線。

免責聲明：本文内容與數據由觀點根據公開信息整理，不構成投資建議，使用前請核實。

審校：楊曉敏

致信編輯打印

相關話題讨論

我要提問...

全時數據

專欄在線投稿+

楊光華：關稅大戰如何影響樓市？楊光華

王韶：夜遊拙政園，夜經濟下别樣...王韶

夏磊：一線城市房地産市場怎麼走夏磊

馮毅成解讀全國兩會《政府工作報...馮毅成