欧美精品99,欧美日韩中文一区二区,久久精品资源,日韩视频一区二区三区在线播放免费观看

登錄
首頁 > 朗逸汽車 > 全球首個科研LLM競技場上線!23款頂尖模型火拼:o3奪冠,DeepSeek第四

全球首個科研LLM競技場上線!23款頂尖模型火拼:o3奪冠,DeepSeek第四

發布時間:2025-07-12 13:26:52 發布用戶: 15210273549

 最近,Ai2耶魯NYU聯合推出了一個科研版「Chatbot Arena」——SciArena。全球23款頂尖大模型火拼真實科研任務,OpenAI o3領跑全場,DeepSeek緊追Gemini擠入前四!不過從結果來看,要猜中科研人的偏好,自動評估系統遠未及格。

如今,用AI大模型輔助寫論文早已成為科研工作者的家常便飯。

ZIPDO 2025教育報告顯示,AI已經無縫融入70%的研究實驗室,并在五年內推動相關科研論文數量增長了150%。

AI在輔助科研的路上一路狂飆,但一個關鍵問題卻長期懸而未解:

「大模型科研能力究竟怎么樣?」

傳統benchmark靜態且片面,難以衡量科研任務所需的上下文理解與推理能力。

為此,Ai2聯合耶魯大學和紐約大學推出了科研界的Chatbot Arena——SciArena,正式開啟科學智能的「擂臺賽」時代!

論文鏈接:https://arxiv.org/pdf/2507.01001

目前,已有23個最前沿的大語言模型登上SciArena的擂臺,涵蓋OpenAI、Anthropic、DeepSeek、Google等巨頭產品。

其中,OpenAI o3斷崖式領先,坐上了科學任務的頭把交椅,在所有科學領域都穩居第一,輸出的論文講解也更有技術含量。

其他模型在不同領域各有千秋:

例如Claude-4-Opus的醫療健康知識很強,而DeepSeek-R1-0528在自然科學表現搶眼。

值得一提的是,SciArena剛發布沒多久就得到了Nature的特別報道,并被盛贊為「解釋大模型知識結構的新窗口」。

下面我們就來看看,評估基礎模型科研能力,SciArena究竟靠譜在哪里?

SciArena:科研AI新「試金石」

SciArena是首個專為科學文獻任務量身定制的大模型「開放式評估平臺」。

在這里,科研人員可以對不同基礎模型處理科學文獻任務的表現進行比較和投票。

團隊引入了Chatbot Arena式的眾包、匿名、雙盲對決機制,用真實科研問題來驗貨大模型。

SciArena專門針對科學探究的復雜性與開放性進行了優化,解決通用基準測試在科研場景中「失效」的問題。

該平臺主要由三大核心組件構成:

  • SciArena平臺: 科研人員在此提交問題,并「同臺對比」查看不同基礎模型的回復,選出自己更偏好的輸出。

  • 排行榜: 平臺采用Elo評分系統對各大模型進行動態排名,從而提供一份實時更新的性能評估報告。

  • SciArena-Eval: 基于SciArena平臺收集的人類偏好數據構建的元評估基準集,其核心目標是檢驗用模型來猜測人類偏好的準確性。

對決背后:評測機制大揭秘

從提問到投票:SciArena評估全流程

SciArena的工作流程包括檢索論文、調用模型回復、用戶評估三個環節。

與通用問答相比,科研問答最大的壁壘在于要以嚴謹的科學文獻為依據。

為了確保檢索信息的質量與相關性,團隊改編了Allen Institute for AI的Scholar QA系統,搭建了一套先進的多階段檢索流水線。

該流水線包含查詢分解、段落檢索和結果重排序等多個步驟。

收到用戶提交的問題后,平臺啟用流水線,檢索相關的科學論文作為上下文。

隨后,平臺把上下文和用戶的問題合在一起,同時發送給兩個隨機選擇的基礎模型。

兩個模型各自生成內容詳實、附帶標準引文的長篇回復。

平臺會統一處理兩份回復,變成格式一致的標準化純文本,以免用戶「認出」模型的回答風格。

最后,用戶對這兩個純文本輸出進行評估,并投票選出自己偏好的答案。

值得注意的是,SciArena的注意力主要集中于可橫向評估的「通用基礎模型」。

至于OpenAI Deep Research等定制型智能體或閉源研究系統,則不在平臺的考慮范疇內。

102位專家,13000票

要想評測準,數據必須信得過。

SciArena團隊對數據的把關嚴格得令人發指。

在平臺上線的前四個月里,他們收集了不同科研領域的102位專家的13000多次投票。

這102位專家絕非隨意參與的路人,而是科研一線的在讀研究生,人均手握兩篇以上論文。

而且,所有的標注員都接受了一小時的線上培訓,確保評價標準一致。

再加上盲評盲選機制,SciArena的每一條評估結果都有據可依。

在SciArena的高標準和嚴要求下,平臺的標注數據自我一致性極高(加權科恩系數κ=0.91),標注者間一致性也達到了較高水平(κ=0.76)。

這13000多次投票為SciArena平臺打下了值得信賴的評估基礎。

最強AI,猜不透科研人的心

在SciArena平臺上,研究團隊基于元評估基本集SciArena-Eval,測試了「模型評模型」的自動評估方法:

給一個評估模型一條科研問題和兩個模型的回答,讓它猜哪個更可能被人類選中。

結果很扎心。

哪怕是表現最好的o3模型,準確率也只有65.1%,而像Gemini-2.5-Flash和LLaMA-4系列,幾乎跟「擲硬幣選答案」的準確率差不多。

對比一下通用領域,像AlpacaEval、WildChat這些基準的評估模型,準確率都能跑到70%以上,相比之下,科研任務顯得難多了。

看來,「讓模型理解科研人的偏好」并非易事。

不過也不是全無亮點。

加入了推理能力的模型,在判斷答案優劣上普遍表現更好。

例如,o4-mini比GPT-4.1高出 2.9%,DeepSeek-R1也小勝自家模型DeepSeek-V3。

這說明,會推理的AI更懂科研問題的本質。

研究團隊表示,SciArena-Eval未來有望成為科研AI評估的「新標準」。

它能幫我們看清AI到底有沒有真正「讀懂」科研人的心思。

Copyright 2019-2026 微推堂 版權所有  京ICP備2019123967號
欧美精品99,欧美日韩中文一区二区,久久精品资源,日韩视频一区二区三区在线播放免费观看
亚洲黄页一区| 91看片一区| 99成人在线| 亚洲高清影视| 日韩亚洲精品在线| 日韩不卡在线| 激情亚洲影院在线观看| 日本黄色精品| 成午夜精品一区二区三区软件| 麻豆免费精品视频| 国内在线观看一区二区三区| 亚洲黄色中文字幕| 久久一区二区中文字幕| 老司机精品久久| 日韩欧美中文在线观看| 国产精品免费大片| 成人综合一区| 久久国产影院| 国模 一区 二区 三区| 国产美女一区| 伊人国产精品| 欧美日韩国产一区二区在线观看| 国产欧美综合一区二区三区| 久久永久免费| 成人看片网站| 欧美特黄一级| 日韩中文字幕一区二区高清99| 欧美在线不卡| 精品视频网站| 91精品亚洲| 老司机精品久久| 欧美日韩亚洲一区二区三区在线| 久久99精品久久久久久园产越南 | 国产综合精品| 日韩制服丝袜先锋影音| 国产精品资源| 久久久精品五月天| 日韩专区在线视频| 久久av影视| 亚洲午夜久久久久久尤物| 午夜性色一区二区三区免费视频| 老鸭窝一区二区久久精品| 日韩精品永久网址| 中文一区一区三区免费在线观| 国产激情欧美| 欧美在线资源| 国产精品成人国产| 欧美天堂视频| 老牛国产精品一区的观看方式| 久久精品国产99| 欧美午夜不卡| 欧美激情aⅴ一区二区三区 | 日韩国产欧美一区二区三区| 狠狠久久伊人中文字幕| 国产精品嫩草99av在线| 国产精品66| 亚洲一区国产一区| 久久久久伊人| 亚洲欧美不卡| 久久男人av| 免费成人在线影院| 欧美xxxx中国| 日韩一区免费| 久久亚洲专区| 国产美女撒尿一区二区| 欧美在线亚洲| 色欧美自拍视频| 欧美日韩xxxx| 狠狠久久婷婷| 国产成人久久精品麻豆二区 | 欧美+日本+国产+在线a∨观看| 日韩欧美中文字幕电影| 国产一区日韩一区| 国产精品主播| 日韩精品一卡二卡三卡四卡无卡| 深夜福利视频一区二区| 日韩午夜视频在线| 久久国产亚洲| 国产中文字幕一区二区三区| 日本免费一区二区视频| 亚洲免费成人| 成人看片网站| 国产aⅴ精品一区二区三区久久| 亚洲91网站| 91精品综合| 国内精品亚洲| 欧美色综合网| 亚洲免费成人av在线| 久久精品91| 国产一区一一区高清不卡| 欧美在线看片| 免费人成在线不卡| 狠狠操综合网| 欧美片第1页| 国产精品国产三级国产在线观看| 日本少妇一区二区| 亚洲人成网站在线在线观看| 红桃视频欧美| 亚洲午夜视频| 91精品一区国产高清在线gif| 免费亚洲一区| 国产日韩欧美一区| 日韩动漫一区| 中文字幕日本一区二区| 国产视频亚洲| 亚洲欧洲日本mm| 婷婷激情综合| 国产一区二区三区自拍| 国产精品av一区二区| 婷婷激情久久| 婷婷综合在线| 免费视频一区三区| 国产亚洲一区二区手机在线观看| 老牛国内精品亚洲成av人片 | 97精品一区| 精品中文在线| 卡一卡二国产精品| 国产精品视频首页| 国产精品手机在线播放| 国产欧美啪啪| 国产日产一区| 国产亚洲精aa在线看| 欧美视频久久| 国产精品66| 国产一区精品福利| 国产美女高潮在线| 日韩av福利| 美女av在线免费看| 精品捆绑调教一区二区三区| 久久国产成人午夜av影院宅| 国产字幕视频一区二区| 国产99精品| 亚洲综合丁香| 亚洲免费专区| 国产精品最新自拍| 精品国产不卡| 亚洲一级少妇| 欧美特黄一区| 亚洲不卡视频| 欧美aaaaaa午夜精品| 高清av一区| 国产99亚洲| 石原莉奈一区二区三区在线观看| 亚洲a级精品| 精品资源在线| 久久久影院免费| 亚洲激情婷婷| 日韩和欧美一区二区| 久久爱www.| 精品捆绑调教一区二区三区| 午夜精品婷婷| 日韩精品三区四区| 久久精品国产精品亚洲毛片| 色婷婷狠狠五月综合天色拍| 99视频精品免费观看| 玖玖玖国产精品| 国产精品久久久网站| 高清av不卡| 亚洲在线免费| 国产精品亚洲二区| 日韩精品一区二区三区免费观看| 亚洲大片在线| 亚洲精品乱码日韩| 麻豆精品久久久| 亚洲午夜久久久久久尤物| 色婷婷成人网| 美女国产一区二区三区| 亚洲福利免费| 91精品国产自产在线丝袜啪| 国产福利91精品一区二区| 欧美精品一二| 日韩精品五月天| 美女av在线免费看| 丝袜美腿高跟呻吟高潮一区| 国产精品亚洲一区二区在线观看| 欧美男人天堂| 中文视频一区| 色婷婷亚洲mv天堂mv在影片| 亚洲永久字幕| 美日韩一区二区三区| 免费精品国产的网站免费观看| 日本少妇精品亚洲第一区| 日韩国产网站| 四虎国产精品免费久久| 国产日韩电影| 亚洲aa在线| 亚洲a一区二区三区| 日韩一区二区三区在线看| 成人亚洲欧美| 91欧美日韩在线| 欧美特黄一区| 欧美交a欧美精品喷水| 欧美精品一卡| 久久精品一区二区国产| 一区二区精彩视频| 婷婷激情一区| 国产精品美女午夜爽爽| 亚洲一区二区三区四区五区午夜 | 精品亚洲免a| 六月婷婷一区|