OpenAI最新模型o3展現(xiàn)強(qiáng)大推理能力

2024-12-26 13:01:55來源：科技日報

12月20日，美國開放人工智能研究中心(OpenAI)介紹了其最新的人工智能(AI)推理模型——o3及其輕量版o3-mini。該公司宣稱，o3具備更先進(jìn)、近似人類的推理能力，在代碼編寫、數(shù)學(xué)競賽和掌握人類博士級別的科學(xué)知識等方面，均超越了其“前輩”o1。

不過，英國《新科學(xué)家》網(wǎng)站在12月22日的報道中指出，盡管o3“實(shí)現(xiàn)了令人矚目的性能飛躍”，但仍未達(dá)到業(yè)內(nèi)翹首以盼的通用AI(AGI)水平。

多方面表現(xiàn)出色

OpenAI公司透露，在解決更復(fù)雜的多步驟問題時，o3模型會花更多時間計算答案，然后再給出回應(yīng)。這一推理能力的提升，使o3在多項測試中表現(xiàn)出色。

大型語言模型熱衷于在各種數(shù)學(xué)基準(zhǔn)測試上瘋狂“刷分”，o3也不例外。在2024年美國數(shù)學(xué)邀請賽中，o3模型的準(zhǔn)確率高達(dá)96.7%，僅答錯了一個問題。而在OpenAI研究人員認(rèn)為最嚴(yán)格的基準(zhǔn)測試之一——Frontier Math中，o3也解決了25.2%的問題。盡管這一得分看似不高，但此前其他大型語言模型曾在此“集體翻車”，正確率均未超過2%。

Frontier Math測試難度極大，曾被華裔數(shù)學(xué)家、菲爾茲獎得主陶哲軒評價為“可能會難住AI好幾年”。然而，o3只需思考幾分鐘便能解答其中一道題目，而人類數(shù)學(xué)家則要花費(fèi)數(shù)小時到數(shù)天。

在對科學(xué)知識的掌握方面，o3的表現(xiàn)也超出一般博士水平。在GPQA Diamond(衡量模型在博士級科學(xué)問題上的表現(xiàn)，涵蓋化學(xué)、物理和生物學(xué)方面的專業(yè)知識)基準(zhǔn)測試中，o3的準(zhǔn)確率達(dá)到87.7%，超過了人類博士的70%，也比之前o1表現(xiàn)高近10%。

此外，o3的編碼能力也比之前的o1系列更勝一籌。在 SWE-bench Verified(衡量AI模型解決現(xiàn)實(shí)世界軟件問題的能力)基準(zhǔn)上，o3的準(zhǔn)確率約為71.7%，比o1高20%以上。在Codeforces編碼競賽平臺中，o3的得分為2727，相當(dāng)于榜單上第175名人類編程員的水平，而o1得分僅為1891。

在展示了o3取得的這些傲人成績后，OpenAI首席執(zhí)行官奧爾特曼強(qiáng)調(diào)，o3的出現(xiàn)標(biāo)志著AI進(jìn)入了下一個發(fā)展階段，這些模型可處理需要大量推理的復(fù)雜任務(wù)。

與人類智能仍有差異

《新科學(xué)家》網(wǎng)站還報道，在被視為AGI重要衡量標(biāo)準(zhǔn)的抽象與推理語料庫-AGI(ARC-AGI)大賽中，o3模型也創(chuàng)下新紀(jì)錄：在低算力配置下，它以75.7%的得分登上公共排行榜前列。只因確定此項大獎得主的測試具有更嚴(yán)格的算力限制，在該算力限制下，o3的挑戰(zhàn)以失敗告終。

不過，在超出官方算力限制172倍的高算力下，o3采用“蠻力”取得了87.5%的成績，達(dá)到了代表人類水平的85%門檻。

對于o3的表現(xiàn)，谷歌前工程師、ARC-AGI主要創(chuàng)建者弗朗索瓦·肖萊在博客中寫道，這是AI能力的一次驚人且重要的躍升。但o3尚未實(shí)現(xiàn)AGI，因為其仍然無法解決ARC-AGI比賽中一些非常簡單的問題，這表明其與人類智能存在根本差異。

AGI是一個假想中的未來系統(tǒng)，它能夠模仿人類思維、決策，擁有自我意識，并能自主行動。然而，AGI目前主要活躍在科幻作品中，尚未走進(jìn)現(xiàn)實(shí)。

升級迭代并非易事

o3不僅是OpenAI公司的最新力作，也是AI巨頭競逐大型語言模型的生動寫照。

兩年前，OpenAI發(fā)布了ChatGPT，由此拉開了AI軍備競賽的序幕。從GPT-3.5到更準(zhǔn)確、更具創(chuàng)造性的GPT-4，再到o1，直至o3，OpenAI在不斷精進(jìn)自家產(chǎn)品。

其他頂級AI開發(fā)商也在利用日益先進(jìn)的技術(shù)，推動自家產(chǎn)品迭代升級。此前不久，谷歌推出了其旗艦?zāi)Ｐ?ldquo;雙子座”(Gemini)的新版本，據(jù)稱其速度是上一代的兩倍，并且能夠“思考、記憶、規(guī)劃，甚至替代用戶采取行動”。元宇宙平臺公司計劃明年推出Llama 4。

然而，迭代之路并非坦途。包括OpenAI和谷歌在內(nèi)的幾家領(lǐng)軍企業(yè)，正面臨新模型開發(fā)耗資巨大但回報遞減的困境。OpenAI的GPT-5模型開發(fā)工作進(jìn)展緩慢。據(jù)悉，僅6個月的訓(xùn)練，單計算成本就高達(dá)約5億美元，而性能僅比該公司現(xiàn)有產(chǎn)品略勝一籌。

關(guān)鍵詞：

責(zé)任編輯：孫知兵

免責(zé)聲明：本文僅代表作者個人觀點(diǎn)，與太平洋財富網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實(shí)相關(guān)內(nèi)容。
如有問題，請聯(lián)系我們！

OpenAI最新模型o3展現(xiàn)強(qiáng)大推理能力2024-12-26
把握中國市場開放機(jī)遇——訪保加利亞商工會2024-12-26
央行：將開展35億元央行票據(jù)互換（CBS）操作2024-12-26
新成果涌現(xiàn)、制造業(yè)成績亮眼細(xì)數(shù)中國工業(yè)2024-12-26
12月26日人民幣對美元中間價報7.1897元下2024-12-26
12月26日央行開展1063億元7天期逆回購操作2024-12-26
事關(guān)你我日常生活！我國增值稅迎來立法這2024-12-26
海南省首個海上風(fēng)電項目具備并網(wǎng)發(fā)電條件2024-12-26
入關(guān)日期竟早于生產(chǎn)日期，溯源碼還能信嗎？2024-12-26
三星財產(chǎn)保險：騰訊加持，開啟品質(zhì)醫(yī)療保障2024-12-26
A股上市公司分紅總額創(chuàng)歷史新高投資者將2024-12-26
我國新能源汽車高寒適應(yīng)性如何？來看最新測2024-12-26
安徽馬鞍山造的“工業(yè)大米”何以賣向全球？2024-12-26
天津東郊“光伏+污水廠”并網(wǎng)發(fā)電四廠綠2024-12-26
山西21部門聯(lián)合出臺指導(dǎo)意見打造“古韻新2024-12-26
11月廣東民用無人機(jī)產(chǎn)量同比增長近1.4倍2024-12-26
電商西進(jìn)背后：拼多多與那些被忽略的愛與自2024-12-26
曲智星年會：2025目標(biāo)十億，全面向科技公司2024-12-26
ACROBiosystems百普賽斯GMP工廠獲ISO 90012024-12-26
京東企業(yè)購上線黃金水餃集齊12枚生肖金2024-12-26
探訪海底撈央廚：“300目”超細(xì)粉碎研磨，2024-12-26
創(chuàng)業(yè)分享丨曼孚創(chuàng)始人趙劍：回歸商業(yè)本質(zhì)，2024-12-26
祖龍娛樂二度榮膺 “最佳 TMT 公司”，2024-12-26
踐行服務(wù)“新理念” 構(gòu)建審批“新生態(tài)”—2024-12-26
政策賦能YOUMAGIC?的創(chuàng)新與產(chǎn)業(yè)協(xié)同，沉淀2024-12-26
燕莢專業(yè)幫助兒童健脾養(yǎng)胃效果顯著,家長愁2024-12-25
從資管賽道王者到交易、資管全面發(fā)展，Matr2024-12-25
推動大模型應(yīng)用場景落地，2024人工智能大模2024-12-25
張興海、余承東做客央視直播間講述問界成2024-12-25
新能源汽車強(qiáng)勢崛起引領(lǐng)創(chuàng)新潮流2024-12-25

精彩推薦

小黃象攜手中國國家U18冰球隊，以熱愛書寫冰雪傳奇

閱讀排行

把握中國市場開放機(jī)遇——訪保加利亞商工會主席茨維坦·西美昂諾夫
上一篇2024-12-26 12:58:21

關(guān)于我們　-　聯(lián)系方式　-　版權(quán)聲明　-　招聘信息　-　友鏈交換　-　網(wǎng)站統(tǒng)計

未經(jīng)過本站允許請勿將本站內(nèi)容傳播或復(fù)制業(yè)務(wù)QQ：3 31 986 683

www.第四色,熟女少妇色综合图区,日本sm/羞辱/调教/捆绑视频,网站国产,亚洲国产成人久久综合一区77

OpenAI最新模型o3展現(xiàn)強(qiáng)大推理能力

精彩推薦

小黃象攜手中國國家U18冰球隊，以熱愛書寫冰雪傳奇

閱讀排行

推薦閱讀