www.第四色,熟女少妇色综合图区,日本sm/羞辱/调教/捆绑视频,网站国产,亚洲国产成人久久综合一区77

榮登榜首!科大訊飛刷新機(jī)器常識推理水平世界紀(jì)錄

2022-04-14 17:22:36來源:科大訊飛官微

4月12日,由科大訊飛(002230)承建的我國首個認(rèn)知智能國家重點實驗室,以76.06%的成績登頂常識推理挑戰(zhàn)賽CommonsenseQA 2.0,刷新世界紀(jì)錄,在讓機(jī)器“能理解、會思考”上邁出一大步!

CommonsenseQA 2.0是艾倫人工智能研究院(Allen Institute for AI)于2021年主導(dǎo)發(fā)布的國際常識推理評測數(shù)據(jù)集,旨在評估機(jī)器對常識知識的理解及掌握水平,吸引了包括Google、Allen Institute for AI、華盛頓大學(xué)等眾多國際頂尖機(jī)構(gòu)參與挑戰(zhàn)。 科大訊飛首次參賽,即創(chuàng)新性地提出ACROSS模型,以全新深度學(xué)習(xí)算法絕對優(yōu)勢,刷新機(jī)器常識推理水平世界紀(jì)錄。

從做“選擇題”到做“判斷題”

機(jī)器學(xué)會常識推理有多難?

常識推理(Commonsense Reasoning)是 NLP 最重要的前進(jìn)方向之一,其目的是幫助計算機(jī)學(xué)習(xí)常識知識,并利用所掌握的知識進(jìn)行深層次的理解及推理。該領(lǐng)域的進(jìn)展及技術(shù)突破對人工智能發(fā)展具有重要的意義。

當(dāng)前典型的閱讀理解模型所關(guān)注的問題類型主要是事實類問題,這類型的問題答案往往能直接在原文中找到,然而如何基于常識和背景知識進(jìn)行推理以獲得答案仍舊是一個巨大的挑戰(zhàn)。CommonsenseQA正是為了訓(xùn)練機(jī)器像人類一樣基于先驗知識結(jié)合現(xiàn)實情況作答能力而設(shè)置的數(shù)據(jù)集。 當(dāng)人們回答問題時,往往會利用自身了解的知識結(jié)合特定的背景來判斷問題答案,比如常識、背景知識、空間關(guān)系、科學(xué)事實、社會慣例等。

CommonsenseQA 1.0任務(wù)示例

如上圖任務(wù)示例中的第一個問題,“我可以站在河上的什么地方看水流而不會弄濕自己?”可以從選擇項中推斷我是在橋上。這種知識對人類而言似乎很好理解,但是如何讓機(jī)器學(xué)會常識及背景知識并進(jìn)行準(zhǔn)確推理,仍然是一個巨大的挑戰(zhàn)。

CommonsenseQA 2.0是一個二元分類數(shù)據(jù)集,包含14343個問題,主要分為訓(xùn)練/開發(fā)/測試集,需要判斷常識性陳述是對還是錯。1.0版本所考察的問題,是基于現(xiàn)有常識知識庫ConceptNet中的知識三元組構(gòu)建的,這使得機(jī)器在處理該任務(wù)時,有能直接聚焦參考的知識。相比較1.0的“選擇題”,2.0“判斷題”挑戰(zhàn)難度更高,僅給定一個主題實體或概念、一個常識類關(guān)系(且關(guān)系不一定在現(xiàn)有知識庫出現(xiàn)),讓人類以自然語言的方式去構(gòu)造機(jī)器較難掌握的常識知識。

該構(gòu)造方法所構(gòu)造的常識推理問題具有龐大的想象空間,大部分在當(dāng)前知識庫中并未覆蓋,無疑顯著增加了機(jī)器處理該類問題的難度。同時,該評測任務(wù)數(shù)據(jù)構(gòu)造過程中,還通過人與機(jī)器不斷博弈對抗的方式,不斷迭代設(shè)計,最終確定的問題集合基本是當(dāng)前主流算法都完成得不好的問題。

CommonsenseQA 2.0任務(wù)問題示例

CommonsenseQA 2.0任務(wù)所覆蓋的常識問題類型示例

目前以科大訊飛為代表的中國人工智能力量在常識推理領(lǐng)域中已有很大的進(jìn)步,但是仍遠(yuǎn)低于人類94.1%的水平,可見在常識性推理方向仍有很大挑戰(zhàn)和進(jìn)步空間。

科大訊飛提出ACROSS創(chuàng)新方法破解難題

在CommonsenseQA 2.0這項頗具挑戰(zhàn)的常識推理評測任務(wù)上,業(yè)界主流的中等大小預(yù)訓(xùn)練模型方法也只能取得55%的水平,略高于隨機(jī)猜測平均水平。此前國際上該任務(wù)的最優(yōu)方法,通過1750億級參數(shù)量大小的GPT3模型生成針對CommonsenseQA 2.0常識推理問題的相關(guān)知識,并基于T5模型進(jìn)行融合處理,該方法取得了73%的準(zhǔn)確率。

本次由科大訊飛承建的認(rèn)知智能國家重點實驗室團(tuán)隊創(chuàng)新提出的面向常識知識推理的ACROSS(Automatic Commonsense Reasoning on Semantic Spaces)模型, 是繼2016年科大訊飛提出神經(jīng)聯(lián)想模型NAM(Neural Association Model),并取得Winograd Schema Challenge冠軍后的又一力作。

該模型實現(xiàn)了統(tǒng)一語義空間下外部知識的有效融合,顯著改進(jìn)了超大規(guī)模預(yù)訓(xùn)練模型所存在的問題, 在CommonsenseQA 2.0任務(wù)上取得76%的準(zhǔn)確率。

該評測的常識推理問題,不論在ConceptNet等知識庫,或者互聯(lián)網(wǎng)上,都較難找到直接的答案。從人類進(jìn)行常識知識運(yùn)用及推理的習(xí)慣出發(fā),對于一個復(fù)雜的問題,首先需要查閱相關(guān)知識庫或典籍,其次會借助互聯(lián)網(wǎng)搜索去查找相關(guān)信息。ACROSS模型正是借鑒該思路,充分收集知識庫、互聯(lián)網(wǎng)相關(guān)信息,在統(tǒng)一的語義空間中進(jìn)行融合處理,最后賦予超大規(guī)模預(yù)訓(xùn)練模型更強(qiáng)的知識輸入,實現(xiàn)準(zhǔn)確的常識知識推理。 該方法結(jié)果也一定程度上證明了機(jī)器已初步具備對于各類復(fù)雜文本信息及知識的深入理解及運(yùn)用能力。

我國在常識推理領(lǐng)域的技術(shù)攻堅還在繼續(xù)。人工智能技術(shù)的下一步發(fā)展,必須要突破常識推理這一瓶頸,才能在教育、醫(yī)療、養(yǎng)老等國計民生場景中,讓人工智能產(chǎn)品更具備實用價值。“讓機(jī)器能聽會說、能理解會思考”是清晰可預(yù)見的未來,科大訊飛求索未止。

關(guān)鍵詞: 世界紀(jì)錄 常識推理 科大訊飛

責(zé)任編輯:孫知兵

免責(zé)聲明:本文僅代表作者個人觀點,與太平洋財富網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。
如有問題,請聯(lián)系我們!

關(guān)于我們 - 聯(lián)系方式 - 版權(quán)聲明 - 招聘信息 - 友鏈交換 - 網(wǎng)站統(tǒng)計
 

太平洋財富主辦 版權(quán)所有:太平洋財富網(wǎng)

?中國互聯(lián)網(wǎng)違法和不良信息舉報中心中國互聯(lián)網(wǎng)違法和不良信息舉報中心

Copyright© 2012-2020 太平洋財富網(wǎng)(yuef.cn) All rights reserved.

未經(jīng)過本站允許 請勿將本站內(nèi)容傳播或復(fù)制 業(yè)務(wù)QQ:3 31 986 683