Navuka i technałohii1717

«Apošni ekzamien čałaviectva». Dla niejrasietak stvaryli maksimalna składany akademičny test — i voś jaki vynik

Prafiesary, navukoŭcy, a taksama vybitnyja vypuskniki i studenty z amal 500 prestyžnych adukacyjnych ustanovaŭ pa ŭsim śviecie vyrašyli dać apošni akademičny boj sistemam štučnaha intelektu, stvaryŭšy dla ich samy składany z usich mahčymych testaŭ ekśpiertnaha ŭzroŭniu na razvažańnie i vałodańnie techničnymi viedami. Niejrasietki (u tym liku ChatGPT i našumieły kitajski DeepSeek) vyklik pryniali i ŭžo pakazali pieršyja vyniki.

Ilustracyjnaja vyjava. Fota: Vecteezy 

Mižnarodnaja kamanda z 1000 ekśpiertaŭ u roznych akademičnych dyscyplinach z amal 500 prestyžnych adukacyjnych ustanoŭ (siarod jakich Oksfard, Harvard, Kembrydž, Stenfard, šviejcarski ETH, francuzskaja Inria i inšyja) raspracavali hłabalny test pa techničnych i pieradavych navukovych viedach i łahičnym myśleńni dla vymiareńnia ŭzroŭniu daskanałaści sistem štučnaha intelektu.

Test atrymaŭ nazvu HLE (Humanity's Last Exam), ci «Apošni ekzamien čałaviectva». Ekśpierty nazvali jaho samym składanym akademičnym vyprabavańniem u historyi, jaki možna stvaryć dla teściravańnia mahčymaściaŭ niejrasietak u dakładnych navukach, nie zakranajučy aśpiekt tvorčych zdolnaściaŭ. 

Ekzamien HLE składajecca z troch tysiač składanych pytańniaŭ pa sta roznych dyscyplinach (naprykład, kłasičnaja fiłałohija, chimija, vyšejšaja matematyka, infarmatyka, ekałohija, linhvistyka). Farmataŭ zadańniaŭ dva: pytańni z dakładnym supadzieńniem (ŠI-madeli sami pišuć tekst u jakaści adkazu) i pytańni z vybaram adkazu (ŠI vybiraje adzin ź piaci abo bolš varyjantaŭ adkazu). Asablivy akcent u teście taksama robicca na razumieńni schiem i vyjavaŭ.

Prykłady pytańniaŭ pa roznych akademičnych dyscyplinach u ramkach ekzamiena HLE (na anhlijskaj movie). Pad pytańniami paznačany ich aŭtary i adukacyjnyja ŭstanovy, u jakich tyja pracujuć ci navučajucca. Krynica: agi.safe.ai

U teście ŭžo pryniali ŭdzieł niekalki topavych niejrasietak, takija jak ChatGPT (staryja i najnoŭšyja viersii), Claude (papularny ŭ biznesmienaŭ i prahramistaŭ), Gemini (ad karparacyi Google), Grok (ŠI ad Iłana Maska) i DeepSeek (kitajskaja niejrasietka, jakaja abvaliła ŭvieś technałahičny siektar ZŠA). 

Usie jany z treskam pravalili ekzamien (u plus-minus 90% pytańniaŭ madeli davali niapravilny adkaz, dy i jašče nastojvali na tym, što mieli racyju), adznačyli aŭtary testa HLE.

Jość i pakazalny momant — najhoršy i adnačasova najlepšy vynik prademanstravaŭ ChatGPT (jaho staraja zvyčajnaja viersija Omni pakazała 3,3% dakładnaści adkazaŭ, siaredniaja o1 pakazała vynik 9,1, a najnoŭšaja o3-mini-high — 13). A našumieły kitajski DeepSeek, jakoha dniami nazvali «zabojcaj ChatGPT», pakazaŭ 9,4% dakładnaści adkazaŭ.

Vyniki prachodžańnia «Apošniaha ekzamiena čałaviectva» (HLE) u šerahu topavych niejrasietak. Usie jany z treskam pravalili test (uzrovień pravilnaści adkazaŭ składaŭ ad 3 da 13 adsotkaŭ), a najlepšy vynik pakazała novaja viersija ChatGPT pad nazvaj o3-mini (high), jakaja vyjšła dniami. Krynica: agi.safe.ai

Taksama pakazalna, što isnujučyja składanyja hłabalnyja testy na navukovyja viedy, takija jak GPQA, MATH i MMLU, davalisia vyšejpieraličanym niejrasietkam našmat lahčej, i tyja mieli ŭ ich ad 40 da amal 100 adsotkaŭ pravilnych adkazaŭ.

Adnak ciapier sa stvareńniem testa HLE čałaviectva kinuła štučnamu intelektu vielmi surjozny vyklik, ale jon, jak sumna kanstatujuć ekśpierty, moža stać apošnim. Pa prahnozach aŭtaraŭ HLE, niejrasietki mohuć dasiahnuć u ekzamienie 50% dakładnaści adkazaŭ užo ŭ kancy hetaha hoda.

Paraŭnalnyja vyniki dakładnaści adkazaŭ niekalkich topavych niejrasietak u isnujučych hłabalnych vuzka-śpiecyjalizavanych testach GPQA, MATH i MMLU. Z «Apošnim ekzamienam čałaviectva» (HLE) u sistem štučnaha intelektu pakul usio drenna. Krynica: agi.safe.ai

Kamientary17

  • Žvir
    03.02.2025
    A možiet oni i pravy, oni žie mašiny, vidiat suť biez iskažienij. Vot poprositie ši narisovať źviozdnoje niebo, uvierien, čto ono budiet inym. Ludi v osnovnom mnoho vidiat toho, čieho niet.
  • nie taki, jak jość
    03.02.2025
    Ličbavyja vyniki vyprabavańnia HLE pakazvajuć, što kitajski ‘'zabojca GPT” byŭ śpisany ź siaredniaj o1 čata GPT
  • Chiech
    03.02.2025
    Žvir ,
    Trudno skazať, čto oni tam vidiat.
    Nikto isčierpyvajuŝie nie priedstavlajet chod rassuždienij II.

    Upravlenije i cienzura v osnovnom zaklučajetsia v zaprieŝienii tiech ili inych diejstvij, otvietov, rieakcij.

    Niecienzurirovannyj II vpołnie možiet dať otviet "ubiť vsiech bolnych" na vopros "kak sdiełať vsiech zdorovymi"
    I raźvie otviet niepravilnyj?

KDB aryštavaŭ padazronaha aktyvista Paŭła Bialucina. U jakoj krainie heta adbyłosia, nieviadoma

KDB aryštavaŭ padazronaha aktyvista Paŭła Bialucina. U jakoj krainie heta adbyłosia, nieviadoma

Usie naviny →
Usie naviny

Tramp daručyŭ adkryć turmu dla asabliva niebiaśpiečnych złačyncaŭ na vostravie Alkatras1

«Na Rastvo padaryli 5 kiłahramaŭ rysu». Biełaruska ŭ 65 hadoŭ pierajechała ŭ Hanu i zajmajecca manikiuram1

Ci ŭklučać u Biełarusi aciapleńnie z-za chałodnaha nadvorja, adkazali ŭ ŽEU

«Eternaŭt»: arhiencinski Netflix vypuściŭ šmatznačny sieryjał pra apakalipsis2

Kamisar ES: Jeŭrasajuz udvaja pavialičyć dapamohu Ukrainie, kali Tramp nie pierakanaje Pucina zaklučyć mir3

U niadzielu roźnica maksimalnych tempieratur u Biełarusi skłała 15 hradusaŭ

U Breście patanuŭ čatyrochhadovy chłopčyk. Ratavalnikam udałosia viarnuć jaho da žyćcia

Vučonyja nazvali kolkaść krokaŭ, jakaja ratuje ofisnych rabotnikaŭ16

Ryžankoŭ dakłaŭ Ejsmant, što nakałoŭ droŭ15

bolš čytanych navin
bolš łajkanych navin

KDB aryštavaŭ padazronaha aktyvista Paŭła Bialucina. U jakoj krainie heta adbyłosia, nieviadoma

KDB aryštavaŭ padazronaha aktyvista Paŭła Bialucina. U jakoj krainie heta adbyłosia, nieviadoma

Hałoŭnaje
Usie naviny →

Zaŭvaha:

 

 

 

 

Zakryć Paviedamić