Navuka i technałohii1717

«Apošni ekzamien čałaviectva». Dla niejrasietak stvaryli maksimalna składany akademičny test — i voś jaki vynik

Prafiesary, navukoŭcy, a taksama vybitnyja vypuskniki i studenty z amal 500 prestyžnych adukacyjnych ustanovaŭ pa ŭsim śviecie vyrašyli dać apošni akademičny boj sistemam štučnaha intelektu, stvaryŭšy dla ich samy składany z usich mahčymych testaŭ ekśpiertnaha ŭzroŭniu na razvažańnie i vałodańnie techničnymi viedami. Niejrasietki (u tym liku ChatGPT i našumieły kitajski DeepSeek) vyklik pryniali i ŭžo pakazali pieršyja vyniki.

Ilustracyjnaja vyjava. Fota: Vecteezy 

Mižnarodnaja kamanda z 1000 ekśpiertaŭ u roznych akademičnych dyscyplinach z amal 500 prestyžnych adukacyjnych ustanoŭ (siarod jakich Oksfard, Harvard, Kembrydž, Stenfard, šviejcarski ETH, francuzskaja Inria i inšyja) raspracavali hłabalny test pa techničnych i pieradavych navukovych viedach i łahičnym myśleńni dla vymiareńnia ŭzroŭniu daskanałaści sistem štučnaha intelektu.

Test atrymaŭ nazvu HLE (Humanity's Last Exam), ci «Apošni ekzamien čałaviectva». Ekśpierty nazvali jaho samym składanym akademičnym vyprabavańniem u historyi, jaki možna stvaryć dla teściravańnia mahčymaściaŭ niejrasietak u dakładnych navukach, nie zakranajučy aśpiekt tvorčych zdolnaściaŭ. 

Ekzamien HLE składajecca z troch tysiač składanych pytańniaŭ pa sta roznych dyscyplinach (naprykład, kłasičnaja fiłałohija, chimija, vyšejšaja matematyka, infarmatyka, ekałohija, linhvistyka). Farmataŭ zadańniaŭ dva: pytańni z dakładnym supadzieńniem (ŠI-madeli sami pišuć tekst u jakaści adkazu) i pytańni z vybaram adkazu (ŠI vybiraje adzin ź piaci abo bolš varyjantaŭ adkazu). Asablivy akcent u teście taksama robicca na razumieńni schiem i vyjavaŭ.

Prykłady pytańniaŭ pa roznych akademičnych dyscyplinach u ramkach ekzamiena HLE (na anhlijskaj movie). Pad pytańniami paznačany ich aŭtary i adukacyjnyja ŭstanovy, u jakich tyja pracujuć ci navučajucca. Krynica: agi.safe.ai

U teście ŭžo pryniali ŭdzieł niekalki topavych niejrasietak, takija jak ChatGPT (staryja i najnoŭšyja viersii), Claude (papularny ŭ biznesmienaŭ i prahramistaŭ), Gemini (ad karparacyi Google), Grok (ŠI ad Iłana Maska) i DeepSeek (kitajskaja niejrasietka, jakaja abvaliła ŭvieś technałahičny siektar ZŠA). 

Usie jany z treskam pravalili ekzamien (u plus-minus 90% pytańniaŭ madeli davali niapravilny adkaz, dy i jašče nastojvali na tym, što mieli racyju), adznačyli aŭtary testa HLE.

Jość i pakazalny momant — najhoršy i adnačasova najlepšy vynik prademanstravaŭ ChatGPT (jaho staraja zvyčajnaja viersija Omni pakazała 3,3% dakładnaści adkazaŭ, siaredniaja o1 pakazała vynik 9,1, a najnoŭšaja o3-mini-high — 13). A našumieły kitajski DeepSeek, jakoha dniami nazvali «zabojcaj ChatGPT», pakazaŭ 9,4% dakładnaści adkazaŭ.

Vyniki prachodžańnia «Apošniaha ekzamiena čałaviectva» (HLE) u šerahu topavych niejrasietak. Usie jany z treskam pravalili test (uzrovień pravilnaści adkazaŭ składaŭ ad 3 da 13 adsotkaŭ), a najlepšy vynik pakazała novaja viersija ChatGPT pad nazvaj o3-mini (high), jakaja vyjšła dniami. Krynica: agi.safe.ai

Taksama pakazalna, što isnujučyja składanyja hłabalnyja testy na navukovyja viedy, takija jak GPQA, MATH i MMLU, davalisia vyšejpieraličanym niejrasietkam našmat lahčej, i tyja mieli ŭ ich ad 40 da amal 100 adsotkaŭ pravilnych adkazaŭ.

Adnak ciapier sa stvareńniem testa HLE čałaviectva kinuła štučnamu intelektu vielmi surjozny vyklik, ale jon, jak sumna kanstatujuć ekśpierty, moža stać apošnim. Pa prahnozach aŭtaraŭ HLE, niejrasietki mohuć dasiahnuć u ekzamienie 50% dakładnaści adkazaŭ užo ŭ kancy hetaha hoda.

Paraŭnalnyja vyniki dakładnaści adkazaŭ niekalkich topavych niejrasietak u isnujučych hłabalnych vuzka-śpiecyjalizavanych testach GPQA, MATH i MMLU. Z «Apošnim ekzamienam čałaviectva» (HLE) u sistem štučnaha intelektu pakul usio drenna. Krynica: agi.safe.ai

Kamientary17

  • Žvir
    03.02.2025
    A možiet oni i pravy, oni žie mašiny, vidiat suť biez iskažienij. Vot poprositie ši narisovať źviozdnoje niebo, uvierien, čto ono budiet inym. Ludi v osnovnom mnoho vidiat toho, čieho niet.
  • nie taki, jak jość
    03.02.2025
    Ličbavyja vyniki vyprabavańnia HLE pakazvajuć, što kitajski ‘'zabojca GPT” byŭ śpisany ź siaredniaj o1 čata GPT
  • Chiech
    03.02.2025
    Žvir ,
    Trudno skazať, čto oni tam vidiat.
    Nikto isčierpyvajuŝie nie priedstavlajet chod rassuždienij II.

    Upravlenije i cienzura v osnovnom zaklučajetsia v zaprieŝienii tiech ili inych diejstvij, otvietov, rieakcij.

    Niecienzurirovannyj II vpołnie možiet dať otviet "ubiť vsiech bolnych" na vopros "kak sdiełať vsiech zdorovymi"
    I raźvie otviet niepravilnyj?

Ciapier čytajuć

Kab razdać kvitki na Šamana, padklučyli rajvykankamy. A jon zapisaŭ videa «Priviet, Biełoruśsija!» i śpiavaŭ himn Rasii78

Kab razdać kvitki na Šamana, padklučyli rajvykankamy. A jon zapisaŭ videa «Priviet, Biełoruśsija!» i śpiavaŭ himn Rasii

Usie naviny →
Usie naviny

«Kali zamierźniecie — zachodźcie da nas pahrecca». Biblijatekarka z Mahilova raskazała, jak zmahła znajści siabie ŭ prafiesii ŭ Polščy5

Piać cikavych mohiłak Biełarusi dla naviedvańnia na Dziady

U Jehipcie paśla dvaccaci hadoŭ budaŭnictva adkryli najbujniejšy muziej śvietu

«Ja zrazumieŭ, što ŭsio, kaniec». Stvaralnik fiestyvalu «Bulbamuvi» vyrašyŭ spynić jaho5

Taktyka «mir praź siłu» — pryvileja vialikich dziaržaŭ. Što pakazvaje historyja z šarami na biełaruska-litoŭskaj miažy13

Žančyna nabyła spartyŭny kaścium biełaruskaha brendu za 600 rubloŭ i ŭ šoku ad jakaści15

Biełaruś stała papularnym abjektam dla kibieratak2

U Mahilovie adzin biznesmien zakazaŭ padpał mašyny inšaha

Jak adznačajuć Dziady3

bolš čytanych navin
bolš łajkanych navin

Kab razdać kvitki na Šamana, padklučyli rajvykankamy. A jon zapisaŭ videa «Priviet, Biełoruśsija!» i śpiavaŭ himn Rasii78

Kab razdać kvitki na Šamana, padklučyli rajvykankamy. A jon zapisaŭ videa «Priviet, Biełoruśsija!» i śpiavaŭ himn Rasii

Hałoŭnaje
Usie naviny →

Zaŭvaha:

 

 

 

 

Zakryć Paviedamić