Наука и технологии1717

«Последний экзамен человечества». Для нейросетей создали максимально сложный академический тест — и вот результат

Профессора, ученые, а также выдающиеся выпускники и студенты из почти 500 престижных образовательных учреждений по всему миру решили дать последний академический бой системам искусственного интеллекта, создав для них самый сложный из всех возможных тест экспертного уровня на рассуждение и владение техническими знаниями. Нейросети (в том числе ChatGPT и нашумевший китайский DeepSeek) приняли вызов и уже показали первые результаты.

Иллюстративное изображение. Фото: Vecteezy

Международная команда из 1000 экспертов в различных академических дисциплинах из почти 500 престижных образовательных учреждений (среди которых Оксфорд, Гарвард, Кембридж, Стэнфорд, швейцарский ETH, французская Inria и другие) разработали глобальный тест по техническим и передовым научным знаниям и логическому мышлению для измерения уровня совершенства систем искусственного интеллекта.

Тест получил название HLE (Humanity's Last Exam), или «Последний экзамен человечества». Эксперты назвали его самым сложным академическим испытанием в истории, которое можно создать для тестирования возможностей нейросетей в точных науках, не затрагивая аспект творческих способностей.

Экзамен HLE состоит из трех тысяч сложных вопросов по ста разным дисциплинам (например, классическая филология, химия, высшая математика, информатика, экология, лингвистика). Форматов заданий два: вопросы с точным совпадением (ИИ-модели сами пишут текст в качестве ответа) и вопросы с выбором ответа (ИИ выбирает один из пяти или более вариантов ответа). Особый акцент в тесте также делается на понимании схем и изображений.

Примеры вопросов по различным академическим дисциплинам в рамках экзамена HLE (на английском языке). Под вопросами указаны их авторы и образовательные учреждения, в которых те работают или обучаются. Источник: agi.safe.ai

В тесте уже приняли участие несколько топовых нейросетей, такие как ChatGPT (старые и новейшие версии), Claude (популярный у бизнесменов и программистов), Gemini (от корпорации Google), Grok (ИИ от Илона Маска) и DeepSeek (китайская нейросеть, которая обвалила весь технологический сектор США).

Все они с треском провалили экзамен (в плюс-минус 90% вопросов модели давали неправильный ответ, и еще настойчиво утверждали, что были правы), отметили авторы теста HLE.

Есть и показательный момент — худший и одновременно лучший результат продемонстрировал ChatGPT (его старая обычная версия Омни показала 3,3% точности ответов, средняя o1 показала результат 9,1, а новейшая o3-mini-high — 13). А нашумевший китайский DeepSeek, которого недавно назвали «убийцей ChatGPT», показал 9,4% точности ответов.

Результаты прохождения «Последнего экзамена человечества» (HLE) рядом топовых нейросетей. Все они с треском провалили тест (уровень правильности ответов составлял от 3 до 13 процентов), а лучший результат показала новая версия ChatGPT под названием o3-mini (high), которая вышла недавно. Источник: agi.safe.ai

Также показательно, что существующие сложные глобальные тесты на научные знания, такие как GPQA, MATH и MMLU, давались вышеупомянутым нейросетям намного легче, и те имели в них от 40 до почти 100 процентов правильных ответов.

Однако теперь с созданием теста HLE человечество бросило искусственному интеллекту очень серьезный вызов, который, как печально констатируют эксперты, может стать последним. По прогнозам авторов HLE, нейросети могут достичь в экзамене 50% точности ответов уже в конце этого года.

Сравнительные результаты точности ответов нескольких топовых нейросетей в существующих глобальных узкоспециализированных тестах GPQA, MATH и MMLU. С «Последним экзаменом человечества» (HLE) у систем искусственного интеллекта пока все плохо. Источник: agi.safe.ai

Комментарии17

  • Жвір
    03.02.2025
    А может они и правы, они же машины, видят суть без искажений. Вот попросите ши нарисовать звёздное небо, уверен, что оно будет иным. Люди в основном много видят того, чего нет.
  • не такі, як ёсць
    03.02.2025
    Лічбавыя вынікі выпрабавання HLE паказваюць, што кітайскі ‘’забойца GPT” быў спісаны з сярэдняй о1 чата GPT
  • Хех
    03.02.2025
    Жвір ,
    Трудно сказать, что они там видят.
    Никто исчерпывающе не представляет ход рассуждений ИИ.

    Управление и цензура в основном заключается в запрещении тех или иных действий, ответов, реакций.

    Нецензурированный ИИ вполне может дать ответ "убить всех больных" на вопрос "как сделать всех здоровыми"
    И разве ответ неправильный?

Сейчас читают

Павел Виноградов впервые рассказывает, как его забросили на самое дно белорусской тюрьмы. Как это — когда соседи за сигарету едят чужое говно18

Павел Виноградов впервые рассказывает, как его забросили на самое дно белорусской тюрьмы. Как это — когда соседи за сигарету едят чужое говно

Все новости →
Все новости

«Ночью сосед с ножом выбивает дверь в ванну — обычная ссора с женой». Айтишник из EPAM пожил в Азии4

В Беларуси займутся банковскими комиссиями. Обещают, что некоторые из них исчезнут

Белорусы пострадали в ДТП в Иркутской области, где столкнулись четыре фуры

КГБшник под видом белоруса из Германии пытался арендовать яхту1

Катер российских пограничников на границе с Эстонией вышел под флагом вагнеровцев9

«Убийцу сына думают выпустить». Дмитрий Плакс о семейной трагедии и о творчестве в Стокгольмском театре14

Экс-президенту Литвы Валдасу Адамкусу исполнилось 99 лет5

Трамп: Дни Мадуро в качестве президента сочтены31

Белорусские сыровары просят помочь им выкупить ферму в Польше. Раньше они держали коров и коз под Браславом10

больш чытаных навін
больш лайканых навін

Павел Виноградов впервые рассказывает, как его забросили на самое дно белорусской тюрьмы. Как это — когда соседи за сигарету едят чужое говно18

Павел Виноградов впервые рассказывает, как его забросили на самое дно белорусской тюрьмы. Как это — когда соседи за сигарету едят чужое говно

Главное
Все новости →

Заўвага:

 

 

 

 

Закрыць Паведаміць