Закрыть
E=mc² » Стена » Запись
Любопытный бенчмарк для оценки человекоподобного мышления у ИИ от знаменитого Франсуа Шолле (автора Keras).
Там 135 мини-игр на сетке 64×64. Агент должен сам исследовать среду, понять ее механики и догадаться о цели: никаких инструкций ему не дают.

Сейчас лучшая модель (Gemini 3.1 Pro) набирает лишь 0.37%. А люди — 100%. Но это пока.

Можете сами попробовать поиграть. Нажимаете Start и вперёд!

[ссылка в источнике]
Пожаловаться  |  Поделиться

Комментарии (0)

Будьте первым, кто оставит комментарий!

Действия