|
Любопытный бенчмарк для оценки человекоподобного мышления у ИИ от знаменитого Франсуа Шолле (автора Keras).
Там 135 мини-игр на сетке 64×64. Агент должен сам исследовать среду, понять ее механики и догадаться о цели: никаких инструкций ему не дают. Сейчас лучшая модель (Gemini 3.1 Pro) набирает лишь 0.37%. А люди — 100%. Но это пока. Можете сами попробовать поиграть. Нажимаете Start и вперёд! [ссылка в источнике]
Источник: https://arcprize.org/tasks/ls20
|