Любопытный бенчмарк для оценки человекоподобного мышления у ИИ от знаменитого Франсуа Шолле (автора Keras).
Там 135 мини-игр на сетке 64×64. Агент должен сам исследовать среду, понять ее механики и догадаться о цели: никаких инструкций ему не дают.

Сейчас лучшая модель (Gemini 3.1 Pro) набирает лишь 0.37%. А люди — 100%. Но это пока.

Можете сами попробовать поиграть. Нажимаете Start и вперёд!

[ссылка в источнике]