Apple заявила, что современные модели ИИ (LRM) терпят крах в сложных задачах, но исследователь Алекс Лосен оспорил это. Он раскритиковал методологию: в оригинальном исследовании, например, тестировали решение «Ханойской башни», требуя пошаговый ответ, что искусственно ограничило модели. Лосен перезапустил тест, попросив ИИ сгенерировать код для решения — Claude, Gemini и GPT-4 успешно справились даже с 15-дисковыми задачами. Его вывод: проблема не в отсутствии логики у ИИ, а в некорректных условиях оценки. Дискуссия подчеркивает важность тестов, разделяющих рассуждения и технические ограничения вывода. Итог: прежде чем делать громкие заявления о возможностях ИИ, стоит пересмотреть метрики, которыми их измеряют.