Apple представила новый подход к генерации изображений, реанимировав метод Normalizing Flows (NF). В отличие от диффузионных моделей и авторегрессионных систем вроде GPT-4o, NF позволяют точно вычислять вероятность сгенерированных данных, что полезно для критичных задач. Ранние версии NF страдали от размытых изображений, но Apple модернизировала технологию.

Модель TarFlow использует трансформеры вместо устаревших слоёв, генерируя пиксели напрямую (без токенизации), сохраняя детализацию. STARFlow, её преемник, работает в сжатом латентном пространстве, отделяя структуру изображения от текстур (последние формирует декодер), и интегрирует языковые модели (например, Gemma) для обработки текстовых запросов. Это снижает вычислительную нагрузку, упрощая внедрение на устройства.

OpenAI в GPT-4o генерирует изображения как токены, жертвуя скоростью ради универсальности (текст, аудио, изображения в одном потоке). Apple же фокусируется на эффективности для локальных устройств, избегая облачных зависимостей. Оба подхода развивают пост-диффузионные методы, но с разной философией: облачная мощность против мобильной оптимизации.