Найдена замена JPEG: нейросеть Stable Diffusion сжимает картинки лучше

28 сентября 2022, 17:11

Шведский программист Маттиас Бюльманн обнаружил, что популярная нейросеть для генерации картинок Stable Diffusion способна сжимать уже существующие изображения эффективнее, чем форматы JPEG и WebP. Данный метод имеет несколько серьезных недостатков, но сам по себе эксперимент получился любопытным — портал Ars Technica рассказал о нем подробнее.

Найдена замена JPEG: нейросеть Stable Diffusion сжимает картинки лучше — © stability.ai

Сжатие через Stable Diffusion — как это работает

Нейросеть Stable Diffusion чаще всего генерирует картинки по текстовым запросам пользователей: ИИ обучился этому навыку благодаря изучению миллионов изображений, подгруженных из Интернета. Во время обучения нейросеть проводит статистические параллели между картинками и связанными поисковыми запросами, после чего ключевая информация об изображении сжимается в миниатюрное облако данных, содержащее все, что ИИ «знает» об исходной картинке. Эти облака данных существуют в т.н. «скрытом пространстве»: каждый файл весит примерно 4 ГБ, но на практике хранит информацию о сотнях миллионах фотографий или рисунков. Метот Бюльманна использует именно этот механизм. Программист вырезал компонент, расшифровывающий текст, и прогнал файлы прямо через модуль шифрования изображений Stable Diffusion, который превращает низкокачественную картинку разрешением 512 х 512 точек в высококачественное облако данных 64 х 64 точки. Итоговый размер файла сокращается, но его в любой момент можно конвертировать в исходное состояние, причем без значимых потерь качества. На субъективный взгляд программиста, сжатие через Stable Diffusion позволяет добиться четкой картинки при минимуме визуальных артефактов. Правда, пока что метод имеет ряд технических ограничений. Он плохо пережимает изображения, содержащие лица или текст, а также иногда пририсовывает на конвертированных картинках детали, которых не было в первоисточнике. Конечно, такой способ применения нейросети вряд ли найдет широкое распространение, но, в теории, он может послужить фундаментом для разработки какого-нибудь нового механизма генерации картинок.

Matthias Buhlmann

Наука и техника

Главные новости

Больше новостей

Рамблер: главные новости