Нейросеть учится рисовать. Ещё лучше, чем раньше

Программисты из компании Microsoft создали нейросеть, которая умеет рисовать. Само по себе это не новшество, но их проект умеет создавать изображения по текстовым описаниям.

Ранее уже создавались нейросети, которые рисуют, и нейросети, которые усваивают текст. Была даже программа, которая делала оригинальные 3d-иллюстрации по названиям литературных произведений. С творчеством можно ознакомиться по ссылке.

Теперь пришло время соединения. И разработчики Microsoft создали такой алгоритм, основанный на нейросети, который сможет рисовать 2d-изображение по текстовому описанию. При этом он будет опираться на ключевые пункты в описании. Препринт исследования доступен на arxiv.org.

Состязательные нейросети

Для создания нейросетей хорошо подходят так называемые состязательные нейросети. На самом деле, в каждую такую нейросеть входят как минимум две подсети — генератор и дискриминатор, которые работают, как композитор и музыкальный критик.

Генератор создает изображения по заданным параметрам, а дискриминатор старается максимально «придраться» к созданным изображениям и вычислить, какие из них соответствуют правилам, то есть являются подлинными, а какие — нет. Между двумя сетями создается ситуация антагонистической игры: генератор старается произвести как можно больше образцов, а дискриминатор — как можно больше отбраковать. Такие нейросети могут создавать не только изображения.

Обычно у сети-генератора есть некоторая база изображений, по копии которых создаются новые, для дальнейшей проверки дискриминатором. Программисты из Microsoft под началом Сяодуна Хэ несколько изменили условия обучения генератора, назвав новый вариант сети aGAN — attentional generative adversarial network, или внимательная генеративно-состязательная сеть.

Если обычная сеть GAN превращает описание своего задания в некоторое единое предложение-вектор, то attentional GAN работает с целым текстом, разбивая его на отдельные пункты, которые считает важными. Такая сеть рисует свое изображение на основе каждого указанного слова, и это уже доказало свою эффективность: aGAN, обученная на базе СОСО (изображения с текстом описания), на 170% точнее аналогов.

ПОХОЖИЕ СТАТЬИ

Новые статьи