Сбер разработал нейросеть, создающую изображения по словесному описанию

Специалисты Сбера разработали нейронную сеть, которая создает изображения, используя текстовое описание на русском языке. Разработка может быть востребована в сфере дизайна и рекламы, сообщила во вторник пресс-служба Сбера.

«Нейросеть ruDALL-E одновременно обучается на двух видах данных – изображениях и текстах, и позволяет создавать неограниченное число новых изображений по заданному описанию. < …> Использовать ее можно для создания вариантов дизайна интерьера, стоковых изображений или векторных иллюстраций, материалов для рекламы, копирайтинга, архитектурного и промышленного дизайна», – говорится в сообщении.

Авторы создали две версии нейросети, содержащие разное количество параметров. Модель ruDALL-E XL доступна для бесплатной загрузки с сервиса Github, сообщает пресс-служба Сбера. Оба варианта разработки, включая расширенную версию ruDALL-E 12B, также будут представлены на платформе ML Space компании SberCloud, входящей в экосистему Сбера.

Создание изображений при помощи ruDALL-E происходит в три этапа: сначала нейросеть принимает текст и генерирует заданное число картинок, на следующем этапе она выбирает, какие из них наиболее удачны и максимально соответствуют описанию, на завершающей стадии – увеличивает их в размере без потери качества.

Подобная модель для работы с англоязычным текстом была представлена американской компанией OpenAI в 2021 году, однако она не была полностью выложена в открытый доступ. Разработчики Сбера (компаний SberDevices и Sber AI при участии представителей SberCloud) воспроизвели опубликованный коллегами код и запустили обучение нейросети на платформе ML Space, использующей мощности суперкомпьютера «Кристофари».

«В результате получилась самая большая модель такого рода в мире, работающая с русским языком: обучение заняло 23 тысячи GPU-часов на массиве данных из 120 миллионов пар «текст-изображение». Проект по обучению ruDALL-E стал самым большим нейросетевым вычислительным проектом в России и СНГ», – отметили в пресс-службе Сбера.

Вклад в развитие технологий

Исполнительный вице-президент Сбербанка, технический директор (СТО) Сбера, руководитель блока «Технологии» Давид Рафаловский, комментируя полученные результаты, отметил, что такая разработка вносит большой вклад в развитие искусственного интеллекта.

«Генерация изображений [также] закрывает две важных потребности современного бизнеса – возможность получить уникальную картинку под собственное описание и в любой момент создавать необходимое количество licence-free-иллюстраций (изображения со «свободной лицензией» – прим.ТАСС). < …> Технология пока совсем новая, первые шаги в этом направлении были сделаны только в прошлом году, а еще в 2018-2019 годах даже постановку такого рода задачи нельзя было себе представить. [Нейросеть] ruDALL-E можно считать настоящим прорывом для русскоязычной индустрии», – цитирует Рафаловского пресс-служба Сбера.

Информационное агентство России ТАСС

Добавить комментарий