Нейросеть ruDALL-E научилась генерировать изображения по описаниям на иностранных языках

Нейросеть ruDALL-E, созданная специалистами «Сбера» и генерирующая изображения по словесному описанию, научилась понимать иностранные языки, в том числе английский. Об этом сообщила в четверг пресс-служба «Сбера».

«Сайт открытой нейронной сети ruDALL-E, генерирующей изображения на основе текстового описания, теперь может работать с текстами не только на русском, но и на других языках. В мобильном приложении «Салют» и на устройствах Sber создать картинку можно даже по голосовому запросу, перевод на английский получил и демо-сайт, на котором можно попробовать модель», — говорится в сообщении.

Отмечается, что ruDALL-E получила большую популярность всего за несколько дней с начала своей работы.

«За неделю с момента релиза ruDALL-E пользователи по всему миру уже сгенерировали более 3 миллиона изображений при помощи ruDALL-E, используя для формирования русскоязычных запросов различные системы машинного перевода, а теперь смогут делать запросы на английском и других языках. При вводе текста модель самостоятельно определяет язык ввода и генерирует соответствующее изображение», — рассказали в пресс-службе.

Создание мультиязычного варианта стало реакцией на популярность нейросети, рассказал в четверг на международной конференции AI Journey 2021 исполнительный вице-президент «Сбера» Давид Рафаловский, которого цитирует пресс-служба.

«После запуска ruDALL-E мы увидели большой интерес к модели со стороны аудитории. Поэтому мы решили создать мультиязычный вариант сервиса, который упростит пользователю путь к созданию изображения. Сейчас моделью может воспользоваться практически любой желающий по всему миру», — сказал Рафаловский.

О нейросети ruDALL-E

«Сбер» объявил о создании нейросети, создающей изображение по текстовому описанию на русском языке, 2 ноября 2021 года. Отмечалось, что разработка может быть востребована для создания вариантов дизайна интерьера, стоковых изображений или векторных иллюстраций, материалов для рекламы, копирайтинга, архитектурного и промышленного дизайна.

Как пояснили специалисты «Сбера», ruDALL-E одновременно обучается на двух видах данных — изображениях и текстах, и позволяет создавать неограниченное число новых изображений по заданному описанию. Созданы два варианта нейросети: ruDALL-E XL содержит 1,3 млрд параметров, ruDALL-E XXL — 12 млрд. Первая модель доступна для бесплатной загрузки.

Генерация изображений при помощи ruDALL-E происходит в три этапа: сначала нейросеть принимает текст и генерирует заданное число картинок, на следующем этапе она выбирает, какие из них наиболее удачны и максимально соответствуют описанию, на завершающей стадии — увеличивает их в размере без потери качества, пояснили в «Сбере».

Информационное агентство России ТАСС

Добавить комментарий