После того, как несколько лет назад ChatGPT стал достоянием общественности, в области искусственного интеллекта наблюдается быстрый рост со стороны нескольких брендов. Работа Apple в этом направлении пока была сдержанной. Однако это не означает, что Apple не добилась никакого прогресса в области искусственного интеллекта. Недавно Apple выпустила новую модель искусственного интеллекта с открытым исходным кодом под названием “MGIE”. Эта модель искусственного интеллекта может редактировать изображения на основе инструкций на естественном языке. Полное название MGIE — Редактирование изображений под управлением MLLM. В ней используется мультимодальная модель большого языка (MLLM) для интерпретации инструкций пользователя и выполнения операций на уровне пикселей. MGIE может понимать команды на естественном языке, выдаваемые пользователями. Он может выполнять такие операции, как модификации в стиле Photoshop, глобальная оптимизация фотографий и локальное редактирование.

Модель искусственного интеллекта для редактирования изображений

Apple и исследователи из Калифорнийского университета в Санта-Барбаре сотрудничают в публикации результатов исследований, связанных с MGIE. Результаты будут опубликованы на Международной конференции по представлениям об обучении в 2024 году (ICLR). Эта конференция является одной из ведущих конференций по исследованиям искусственного интеллекта в мире.

ЧТО ТАКОЕ MLLM?

Чтобы правильно понять MGIE, мы должны сначала обсудить MLLM, потому что MGIE использует MLLM. MLLM — это мощная модель искусственного интеллекта, которая может обрабатывать текст и изображения одновременно, тем самым расширяя возможности редактирования изображений на основе инструкций. MLLM продемонстрировали отличные возможности в кросс-модальном понимании и генерации визуальных реакций восприятия. Однако он пока не получил широкого применения в задачах редактирования изображений.

MGIE интегрирует MLLMS в процесс редактирования изображений двумя способами. Во-первых, она использует MLLMs для получения выразительных инструкций на основе пользовательского ввода. Инструкции лаконичны и дают четкое руководство по процессу редактирования.

Например, при вводе команды “сделать небо голубее” MGIE может сгенерировать команду “увеличить насыщенность области неба на 20%”.

Во-вторых, она использует MLLM для создания визуальных представлений, то есть скрытых представлений желаемых изменений. Это представление отражает суть редактирования и может использоваться для руководства операциями на уровне пикселей. В MGIE используется новая схема комплексного обучения, которая совместно оптимизирует создание инструкций, визуальное воображение и модули редактирования изображений.

Модель искусственного интеллекта для редактирования изображений

ОСОБЕННОСТИ MGIE

MGIE может обрабатывать различные ситуации редактирования, от простой настройки цвета до сложных манипуляций с объектами. Модель также может выполнять глобальное и локальное редактирование в зависимости от предпочтений пользователя. Некоторые функции MGIE включают:

  • Выразительное редактирование на основе инструкций: MGIE может генерировать краткие и ясные инструкции для эффективного руководства процессом редактирования. Это не только повышает качество редактирования, но и улучшает общее взаимодействие с пользователем.
  • Редактирование в стиле Photoshop: MGIE может выполнять обычное редактирование в стиле Photoshop, такое как обрезка, изменение размера, поворот, переворачивание и добавление фильтров. В макет также можно вносить более продвинутые правки, такие как изменение фона, добавление или удаление объектов и смешивание изображений.
  • Глобальная оптимизация фотографий: MGIE может оптимизировать общее качество ваших фотографий, такое как яркость, контрастность, резкость и цветовой баланс. Модель также может применять художественные эффекты, такие как создание эскизов, раскрашивание и карикатура.
  • Локальное редактирование: MGIE может редактировать определенные области или объекты на изображении, такие как лицо, глаза, волосы, одежда и аксессуары. Модель также может изменять свойства этих областей или объектов, такие как форма, размер, цвет, текстура и стиль.

MGIE — это проект с открытым исходным кодом на GitHub. Пользователи могут найти код, данные и предварительно обученные модели здесь. Проект также предоставляет демонстрационную записную книжку, показывающую, как использовать MGIE для выполнения различных задач редактирования.

Модель искусственного интеллекта для редактирования изображений

ПОСЛЕДСТВИЯ И ПЕРСПЕКТИВЫ НА БУДУЩЕЕ

Выпуск MGIE подчеркивает растущий потенциал Apple в области исследований и разработок в области искусственного интеллекта. Этот новый инструмент не только имеет практическое применение для личного и профессионального редактирования изображений, таких как социальные сети, электронная коммерция, образование, развлечения и искусство, но и представляет собой значительный прогресс в области мультимодального искусственного интеллекта. Открытый исходный код модели и ее доступность на таких платформах, как GitHub и Hugging Face Spaces, указывают на ее потенциал для дальнейших исследований и разработок, выходящих за рамки текущего состояния.

В заключение отметим, что недавний выпуск Apple модели MGIE (MLLM-Guided Image Editing) знаменует собой важную веху в области искусственного интеллекта и редактирования изображений. Используя возможности мультимодальных моделей большого языка (MLLM), MGIE позволяет пользователям выполнять сложные задачи редактирования изображений с помощью инструкций на естественном языке. Этот инновационный подход, разработанный в сотрудничестве с исследователями из Калифорнийского университета в Санта-Барбаре, демонстрирует приверженность Apple развитию технологий искусственного интеллекта и их практическому применению.

Интеграция MLLMS в процесс редактирования изображений не только улучшает пользовательский опыт, но и открывает новые возможности для творческого самовыражения и повышения производительности. Способность MGIE понимать и выполнять сложные команды редактирования, от простой настройки цвета до сложных манипуляций с объектами, устанавливает новый стандарт для инструментов редактирования изображений на основе искусственного интеллекта. Кроме того, ее открытый исходный код способствует сотрудничеству и инновациям в исследовательском сообществе, прокладывая путь для будущих достижений в области мультимодального искусственного интеллекта и технологий обработки изображений.

Поскольку MGIE продолжает развиваться и набирать популярность как среди разработчиков, так и среди пользователей, ее применение выходит за рамки личных и профессиональных сценариев редактирования изображений. Его доступность на таких платформах, как GitHub и Hugging Face Spaces, подчеркивает его потенциал для более широкого применения в различных областях, включая социальные сети, электронную коммерцию, образование, развлечения и цифровое искусство.

По сути, выпуск MGIE подчеркивает стремление Apple расширять границы технологий искусственного интеллекта, предоставляя пользователям интуитивно понятные и мощные инструменты для творческого самовыражения и визуального рассказывания историй. Поскольку инновации, основанные на искусственном интеллекте, продолжают формировать цифровой ландшафт, MGIE является свидетельством преобразующего потенциала совместных исследований и междисциплинарных инноваций в стремлении к технологическому совершенству.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *