Нова версія штучного інтелекту від Apple редагує зображення за допомогою природної мови
Дослідники компанії Apple представили нову модель штучного інтелекту з відкритим вихідним кодом, яка здатна редагувати зображення на основі інструкцій користувача, виражених природною мовою. Ця модель, що називається "MGIE" (Editing with MLLM Guided Instructions), використовує мультимодальні великі мовні моделі (MLLM) для тлумачення запитів користувачів та виконання маніпуляцій на рівні пікселів.
Модель здатна редагувати різні аспекти зображень, включаючи яскравість, контрастність, різкість та застосування художніх ефектів, таких як ескізи. Локальні зміни можуть стосуватися форми, розміру, кольору або текстури певних областей або об'єктів на зображенні, а також включати такі операції, як обрізка, зміна розміру, обертання та застосування фільтрів, або навіть зміна фону та змішування зображень у стилі Photoshop.
Користувач може вказати, наприклад, щоб фотографія піци стала "здоровішою", і модель, користуючись контекстом, може додати овочеві начинки, такі як помідори та зелень. Запит на глобальну оптимізацію може бути виражений, наприклад, як "додати контраст, щоб імітувати більше світла", а зміни у стилі Photoshop можуть включати видалення об'єктів з фону, зміну фокусу та інші модифікації.
Для створення MGIE Apple співпрацювала з дослідниками з Каліфорнійського університету. Модель була представлена на Міжнародній конференції з навчальних представлень (ICLR) 2024 та доступна на GitHub разом із відповідним кодом, даними та попередньо навченими моделями.
Це другий великий крок компанії Apple у галузі досліджень штучного інтелекту за останні кілька місяців. Раніше, у грудні, Apple оголосила про успішність розгортання великих мовних моделей на iPhone та інших пристроях компанії з обмеженою пам'яттю, використовуючи інноваційні методи роботи з флеш-пам'яттю.
За останні місяці Apple також тестувала конкурентів ChatGPT, такі як "Apple GPT". За даними Bloomberg та інших джерел, розробка штучного інтелекту є пріоритетною для Apple, яка розробляє фреймворк "Ajax" для великих мовних моделей.
Згідно з інформацією від The Information та аналітика Джеффа Пу, у версії iOS 18, яка, за прогнозами, вийде приблизно наприкінці 2024 року, може з'явитися покращена версія Siri з генеративним штучним інтелектом, подібним до ChatGPT, що може стати одним із найбільших оновлень програмного забезпечення в історії iPhone.