На конференції AI SMM DAY Володимир Чернер, CEO креативної диджитал агенції New Strategies Group, голова SMM-комітету IAB, автор проєкту «Штучка Інтелект» та куратор Академії WebPromoExperts, поділився практичними порадами щодо покращення якості відео за допомогою штучного інтелекту.
Стереотипи про відеоконтент, створений штучним інтелектом
Якщо говорити про відеоконтент, створений штучним інтелектом, то навіть зараз більшість людей, думаючи про такий контент, уявляє щось на кшталт галюцинацій, проклятих демонських відео з купою мутацій. Усе через те, що колись саме такий формат відео завірусився. Люди досі вважають, що приблизно на такому рівні знаходиться цей контент. І це, зрештою, створює певну проблематику на ринку. Саме так виглядав контент, створений нейромережами, ще рік тому.
Якщо ж ви бодай трохи в темі штучного інтелекту або просто за ним слідкуєте, то, скоріш за все, вже знаєте, що тепер усе інакше. Хоча багато хто досі уявляє, що контент, створений AI, — це крінжові мутації, щось смішне й фанове. Але це зовсім не те, що ми бачимо на Netflix, у Голлівуді чи інших професійних платформах.
Насправді, вже сьогодні за допомогою штучного інтелекту створюється реклама, яка дивує. Наприклад, буквально цього тижня Coca-Cola вирішила оновити свій культовий рекламний ролик, використавши AI. Усе, що ви бачили, — це результат роботи штучного інтелекту. І, погодьтеся, такий контент виглядає вже не настільки крінжово, як уявлялося раніше.
Однак, у ньому є чимало недоліків. Наприклад, якщо придивитися до руки людини, яка подає Coca-Cola, можна побачити пальці різної довжини, ширини та пропорцій, без нігтів — усе це виглядає досить дивно. Зважаючи на ресурси компанії, якість ролика викликає здивування.
Попри це, рекламна кампанія отримала багато позитивних відгуків, навіть у моїй стрічці Facebook знайомі залишали схвальні коментарі. І вони частково мають рацію, адже потенціал для створення кращого контенту величезний.
Як доказ — приклад відомої блогерки-інфлюенсерки, яка активно працює зі штучним інтелектом. Її відео, створене за допомогою AI, за кілька днів зібрало 114 000 переглядів без жодного просування.
На мою думку, цей ролик — один із найкращих на ринку, і він чудово демонструє, що можна досягти за допомогою штучного інтелекту. Коли я вперше його побачив, навіть не зміг одразу визначити, чи це згенеровано нейромережами, чи це монтаж на основі фотостоків. Динамічний контент, кожна сцена триває приблизно 45 мілісекунд, усього 32 кадри за 24 секунди — справжній TikTok-формат із підходом, який подобається сучасним зумерам. Ролик якісний, продуманий і виглядає так, ніби його створювали кілька тижнів. Він вражає і, як то кажуть, «качає».
Ми, зі свого боку, також експериментуємо зі штучним інтелектом у рамках нашої агенції New Strategies Group, яка займається створенням креативного контенту в діджиталі. До нас часто звертаються із запитами на створення контенту на основі AI — як фото, так і відео. Наприклад, для компанії Optima School, дистанційної школи для дітей, ми створили відеоролик повністю на основі штучного інтелекту. Усе, що ви бачите в цьому ролику, — від музики до голосу і відеокартинки — результат роботи AI.
Ролик був приурочений до Хелловіну та мав на меті закликати дітей трохи відпочити під час святкування. Це приклад того, як штучний інтелект може бути інструментом для створення яскравого й емоційного контенту.
На мою думку, це гідна робота, яка може конкурувати на міжнародному рівні з іншими AI-відеороликами. Варто розповісти, як ми створювали цей ролик і які технології для цього використовували. Вони суттєво відрізняються від популярних масових інструментів, таких як MidJourney, ChatGPT та інші мейнстрімові рішення. Це зовсім інший підхід, який дає змогу досягти якісного й унікального результату.
Генерація фото
У цьому ролику ми використовували генерацію фото, які потім анімували. Цікаво, що для цієї задачі ми не обрали популярну нейромережу MidJourney. Натомість ми скористалися інструментом Magnific AI.
Чому саме Magnific AI? Її головна перевага — значно краща деталізація порівняно з іншими нейромережами. Наприклад, у ролику був створений образ хлопчика. Для порівняння, ми протестували цей самий образ у MidJourney, Flux Pro 1.1 та Ideogram. Результати Magnific AI помітно перевершують за якістю, що і стало вирішальним фактором у нашому виборі.
Серед популярних рішень для генерації фото є кілька достойних варіантів, але всі вони поступаються Magnific AI. Наприклад, MidJourney не створює настільки деталізованих і реалістичних зображень людей, як хотілося б. Flux Pro надмірно ретушує зображення, що знижує його природність. А Ideogram, хоча й добре працює з композицією, часто має проблеми з освітленням у кадрі, через що зображення виглядає менш привабливим.
Magnific AI, навпаки, виділяється своєю здатністю генерувати надзвичайно реалістичні зображення. Однією з головних переваг є спеціальна модель Magnific AI Mistic 2.5 Realism, яка створює зображення людей, що виглядають як справжні. Це ідеальний вибір для тих, хто шукає максимальну реалістичність у контенті.
Якщо поглянути на результат MidJourney, то дівчинка начебто виглядає гарно, але відчувається, що вона якась «не така». У реальному світі таких людей не існує — зображення виглядає надто відретушованим, а обличчю бракує важливих деталей.
Flux Pro створив дівчинку, яка більше нагадує мультяшний чи анімешний персонаж. До того ж, образ виглядає навіть трохи сексуалізовано, що абсолютно неприйнятно для контенту дитячої дистанційної школи.
Що стосується Ideogram, то отриманий образ дівчинки виглядає менш привабливо, а ще втрачається кінематографічність кадру, що є важливим для створення емоційного й професійного контенту.
Порівняння нейромереж: чому Magnific AI виділяється серед інших
Якщо говорити про Magnific, то вона майже не поступається MidJourney з точки зору кінематографічності кадру, освітлення, тіней, ракурсів камери та художньої постановки. Magnific лише трохи слабша в цих аспектах, але її результати значно кращі, ніж у Ideogram чи Flux. Наприклад, Ideogram взагалі не відтворив композицію, де дівчина мала тримати букет перед тим, як його підкинути, і одразу вирішив «підкинути» букет. Flux Pro, у свою чергу, не промалював очі дівчини, через що вона виглядала, вибачте, як потвора. Magnific натомість забезпечив максимальну деталізацію: обличчя дівчини у фокусі, а квіти — розмиті для створення кінематографічного ефекту.
У MidJourney також вийшла гарна картинка, але не така, як ми хотіли. Ми прагнули центрованого кадру, а MidJourney часто має проблеми з когерентністю і видає надто художній стиль, втрачаючи певні елементи текстових підказок. Для отримання потрібного результату з цією нейромережею доводиться робити більше генерацій.
Якщо ж детально порівнювати Magnific із іншими нейромережами, ми провели дослідження, результати якого доступні в нашому Telegram-каналі. Там є пелюсткові діаграми, які показують шість основних переваг кожної нейромережі. Наприклад, Magnific отримала 10 балів за реалістичний стиль, хоча в художньому стилі вона трохи поступається. MidJourney має кращі результати в художньому напрямку.
Когерентність у Magnific одна з найвищих на ринку — 9 балів, і лише Ideogram має більше (10 балів). Кінематографічність кадру у Magnific також на дуже високому рівні, поступаючись лише MidJourney. Щодо деталізації, то Magnific є абсолютним лідером на ринку: майже жодна інша нейромережа не може забезпечити таку чіткість і деталізацію.
Єдиний недолік Magnific — її висока вартість. Ця нейромережа в 13 разів дорожча за MidJourney, тому її доцільно використовувати для професійних цілей, таких як робота агенцій чи продакшенів. Це вже свідчить про певне розділення нейромереж на доступні для масового використання (наприклад, MidJourney, Recraft, Dall) і професійні, які забезпечують найкращий результат для створення високоякісного продукту.
Сьогодні створити відеоконтент за допомогою штучного інтелекту може кожен, але не кожен здатний створити якісний контент. А чим якісніший ваш контент, тим більша ймовірність, що ви виділитеся серед інших. Magnific — це один із інструментів, який у цьому допомагає.
Ретуш та апскейл
Якщо ви ще не знали, нейромережі сьогодні дозволяють кардинально змінювати фотографії. Багато дизайнерів, ймовірно, чули про нейромодель Adobe Firefly, доступну в рамках Adobe Photoshop. Користувачі платної підписки вже активно використовують її у своїй роботі. Проте, на сьогоднішній день це вже не є найтоповішим рішенням у сфері нейромереж.
Серед цікавих інструментів варто відзначити нейромережу Freepik Retouch, яка доступна в рамках сервісу Freepik. Якщо вам цікаво, можете перейти за посиланням і ознайомитися з її можливостями.
Ми використовували Freepik Retouch для редагування наших зображень, і результати дійсно вражають.
Наприклад, під час генерації ми стикнулися з кількома недоліками: у дівчини був дивний чубчик, зайвий палець, а деякі люди при анімації виглядали надто мутованими. Ми вирішили ці проблеми за допомогою Freepik Retouch. Достатньо було виділити пензликом потрібні області, поставити крапку й написати команду «прибери» — і нейромережа зробила все за нас.
На цю корекцію ми витратили буквально одну хвилину. Для порівняння, раніше подібна робота займала б значно більше часу.
Ще один приклад, який демонструє унікальність Freepik Retouch, — це можливість коригування рук та генерація пальців. Ця функція є особливою перевагою, оскільки з подібними завданнями Adobe Firefly впоратися не може.
Часто під час роботи з контентом виникають складнощі з генерацією деталей, особливо пальців та рук. Наприклад, деякі генерації ми створювали у MidJourney, але там часто трапляються спотворення, такі як відсутні пальці чи деформовані руки. У Adobe Firefly виправити ці недоліки одразу практично неможливо — це потребує багато часу та зусиль.
Freepik Retouch вирішує ці проблеми набагато швидше завдяки підключеній моделі Flux, яка спеціалізується на антропометрично правильному відтворенні кінцівок, пропорцій тіла, рис обличчя, очей і пальців. Ця модель дозволяє значно економити час і досягати кращих результатів.
Крім того, для покращення деталізації та світла ми використовували апскейлінг — інструмент, який дозволяє збільшити якість та деталізацію зображень.
Для покращення якості зображень ми використовували Magnific Upscaler, доступний у сервісі Magnific. Цей інструмент не тільки дозволяє генерувати фото, але й забезпечує якісний апскейлінг.
Ми звернулися до апскейлінгу, оскільки деякі кадри навіть Magnific не міг відгенерувати повністю. У таких випадках ми використовували MidJourney, яка забезпечувала кращу кінематографічність картинки, але мала проблеми з деталізацією. Після обробки в Magnific Upscaler зображення помітно покращувалося: грим на хлопчику став більш виразним, світло навколо — природнішим, волосся та текстури — детальнішими.
Особливістю Magnific є те, що він може «витягувати» потрібну стилістику навіть із генерацій MidJourney. Завдяки цьому всі наші кадри, незалежно від інструменту створення, отримали єдину стилістику. Це чудове рішення, яке забезпечило високу якість та узгодженість усього контенту.
Що ми обрали для відео?
Ми провели порівняння трьох нейромереж — Runway, Kling та Minimax. Для тестування використовували різні версії кожної з них, генеруючи всі можливі варіанти. Ці нейромережі, на нашу думку, є одними з найтоповіших у своїй сфері.
Якщо говорити про крупні плани людей, ось наш приклад із хлопчиком, який мав просто рухатися вперед. Runway залишила зображення без змін — ні світла, ні ефекту розмиття. Kling суттєво погіршила якість: очі стали малопомітними, а сама картинка розмита. Minimax узагалі «вирішила», що хлопчик має залишити кадр, тобто отримали неробочий варіант.
Щодо анімації тварин, результати також були різними. Кіт мав нявкати, а потім або закрити рот, або продовжувати емоцію, наприклад, шипіти. Runway зробила це добре, але додала зайвий зуб, який довелося видалити під час монтажу. Kling додала коту язик, через що він виглядав надто «людським». А Minimax взагалі зробила кота таким, що його поведінка стала неприйнятною. У підсумку ми використали генерацію від Runway.
Для анімації складних дій, наприклад, підкидання дівчиною букета, найкращі результати знову показала Runway.
У цій генерації букет підлітав, а квіти розліталися, створюючи потрібний ефект. Kling не впоралася — дівчина просто стояла з букетом, а її руки мали дивні деформації. Minimax зробила дію, але дівчина виглядала так, ніби сердито розкидала квіти, що не відповідало задуму.
Останній тест — танець дівчини в кадрі. Runway відтворила рухи, хоч і злегка крінжово, але динаміка була. Kling забезпечила кращу анімацію, але обличчя дівчини вийшло розмитим, а рухи супроводжувалися зникненням руки й «склеюванням» ніг. Minimax створила динамічний танець, але обличчя дівчини взагалі не було видно, що унеможливило використання кадру для фотореалізму.
Висновок: якщо ви створюєте відеоконтент із фотореалістичним нахилом, на сьогоднішній день найкращий вибір — Runway.
Особливістю Runway є можливість швидко створювати Lipsync. Один із прикладів — кадр, де хлопчик говорить: «Follow» (слідкуй за нами). У цьому випадку чітко видно, як його губи синхронно рухаються з вимовленими словами, що додає реалістичності анімації.
Порівняння відео-нейронок
Загалом ми провели детальне дослідження, результати якого доступні в нашому Telegram-каналі. Це дослідження досить складне, тому зараз я його детально не розбиратиму.
Єдине, що зазначу: якщо оцінювати Runway за кількістю морфінгу, який вона створює, то в більшості тестів вона показує одні з найкращих результатів, поступаючись лише новій нейромережі Video AI, яка ще не була доступна на момент створення нашого ролика. Водночас Runway значно перевершує Kling і Minimax. Наприклад, у тестах Minimax отримала лише 5 балів із 10, тоді як Runway — близько 8.
Щодо інших показників, коли мова йде не про фотореалізм, Kling демонструє більшу потужність. Це можна побачити на діаграмі, де площа, що відповідає Kling, суттєво більша. Основний недолік Kling — це тривалий час генерації: у середньому від 6 до 9 хвилин на один кадр. Якщо генерувати більше, це може зайняти від 12 до 15 хвилин на день, що не завжди зручно.
Збільшення FPS
Одним із цікавих лайфхаків, який ми застосували у цьому кейсі, стало збільшення FPS (кадрів за секунду). Для цього ми використали нейромережу Topaz Video AI, яку можна встановити на комп’ютер.
В чому ж головна фішка?
Якщо генерувати відео в Runway, його роздільна здатність становитиме 720 пікселів із частотою 24 кадри на секунду. Це базові налаштування, які трішки змінені, але все ще мають обмеження. Kling, у свою чергу, пропонує частоту 30 FPS, що вважається золотим стандартом для відео в соціальних мережах. Однак роздільна здатність залишається недостатньою, а відео, навіть згенероване з 30 FPS, може виглядати «дьорганим», що легко видає його штучне походження.
Цей ефект пов’язаний із роботою алгоритмів, але його можна усунути. Є простий лайфхак: використати Topaz Video AI для збільшення частоти кадрів і роздільної здатності. Наприклад, для Kling можна встановити частоту 60 FPS, а для Runway — 50 FPS, чого буде достатньо. Окрім цього, Topaz Video AI дозволяє додатково покращити роздільну здатність відео, зробивши його якіснішим і природнішим.
Після збільшення частоти кадрів за допомогою Topaz Video AI відео потрібно завантажити в програму для монтажу та знову обробити. Цей етап включає повторну конвертацію FPS до 30, щоб при завантаженні відео в TikTok чи Instagram якість не знижувалася. Завдяки такій подвійній обробці відбувається своєрідна «магія», і відео, створені в нейромережах, стають значно плавнішими.
Можливо, ефект не завжди помітний відразу, але він суттєво впливає на якість. Наприклад, у нашому відео обличчя хлопчика стало більш чітким, а його рухи — плавнішими. Швидкі кадри виглядають природніше, очі закриваються м’яко, а дихання і міміка стають менш «дьорганими».
Цей лайфхак досі майже ніхто не використовує, оскільки він був відкритий відносно недавно. Але його застосування може значно підвищити якість вашого контенту, роблячи його більш професійним і привабливим для глядачів.
Останній штрих — саунд-дизайн
І останній штрих, про який варто пам’ятати, — це музика.
Музику для ролика можна генерувати різними способами. У нашому випадку ми використали трендовий хіт від Megan Mamushi, відомої співачки. Трек був завантажений у Suno AI, де ми створили кавер на основі оригінальної композиції.
Потім на цей кавер зробили ще один кавер. Такий підхід дозволяє, по-перше, уникнути порушення авторських прав, а по-друге, отримати музику, яка зберігає стиль і звукові акценти оригіналу, але при цьому є унікальною. Це дозволяє інтегрувати трендові мелодії у ваш контент без юридичних ризиків.
Окрім цього, важливу роль у створенні ролика відіграє саунд-дизайн. Ми використали понад 30 різних звуків: котик нявкає, десь чути хлопок, блискавка створює шум та інші дрібні звукові деталі. Такий підхід дозволяє створити глибшу атмосферу та покращити занурення глядача у сам ролик.
Підписуйтесь на телеграм-канал WebPromoExperts та читайте ще більше корисної та цікавої інформації зі світу маркетингу та штучного інтелекту!
Telegram-канал WebPomoExpertsРезюмуємо
Сучасні технології штучного інтелекту відкривають безмежні можливості для створення відеоконтенту. Від генерації реалістичних зображень і анімацій до покращення деталізації та роботи з музикою — інструменти, як-от Runway, Magnific, Freepik Retouch і Suno AI, дозволяють значно спростити процес і отримати професійний результат.
Однак важливо пам’ятати, що технічна якість — лише частина успіху. Поєднання креативності, уваги до деталей і правильного використання звукових і візуальних елементів допомагає створити справді унікальний контент, який виділяється серед інших. Штучний інтелект — це потужний інструмент, який у руках талановитих спеціалістів перетворюється на ключ до створення якісного, трендового та захоплюючого контенту.
Авторизуйтесь , щоб залишати коментарі