Sora 2 додає синхронну аудіодоріжку і Cameos – реалістичніші відео, система кредитів і обмежений доступ на iOS

Sora 2 додає синхронну аудіодоріжку і Cameos - реалістичніші відео, система кредитів і обмежений доступ на iOS

Коли OpenAI у лютому 2024 року вперше показала Sora, це був прорив: штучний інтелект, здатний перетворити текстові підказки на відео. Але цей інструмент довго лишався радше демонстрацією можливостей, ніж повноцінним продуктом. До грудня модель вийшла до користувачів ChatGPT Plus і Pro, проте відео залишалися «німими» – без діалогів, шумів, музики. Саме цей недолік і усуває нова версія – Sora 2.

Sora 2: від красивої картинки до повноцінного відео

Sora 2 додає до згенерованого відео те, без чого воно не сприймається завершеним: синхронізований звук. Йдеться не просто про довільні мелодії чи фон, а про діалоги, що збігаються з рухом губ, а також звукові ефекти – від шуму кроків до гуркоту дощу чи реву двигуна. Оновлення стало доступним 30 вересня, і в OpenAI описують модель як таку, що «вміє робити речі, надзвичайно складні, а подекуди й неможливі» для попередніх систем відеогенерації.

Розробники особливо підкреслюють, що Sora 2 точніше дотримується фізичних законів. Перша версія, попри вражаючу картинку, часто «забувала» про гравітацію, інерцію чи логіку руху предметів. Наприклад, рідина могла текти неприродно, а об’єкти – зависати чи змінювати форму без жодного сенсу. Усередині OpenAI це пояснювали тим, що модель надто старанно намагається виконати текстову інструкцію, жертвуючи правдоподібністю.

Sora 2 вже не настільки «довіряє» лише тексту: вона уважніше відтворює взаємодію персонажів із простором, справжню перспективу, поведінку світла й тіней, масу та рух предметів. Для глядача це означає менше дивних, «сонних» кадрів і більше сцен, які нагадують професійно змонтовані ролики чи короткометражне кіно.

«GPT-3.5 момент» для відео

У самій OpenAI називають Sora 2 своїм «моментом GPT-3.5» для відео. Так розробники натякають: стрибок між першою і другою версіями – не косметичний, а поколіннєвий. Коли свого часу з’явився GPT-3.5, він став проміжною, але дуже впливовою сходинкою між ранніми мовними моделями й тим, що сьогодні відоме як GPT-4. У випадку з відео OpenAI фактично стверджує, що Sora 2 перескакує через кілька етапів розвитку й одразу виходить на якісно новий рівень реалістичності.

Ця амбіція особливо помітна на тлі змагання з іншими гравцями в галузі генеративного відео – від Google до стартапів, що спеціалізуються на створенні роликів за короткими підказками. На ринку, де кожен намагається запропонувати ефектні демо, саме стабільність, природність руху і поєднання з переконливим звуком можуть стати головною перевагою.

Функція Cameos: коли головним героєм відео стаєш ти

Одне з найпомітніших нововведень Sora 2 – функція Cameos, яку запускають одночасно з окремим застосунком Sora для iOS. Вона дозволяє буквально «вставити» себе у створений штучним інтелектом сюжет.

Щоб скористатися Cameos, потрібно один раз записати коротке відео з обличчям і голосом – це одночасно виконує роль підтвердження особи та «зразка» для моделі. Після цього Sora 2 може поміщати користувача в будь-яку згенеровану сцену: від прогулянки в осінньому Києві до мандрівки вигаданою екзопланетою або середньовічним замком. Система намагається зберегти риси обличчя, манеру рухів і навіть тембр голосу, щоб поєднання реальної людини та цифрового середовища виглядало цілісно.

OpenAI підкреслює, що механізм працює не лише з людьми. Можна «оцифрувати» домашнього улюбленця чи навіть конкретний предмет – наприклад, іграшку, старовинну камеру або музичний інструмент. Таким чином користувачі отримують майже безмежне поле для експериментів – від особистих відеолистів до рекламних роликів чи фанатських проєктів у стилі косплею.

Втім, така гнучкість неминуче породжує запитання щодо конфіденційності й етики: як захистити користувачів від несанкціонованого використання їхнього образу, що робити з можливими підробками, як обмежити створення контенту, який може завдати шкоди репутації живих людей. Розробники наголошують, що передбачають перевірку особистості, проте деталі технічних і правових запобіжників поки що описані доволі стисло.

Де вже можна спробувати Sora 2

Поетапний запуск: від Північної Америки до Азії

OpenAI обрала обережну схему запуску Sora 2. Спершу модель запрацювала у США та Канаді в режимі доступу за запрошеннями. Для компанії це стратегічно важливі ринки: тут базуються головні технологічні центри, а також діють регуляторні норми, до яких OpenAI вже звикла, розвиваючи ChatGPT.

Після Північної Америки Sora 2 поступово з’явилася в кількох азійських країнах: Японії, Південній Кореї, Таїланді, В’єтнамі та на Тайвані. Вибір саме цих напрямків не випадковий. Японія – одна з провідних креативних індустрій світу, де аніме, манга та відеоігри формують цілі пласти масової культури. Сеул і Пусан у Південній Кореї – центри K-pop, кіно й телесеріалів, що активно працюють із візуальними технологіями. Тайвань відомий потужною технологічною інфраструктурою та виробництвом мікрочипів, а Бангкок чи Хошимін стають все більш значущими для стартап-сцени й цифрового контенту у Південно-Східній Азії.

Запуск у цих регіонах дозволяє OpenAI оперативно протестувати Sora 2 у середовищі професійних відеомейкерів, аніматорів і студій, які можуть найкраще виявити слабкі місця моделі й запропонувати нові сценарії використання.

Список очікування та обмеження доступу

Нині користувачі, які хочуть спробувати застосунок Sora з другою версією моделі, мають записатися до списку очікування в iOS. Формально це безкоштовний доступ, але отримати його можуть лише ті, кому OpenAI надішле запрошення. Компанія пояснює це потребою контролювати навантаження на інфраструктуру та ретельно відстежувати, як саме люди використовують новий інструмент.

Андроїд-версію Sora 2 поки не анонсували. Натомість уже вийшов окремий застосунок Sora для Android із першою версією моделі. За даними компанії, лише за перший день його завантажили приблизно 470 тисяч разів – показник, що свідчить про величезний інтерес до генеративного відео навіть без найсвіжіших функцій другої версії.

Як працює оплата: кредити, тривалість і якість

Система кредитів замість фіксованої ціни

Для Sora 2 OpenAI запровадила систему кредитів. Кожне згенероване відео «списує» певну кількість таких умовних одиниць, а їх витрата залежить від трьох параметрів: роздільна здатність ролика, його тривалість і тип моделі – стандартна Sora 2 чи розширена Sora 2 Pro.

На старті iOS- і вебверсій запрошені користувачі можуть безкоштовно працювати зі стандартною Sora 2. У цей набір входять усі базові функції: створення відео з тексту, додавання звукових ефектів, озвучення й просте редагування. Для багатьох креаторів цього вже достатньо, щоб знімати кліпи, короткі історії для соцмереж або експериментальні анімації, не вкладаючи гроші у програмне забезпечення чи потужне «залізо».

Sora 2 Pro для передплатників ChatGPT Pro

Для тих, хто платить 200 доларів США на місяць за передплату ChatGPT Pro, OpenAI відкриває додатковий рівень – Sora 2 Pro. Доступ до нього надається без окремої доплати, проте саме генерація відео споживає більше кредитів. Натомість користувач отримує вищу якість зображення, більшу кількість варіантів для одного запиту й розширені можливості налаштування. Водночас компанія підкреслює, що режим Pro все ще перебуває у стадії експерименту – тобто результати часом можуть бути нестабільними, а деякі функції змінюватимуться на ходу.

Скільки «коштують» відео різної тривалості

У стандартній Sora 2 10-секундне відео обходиться в 10 кредитів і дає одну спробу генерації. Якщо потрібен ролик тривалістю 15 секунд, доведеться витратити 20 кредитів – натомість користувач отримує дві спроби створити той самий сюжет із різними варіантами виконання.

У Sora 2 Pro розклад складніший, але й можливості ширші. Для 10-секундного відео у стандартній роздільній здатності потрібно 40 кредитів – зате система пропонує одразу чотири варіанти. 15 секунд відео коштуватимуть 80 кредитів з вісьмома версіями, а 25 секунд – 120 кредитів із дванадцятьма варіантами. Це важливо для професіоналів: чим більше альтернативних спроб, тим вищі шанси обрати кадри, максимально наближені до творчого задуму.

Окремо йдеться про високоякісні ролики. За 10 секунд у підвищеній роздільній здатності доведеться викласти 250 кредитів – зате на виході користувач отримає 25 варіантів. А 15 секунд високоякісного відео коштують уже 500 кредитів із 50 варіаціями. Така схема нагадує роботу студій, де для реклами або музичного кліпу знімають десятки дублів, щоб у фінальний монтаж потрапили лише найпереконливіші.

Що буде далі: API та співіснування з Sora 1 Turbo

OpenAI вже анонсувала намір інтегрувати Sora 2 в API. Це означає, що з часом розробники зможуть вбудовувати відеогенерацію безпосередньо у свої сервіси, ігри, освітні платформи чи, наприклад, редактори відео. Така інтеграція особливо важлива для міст, де сконцентровані креативні індустрії: Лос-Анджелес як центр кіно, Токіо з його величезною аніме- та геймерською культурою, а також Сеул, де поєднуються музичний бізнес і високі технології.

При цьому в OpenAI не поспішають «списувати» попередні напрацювання. Компанія підтвердила, що Sora 1 Turbo залишиться доступною. Це спрощена, але швидка версія першої моделі, яка може стати корисною там, де не потрібна гранична реалістичність, зате важлива оперативність і нижча вартість. Такий підхід дозволяє користувачам обирати, що їм підходить більше: швидкі чернетки на основі Sora 1 Turbo чи детально опрацьовані сцени з Sora 2.

У підсумку відеомоделі OpenAI поступово перетворюються на окрему екосистему, де експериментальне співіснує з масовим використанням, а аматорські спроби – з професійними постановочними роликами для брендів, фестивалів та онлайн-платформ.

Прокоментувати

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *