OpenAI представио Сору – алат који прави видео-клип на основу задатог текста

Нови генеративни модел произвођача најпознатијег четбота ChatGPT-ja, америчке компаније OpenAI, пружа могућност да на основу упутстава о теми и стилу које задаје корисник „симулира физички свет у покрету“ до једног минута.

OpenAI је представио алат који може да генерише видео-снимке из текстуалних упита, познатијих као промптови. Нови модел, назван Сора по јапанској речи за небо, може да произведе реалистичне снимке дужине до једног минута који се придржавају корисничких упутстава о теми и стилу.

Судећи према информацијама објављених у блогу компаније, модел такође може да креира видео-клип на основу слике или да прошири постојеће снимке новим материјалом.

„Учимо вештачку интелигенцију да разуме и симулира физички свет у покрету, са циљем да обучавамо моделе који помажу људима да реше проблеме који захтевају интеракцију у стварном свету“, наводи се у опису новог генеративног модела.

Један видео-клип који је међу примерима којим се представљају могућности Соре био је заснован на упиту: „Трејлер филма који приказује авантуре 30-годишњег свемирца који носи црвену вунену, плетену мотоциклистичку кацигу, плаво небо, сланиште, филмски стил, сниман на филму од 35 мм, живе боје”.

Приступ Сори отворен је за сада за само неколико истраживача и аутора видео-садржаја. Стручњаци би требало да тестирају Сору како би се утврдило да ли је алат подложан заобилажењу правила компаније OpenAI, којим се забрањује „екстремно насиље, сексуални садржај, призори мржње, сличност са славним личностима или IP адресе“.

Дозвољен је само ограничен приступ истраживачима, визуелним уметницима и филмским ствараоцима, иако је извршни директор компаније Сем Алтман одговорио на упите корисника на друштеној мрежи Икс (некадашњем Твитеру) видео-клиповима за које је рекао да их је направила Сора. Видео-снимци имају жиг који показује да их је направила вештачка интелигенција.

Америчка компанија представила је 2021. године модел за генерисање слика Dall-E, а у новембру 2022. направила хаос пружајући могућност отвореног испробавања модела генеративног претренираног језичког трансформатора ChatGPT-ја, који је убрзо прикупио 100 милиона корисника.

Трка модела за генерисање видео-материјала је почела

Друге компаније које раде на моделима заснованим на вештачкој интелигенцији изашле су већ на тржите са алатима за генерисање видео-записа, иако су ти модели били у стању да произведу само неколико секунди снимака који често немају много везе са упитима.

Интернет гиганти „Гугл“ и „Мета“ потврдили су да су у процесу развоја генеративних видео-алата, иако их нису представили јавности.

У среду су из OpenAI-ја најавили експериментално појачавање меморије четбота ChatGPT како би могао да запамти више ћаскања са својим корисницима.

OpenAI није прецизирао колико је снимака коришћено за обуку Соре или одакле потичу видео-снимци. Представници компаније рекли су за Њујорк тајмс да база снимака употребљених за тренирање модела садржи видео-клипове који су били јавно доступни и лиценцирани од стране њихових власника ауторска права.

Компанија је више пута тужена због наводног кршења ауторских права током обуке својих генеративних алата заснованих на ВИ, који користе огромне количине материјала сакупљеног са интернета и имитирају слике или текст садржане у тим скуповима података.