Могли бисмо да останемо без података за обуку ВИ до 2026. Хоће ли све(т) стати?

Како вештачка интелигенција постаје све популарнија, истраживачи упозоравају да постоји опасност да нам понестане података за тренирање модела, то јест горива које покреће моћне системе засноване на вештачкој интелигенцији. То би могло да успори раст неких модела, посебно великих језичких модела, и може чак да промени путању револуције ВИ.

С обзиром на зетабајте података на интернету, потенцијални недостатак делује као мало вероватан сценарио. Међутим, ако постоји овакав ризик, има ли начина да се такав проблем реши?

Зашто су висококвалитетни подаци важни за ВИ

Да би моћни, прецизни и висококвалитетни алгоритми постали такви, неопходно их је тренирати на великој количини података.

На пример, добро познати ChatGPT обучаван је на 570 гигабајта текстуалних података, то јест на око 300 милијарди речи.

Слично томе, за тренирање алгоритма стабилне дифузије (који стоји иза многих апликација за генерисање слика као што су DALL-E, „Ленса“ и „Midjourney“) коришћен је LIAON-5B, скуп података који се састоји од 5,8 милијарди парова које чине слика и текстуални опис.

Ако је алгоритам обучен на недовољној количини података, он ће давати нетачне или нискоквалитетне резултате.

Квалитет тих података је такође важан. Податке лошег квалитета, као што су објаве на друштвеним мрежама или замућене фотографије, лако је набавити, али оне нису довољне за обуку врхунских модела заснованих на вештачкој интелигенцији.

Текст преузет са друштвених медија може бити пристрасан или са предрасудама, или може укључивати дезинформације, неретко и недозвољен садржај који би модел могао реплицирати.

На пример, када је „Мајкрософт“ покушао да обучи свог бота користећи садржај са Твитера, резултати су били расистички и мизогини садржаји.

Због тога програмери који раде на развоју вештачке интелигенције траже садржај одличног квалитета као што су текстови из књига, из Википедије, онлајн чланци, научни радови, и одређени филтрирани веб-садржаји. Гуглов асистент трениран је на 11.000 љубавних романа преузетих са сајта Smashwords да би деловао природније у разговору са корисником.

Имамо ли довољно података

Индустрија вештачке интелигенције обучава системе засноване на ВИ на све већим скуповима података, због чега сада имамо задивљујуће моделе као што су ChatGPT или DALL-E 3.

Истовремено, истраживања показују да залихе података на мрежи расту много спорије од скупова података који се користе за обучавање ВИ.

У раду објављеном прошле године, група истраживача предвидела је да ћемо остати без текстуалних података високог квалитета пре 2026. године, ако се наставе тренутни трендови обуке ВИ. Такође су проценили да ће и подаци лошијег квалитета за језичке моделе бити исцрпљени негде између 2030. и 2050. године, а такође подаци ниског квалитета за генерисање слика између 2030. и 2060. године.

Вештачка интелигенција би могла да допринесе и до 15,7 билиона америчких долара светској економији до 2030, процењују стручњаци за рачуноводство из консултантске групе „PwC“.

Али недостатак употребљивих података могао би успорити развој вештачке интелигенције.

Треба ли да се забринемо

Иако би наведени проблеми могли да узнемире неке љубитеље вештачке интелигенције, ситуација можда није тако лоша као што се чини.

Постоји много непознаница о томе како ће се модели вештачке интелигенције развијати у будућности, а такође постоји неколико начина за решавање проблема који настају због недостатка података.

Једна опција је да програмери који раде на развоју вештачке интелигенције побољшају алгоритме како би ефикасније користили податке које већ имају. Већ наредних година, системи који су засновани на ВИ вероватно ће моћи да буду тренирани коришћењем мање количине података, а можда и уз мање рачунарске снаге. Ово би такође помогло да се смањи угљенични отисак при раду модела ВИ.

Други начин подразумева коришћење вештачке интелигенције за прављење синтетичких података за обуку система. Другим речима, програмери могу једноставно да генеришу податке који су им потребни и да их одаберу тако да одговарају њиховом конкретном моделу.

Зна се да се у неколико пројеката већ користи синтетички садржај, који се често добија од система за генерисање података као што је Mostly AI.

Ово ће, у будућности, постати далеко чешће коришћен метод него што је то сада.

Програмери такође трагају за садржајем изван бесплатног онлајн простора, као што је онај који држе велики издавачи и офлајн складишта. То су милиони текстова објављени пре ере интернета. Уколико би постали дигитално доступни, могли би да обезбеде нови извор података за пројекте вештачке интелигенције.

Из „Њуз корпа“ (News Corp), једне од највећих светских медијских кућа и издавача (са великом количином садржаја којем се може приступити уз претплату), недавно су рекли да преговарају о условима који се тичу садржаја са технолошким компанијама.

Такви договори би приморали компаније које раде на развоју вештачке интелигенције да плате податке за тренирање система, док су их до сада углавном бесплатно преузимали са интернета.

Аутори разних врста садржаја протестовали су против неовлашћеног коришћења њихових дела за обуку модела ВИ, а поднете су и тужбе против компанија као што су „Мајкрософт“, „OpenAI“ и „Stability AI“.

Компензација за рад може помоћи да се поврати део неравнотеже моћи која постоји између креативаца и компанија које развијају вештачку интелигенцију.