Nädal 7: Kas GPL ja Creative Commons kehtivad AI treeningandmete puhul?

classic Classic list List threaded Threaded
9 messages Options
Reply | Threaded
Open this post in threaded view
|

Nädal 7: Kas GPL ja Creative Commons kehtivad AI treeningandmete puhul?

andpod
Tarkvaralitsentsid nagu GPL ja Creative Commons loodi ajal, mil peamine mure oli koodi kopeerimine ja tuletatud teoste levitamine. Aga kuidas need litsentsid AI-ajastul toimivad?
Näiteks keelemudelid on treenitud tohutul hulgal internetist kraabitud sisul, sh GPL ja CC litsentsiga materjalil. GPL ütleb, et tuletatud teos peab jääma sama litsentsi alla, aga kas AI mudel, mis on GPL-koodist "õppinud", on tuletatud teos? Kas ta peaks olema avatud lähtekoodiga? Ja kui mudel treeniti CC BY-SA sisul, kas väljund peaks samuti kandma BY-SA litsentsi?
Reply | Threaded
Open this post in threaded view
|

Re: Nädal 7: Kas GPL ja Creative Commons kehtivad AI treeningandmete puhul?

egon
See on huvitav küsimus, kuid praegu minu meelest GPL ega Creative Commons ei kandu AI mudelile automaatselt üle ainult seetõttu, et mudel treeniti sellise litsentsiga sisul. Küsimus sõltub pigem sellest, kas treening, mudel või väljund loetakse autoriõiguse mõttes koopiaks või tuletatud teoseks, selle üle käivad ka vist vaidlused ja siiani pole ühest arusaama.  

Mina proovin seda vaadata umbes nii nagu inimestega, AI on lihtsalt kordades kiirem, kuid me ikka proovime AI-ga mingit inimeste tegevust imiteerida. Inimene vaatab elu jooksul tuhandeid maale ja fotosid, õpib stiile, kompositsiooni ja värvikasutust, ning tema tehtud uus pilt ei kuulu automaatselt kõigile neile varasematele autoritele.
Reply | Threaded
Open this post in threaded view
|

Re: Nädal 7: Kas GPL ja Creative Commons kehtivad AI treeningandmete puhul?

janarn
In reply to this post by andpod
See on väga huvitav küsimus ja tekkis kohe kisatus, et mida AI ise sellest asjast arvab ja viskasin selle küsimuse Geminile ette.

Gemini väidab, et ChatGPT (OpenAI) tingimused ütlevad, et loovutab sulle kõik õigused väljundi osas. Claude (Anthropic) võidab sarnast asja ning Github Copilit/Cursor väidab, et sina oled koodi omanik.

Kus juures huvitav oli see, et esimese küsimise peale jättis Gemini ennast välja ja kui aga täpsustavalt küsisin siis viskas juba oluliselt pikema jutu vastu, mis lühidalt kõlab, et kõik on Google kasutustingimustes kirjas ja Gemini abil loodud kood on sinu. Samuti on toob täpsustavalt välja, et kui Gemini poolt loodud koodis on turvaauke siis selle eeest Google ei vastuta, vaid vastutad sina ise.
Reply | Threaded
Open this post in threaded view
|

Re: Nädal 7: Kas GPL ja Creative Commons kehtivad AI treeningandmete puhul?

caraun
In reply to this post by andpod
Ühes 5. nädala blogipostituses arutlesin sarnasel teemal. Minu arvates saab seda vaadata ka sellest küljest, et kas praegused litsentsid on tehniliselt rakendatavad AI kontekstis või ei. GPL mõte on, et tuletatud teos peab jääma litsentside alla, aga AI puhul on ju raske määratleda, mis asi on tuletatud teos, kas see mudel ise või treeningprotsess või midagi muud. Lisaks treeningandmed on ju tohutult suured ja tihti ei ole täpselt teada või dokumenteeritud kõik allikad, see teeb litsentside järgimise keeruliseks. Samas ei saa öelda litsentsid üldse ei peaks kehtima, sellepärast, et siis kaoks autoritel enda igasugune kontroll, pigem ongi probleem selles, et olemasolevad litsentsimudelid ei ole loodud AI jaoks. Nagu enda ühes blogipostituses arutlesin siis endiselt arvan, et AI jaoks oleks vaja täiesti uusi reegleid.
Reply | Threaded
Open this post in threaded view
|

Re: Nädal 7: Kas GPL ja Creative Commons kehtivad AI treeningandmete puhul?

aljons
In reply to this post by andpod
Minu arvates ei sobi need vanad litsentsid, nagu GPL ja Creative Commons, AI ajastusse eriti hästi, kuna need olid loodud täiesti erinevateks olukordadeks. Kui mudel lihtsalt "õpib" GPL-koodist, siis pole see sama mis koodi kopeerimine või muutmine. CC BY-SA puhul on olukord aga erinev, kui järeldus sarnaneb väga konkreetsete allikatega, võib eraldamiskohustus olla põhjendatud.
Reply | Threaded
Open this post in threaded view
|

Re: Nädal 7: Kas GPL ja Creative Commons kehtivad AI treeningandmete puhul?

reelpe
In reply to this post by andpod
Kahjuks ei saa kindlat teada, kust AIga genereeritud materjal tuleb ja mist litsesi alla kuulus originaal.
 Ja see ei ole hetkel reguleeritud nii hästi kui võiks.
Reelika Pedak
254763 IAAB
Reply | Threaded
Open this post in threaded view
|

Re: Nädal 7: Kas GPL ja Creative Commons kehtivad AI treeningandmete puhul?

Ivatot
In reply to this post by andpod
Minu arvates on GPL ja Creative Commons litsentsid AI-ajastul sattunud olukorda, milleks neid algselt ei loodud. Need loodi eelkõige selleks, et reguleerida koodi või teoste otsest kopeerimist, muutmist ja levitamist. Tehisintellekti puhul ei ole aga enam tegemist klassikalise “tuletatud teosega”, vaid pigem statistilise õppimisega.
Üks peamine küsimus on see, kas AI mudel, mis on õppinud GPL-litsentsiga koodist, on ise tuletatud teos. Mina arvan, et enamasti mitte. Mudel ei sisalda otseselt seda koodi, vaid mustreid ja seoseid. Seetõttu oleks liiga range nõuda, et kogu mudel peaks olema GPL-i all. Samas tekib probleem siis, kui mudel suudab konkreetseid koodilõike peaaegu muutmata kujul taastoota sellisel juhul võib juba rääkida tuletatud teosest.
Reply | Threaded
Open this post in threaded view
|

Re: Nädal 7: Kas GPL ja Creative Commons kehtivad AI treeningandmete puhul?

MadisKoll
In reply to this post by andpod
Kuna praeguses LLMi buumis kirjutatakse vastastikku suuri numbreid lepingutesse ning need on leidnud ka kasutust erinevates valitsuse tegevustes USAs, siis usuks et surve on tugevalt sinna suunda, et mingi hetk otsustatakse et nii GPL kui CC ei kehti LLMide poolt toodetud koodile sama moodi nagu kopeeritud või tuletatud teostele. Vähemalt mitte USA kontekstis. Sisuliselt muudaks see vist Claude Code taolised tööriistad kasutamatuks ettevõtetele kes ei soovi oma lähtekoodi vms avaldada?
Reply | Threaded
Open this post in threaded view
|

Re: Nädal 7: Kas GPL ja Creative Commons kehtivad AI treeningandmete puhul?

kaidokikkas
Administrator
In reply to this post by andpod
Huvitav küsimus tõepoolest.

Aga minu arusaama järgi keskenduvad nii GPL kui CC litsentsid materjali levitamisele (eeskätt kopeerimisele). Tehisaru treenimine aga võiks olla pigem võrreldav sellega, kui inimene võtab raamatukogus raamatu, loeb seda ja paneb siis tagasi - seega ma pole päris kindel, kas seal toimub materjali otsene kopeerimine.

Aga seda võiks ilmselt tõesti mõne nende litsentside ja ka tehisaru osas pädevama juristi (ma kardan, et 90% eesti juristidest ei kvalifitseeru ikka veel, just vabad litsentsid on sageli tume maa) käest uurida.