Euskaldunek berek dute falta eta ez hizkuntza ereduek
Erderek eta euskaraz han hemenka dauden kalitate baxuko testuek automatikoki sortutako testuen kalitateari eragiten diote.
Azken asteetan euskararako erabilgarri dauden hizkuntza eredurik onenek idatzitako 300 albisteen laburpen irakurri dut. Oro har hizkuntza ereduek euskarazko albisteak laburbiltzen dakitela esan dezaket, kalitate aldetik alde nabarmena egon arren hizkuntza ereduen artean. Inork jakin nahi badu, GPT4o (“ChatGPT”) da onena ataza honetarako.
Zutabea aurreko esaldi horrekin amai nezake, ez balitz 300 albiste irakurtzeak adimen artifizialaren egungo gaitasunen azterketa sakonagoa egitea ahalbidetu didala. Hain zuzen ere, hizkuntza ereduek euskarazko testuak sortzean hitz eta patroi batzuk errepikatzeko joera dutela identifikatu dut. Ingelesaren kasuan testu jantziagoak eraikitzera darama joera horrek. Euskararen kasuan testuen kalitatea okertu egiten da.
Akaso aspaldion entzun duzue erraza dela adimen artifizialak idatzitako artikulu zientifiko bat erabiltzen dituen hitzengatik identifikatzea. Sona handia izan dute “delve” (sakondu) aditzaren erabilera exageratua eta “intricate” (korapilatsu) adjektiboaren edo “meticulously” (zorroztasunez) adberbioaren presentzia biderkatu dela nabarmentzen dituzten lanak. Adibide horiek hizkera jantziaren eredu dira eta askotan arrotz suertatzen dira ingeles hiztunen testuetan kutsu zaharkitua dutelako. Eta are arrotzago agertzen dira jatorrizko ingeles hiztun ez direnen testuetan. Zer esanik ez testuaren zati batzuek hizkera jasoa eta tatxarik gabekoa dutenean, eta beste batzuetan akats nabarmenak eta hiztegi pobrea erabiltzen direnean.
Ondorioz, esan dezakegu, hizkuntza ereduek idazteko estilo propioa dutela (baita irudiak sortzeko ere) eta erraza dela gizakiek horiek baliatu dituztela antzematea. Arrazoia nahiko sinplea da: hizkuntza ereduek eskura zituzten artikulu zientifiko guztiak irakurri dituzte, eta horien estiloa ikasi dute. Gauza da oso artikulu zahar eta loretsuetatik ere ikasi dutela eta, nahiz eta edozein momentutan mundua konkistatu eta gizakiak esklabotuko gaituzten, ez dakitela modernoa zer den bereizten (dagoeneko irakatsi ez badiegu).
Euskararen kasuan artikulu zientifiko gutxi dago euskaraz, ingelesa baita zientziaren hizkuntza. Euskaldunak, ordea, hain gutxi izateko nahiko aktiboak gara interneten eta egunkari eta aldizkariez gain, nahiko Wikipedia handia dugu eta asko dira sare sozialetan euskaraz kexu direnak (hau da, euskaraz egiten dituzte —batzuetan euskarari buruzko— kexak). Tamalez, herri berritsu hau ez dago guztiz alfabetatua, eta euskarazko testu asko eta asko kalitate baxukoak dira.
Hala, euskarazko hizkuntza ereduek erderakadak ikasi dituzte. Adibidez, “eskolak eman” baino “klaseak eman” hobetsi du hizkuntza eredu batek, ziurrenik hori baita interneten maizen agertzen dena. Era berean, ergatiboaren marka sarri ahaztu dute aztertutako ereduek. Gainera, joera nabarmena ikusi dut aditza esaldi hasierara ekartzeko eta pasiboa erabiltzeko. Baliteke azken bi horiek, trebatzen ari diren euskal hiztunei gertatzen zaien bezala, beste hizkuntzen eraginagatik gertatzea, eta aztertzeko dut euskarazko testuetan baino maizago agertzen diren automatikoki sortutako testuetan.
Laburbilduz, automatikoki sortutako testuak akastunak badira, euskaldunek berek dute falta eta ez hizkuntza ereduek. Bedi zutabe hau euskaraz ondo idazteko ahaleginaren lekuko, euskaldunek euskaraz irakurtzeko zerbait izan dezaten, baita adimen artifizialak eredu egokiak aurki ditzan ere.