Zbulim i ri trondit botën e AI-s: gabimet në sintaksë mjaftojnë për të mashtruar modelet inteligjente

Zbulim i ri trondit botën e AI-s: gabimet në sintaksë mjaftojnë për të mashtruar modelet inteligjente




Në laboratorët ku zakonisht lindin risitë teknologjike, këtë herë u zbulua një dobësi që askush nuk e kishte parashikuar: inteligjenca artificiale mund të mashtrohet jo me kode të ndërlikuara, por me fjalë të radhitura ndryshe. Teknika, e quajtur “syntax hacking”, po ngrin alarmin në komunitetin shkencor dhe midis kompanive që ndërtojnë modelet më të përdorura në botë.

Shkencëtarët që kryen eksperimentin arritën të shmangin filtrat e sigurisë të modeleve të mëdha gjuhësore duke përdorur fjali që në sipërfaqe duken të pafajshme, por janë strukturuar me mënyra që fshehin një kërkesë të dëmshme. Modelet, të ndërtuara për të kapur fjalë kyçe apo fraza të qarta, nuk arrijnë të kuptojnë rrezikun kur ai maskohet brenda sintaksës së pazakontë. Për pasojë, ato gjenerojnë informacion që normalisht do të ishte i ndaluar.

Gjuha, sipas studiuesve, po shndërrohet në një mjet hakimi. Thjesht duke ndryshuar renditjen e fjalëve, duke ndarë frazat ose duke i shtuar elemente të padukshme për një njeri të zakonshëm, kërkuesit arritën të çaktivizonin mekanizmat mbrojtës pa e ngritur asnjë alarm tek sistemi. Një e çarë e heshtur, por e rrezikshme.

Ky zbulim tregon se modelet aktuale të AI-s, pavarësisht se sa të fuqishme duken, nuk kanë ende një kuptim të thellë të gjuhës së njeriut — por vetëm një imitacion statistik. Ato e lexojnë mënyrën e të shkruarit sipas rregullsive dhe gjasave, jo sipas kuptimit të plotë. Kjo i lë të pambrojtura ndaj mashtrimeve që bazohen në formë, jo vetëm në përmbajtje.

Ky është një paralajmërim i rëndësishëm për kompanitë që ndërtojnë sisteme të AI-s: siguria nuk mund të mbështetet vetëm tek filtrat që identifikojnë fjalë problematike. Duhet një qasje më e thellë, që analizon logjikën e fjalisë, që kupton kontekstin dhe që detekton qëllimin, jo vetëm tekstin. Ndërkohë, për përdoruesit dhe institucionet, zbulimi hap një debat të ri. Nëse modelet mund të mashtrohen kaq lehtë, çfarë ndodh kur dikush i përdor ato për qëllime të rrezikshme? Dhe sa të besueshme janë përgjigjet që marrim çdo ditë, nëse vetë mekanizmat që ruajnë sigurinë mund të anashkalohen me kaq pak përpjekje?

Edhe pse kërkuesit theksojnë se qëllimi i tyre është të ndihmojnë industrinë të forcojë sistemet, zbulimi i syntax hacking është një dëshmi se AI është ende shumë larg “paprekshmërisë”. Dhe se, në botën e inteligjencës artificiale, dobësitë nuk qëndrojnë gjithmonë tek kodet — shpesh janë të fshehura tek vetë gjuha që përdorim çdo ditë.



/ZoneX Albania – www.zonex.al