İndi süni intellekt təkcə yanlış cavablar yaratmaq riski ilə deyil, həm də qəsdən zəhərlənmə təhlükəsi ilə üzləşir. Böyük Britaniyanın AI Təhlükəsizlik İnstitutu, Alan Turing İnstitutu və Anthropic-in birgə araşdırmasına görə, milyonlarla məlumat nöqtəsindən ibarət təlim dəstinə cəmi 250 zərərli fayl əlavə etmək modeli gizli şəkildə zəhərləyə bilər.
Süni intellektlə zəhərlənmə qəsdən bir modelə yalan məlumat öyrətməyi əhatə edir. Məqsəd modelin davranışını pozmaq, onun səhv nəticələrə səbəb olmaq və ya gizli zərərli əmrləri daxil etməkdir.
Məsələn, təcavüzkar müəyyən edilmədən təlim məlumatlarına xüsusi tətik sözünü daxil edə bilər. Model bu sözlə qarşılaşdıqda avtomatik olaraq təcavüzkarın istədiyi istiqamətdə cavab verir. Bu üsul “arxa qapı” hücumu kimi tanınır.
Dezinformasiyadan tutmuş kibertəhlükəyə qədər bəzi hücumlar modelin ümumi performansını aşağı salmaq məqsədi daşıyır.
Buna “mövzunun idarə edilməsi” deyilir.
Hücumçular minlərlə saxta internet saytlarında “kahı xərçəngi müalicə edir” kimi yalan məlumatları yaya və modeli aldadaraq, bu məlumatı doğruymuş kimi öyrənə bilər.
Tədqiqatlar göstərir ki, bu cür məlumat zəhərlənməsi real dünyada tətbiq oluna bilər və ciddi nəticələrə səbəb ola bilər. Yanvar ayında aparılan eksperimentdə təlim məlumatlarının yalnız 0,001 faizini yalan məlumatla əvəz etmək modelin tibbi məsələlərdə yanlış cavablar vermə ehtimalını artırıb.
Rəssamlar Counter-Strike edir
Bəzi rəssamlar süni intellekt modellərinin icazəsiz məzmun toplamasının qarşısını almaq üçün öz sənət əsərlərinə “zəhər” yeridirlər. Beləliklə, bu məzmundan istifadə edən modellər pozulmuş və ya faydasız nəticələr verir.
Ekspertlərin fikrincə, bu, süni intellekt texnologiyasının göründüyü qədər möhkəm olmadığını sübut edir. “Zəhərlənmiş” modellər gələcəkdə həm dezinformasiyanın yayılması, həm də kibertəhlükəsizlik zəiflikləri baxımından ən ciddi təhlükələrdən birinə çevrilə bilər.
Mənbə: Trthaber
