BS Ekonomi Bağımsız Medyasını Destekleyin
Eğer abone iseniz giriş yapınız.
Büyük Dil Modelleri (LLM’ler), yapay zekâ geliştirmede popüler bir yöntem olsa da yapısal bir güvenlik sorununa sahiptir: kod ile veriyi birbirinden ayıramazlar. Bu nedenle, “prompt injection” adı verilen saldırılara açıktırlar. Bu tür saldırılarda model, aslında yerine getirmemesi gereken komutları çalıştırmaya ikna edilir. Kimi zaman sonuç yalnızca utandırıcıdır; örneğin bir müşteri destek asistanının korsan gibi konuşmaya kandırılması gibi. Ancak bazen çok daha yıkıcı etkiler doğurur.
En büyük risk, “ölümcül üçlü” (lethal trifecta) olarak bilinen durumdan kaynaklanır. Eğer bir şirket, çalışanlarına güçlü bir yapay zekâ asistanı sunma hevesiyle, bir LLM’e hem güvenilmez verilere erişim, hem değerli sırları okuma, hem de dış dünyayla iletişim kurma yetkisi verirse, felaket kaçınılmaz hale gelir. Bu tehlikeden kaçınmak yalnızca yapay zekâ mühendislerinin değil, sıradan kullanıcıların da sorumluluğundadır. Yanlış uygulamaları aynı anda yüklemek, kazara bu üçlüyü oluşturabilir.
Yine de ilk savunma hattı daha iyi mühendisliktir. Bu da yapay zekâ geliştiricilerinin, köprü inşa eden mühendisler gibi düşünmeye başlamasını gerektirir; çünkü özensiz iş, can kaybına yol açar.
Tarihsel dersler
Victoria dönemi İngiltere’sinde mühendisler, malzemelerin dayanıklılığını kesin olarak bilemedikleri için temkinli davrandılar. O dönemin demiri çoğu zaman yetersizdi. Bu yüzden mühendisler yapılarında fazladan dayanıklılık (redundancy) eklediler. Ortaya çıkan eserler yüzyıllara meydan okudu.
Yapay zekâ güvenliği alanında ise böyle bir zihniyet hâkim değildir. Geleneksel yazılım deterministik bir süreçtir; hatalar bulunur, düzeltilir ve ortadan kalkar. Bu yaklaşım, eğitim hayatından itibaren yazılımcılara aşılandığından, LLM mühendisleri çoğu zaman sorunların daha fazla eğitim verisi ya da daha zekice hazırlanmış sistem komutlarıyla çözülebileceğine inanır.
Bunlar riski azaltır, ancak ortadan kaldıramaz. Çünkü yazılımdan farklı olarak, LLM’ler olasılıklıdır. Yanıtları, muhtemel seçeneklerden rastgele seçimlere dayanır. Bu nedenle, güvenlikte deterministik yaklaşım yetersizdir. Fiziksel dünyadaki mühendisleri taklit etmek, güvenilmez sistemlerle baş etmeyi öğrenmek gerekir. Güvenlik payı bırakmak, hata oranlarını göze almak ve risk toleransı tanımlamak bu anlayışın parçasıdır.
AI çağında fazla inşa etmek
Yapay zekâda “overbuilding”, örneğin eldeki görev için gerekenden daha güçlü bir model kullanmak olabilir; böylece kötü niyetli sorgulara kanma ihtimali azalır. Dış kaynaklardan gelen sorgulara sınırlama getirmek de riskleri düşürür. Mekanik mühendislikte olduğu gibi “güvenli şekilde başarısız olmak” esastır: bir AI sisteminin gizli bilgilere erişmesi gerekiyorsa, ona bütün krallığın anahtarları verilmemelidir.
Köprü dersi
Fiziksel dünyada köprülerin ağırlık limitleri vardır. Bu limitler çoğu zaman gerçek kapasitenin altındadır; böylece güvenlik payı bırakılır. Yapay zekâ sistemlerinin sanal dünyası da benzer şekilde düzenlenmelidir. Zaman, bu köprü dersini AI güvenliğine uyarlama zamanıdır.