BS Ekonomi Bağımsız Medyasını Destekleyin
Eğer abone iseniz giriş yapınız.
Geliştiriciler, Sadece En İyilerin Başarabileceği Testler Tasarlıyor
Jonathan Roberts’ın hazırladığı görsel-akıl yürütme sorularından biri, ilk bakışta bir sadistin hazırladığı bulmaca gibi görünüyor: Görselde gizli kelimeleri bulmakla yetinmeyen test katılımcıları, aynı zamanda bir yıldız şekline yerleştirilmiş bir soruyu da fark edip yanıtlamalı. Amaç, tren yolculuğunda zaman geçirmek değil; bu, OpenAI’ın Haziran ayında piyasaya sürdüğü en gelişmiş modeli olan o3-pro gibi yapay zekâ sistemlerine, yeteneklerine layık bir sınav sunmak.
Yapay zekâ modelleri için sayısız test var: bazıları genel kültürü, bazıları ise özel alan bilgilerini ölçmeye çalışıyor. Problem çözme, yaratıcılık ve konuşma yeteneğini test etmeyi hedefleyenler de mevcut. Ancak bu “benchmark” testlerinin çoğu ya aceleyle hazırlanmış, ya eksik ve hatalı, ya da bugünün ileri seviye sistemleri için fazla kolay.
Bu duruma yanıt olarak geliştirilen ZeroBench, Cambridge Üniversitesi’nden Roberts ve ekibinin hazırladığı çok modlu (metin ve görsel anlayabilen) modelleri hedefleyen yeni bir sınav. Testin amacı, sıradan insanlar için az da olsa yapılabilir, fakat mevcut ileri düzey modeller için imkânsız olacak şekilde hazırlanmak. Şu ana kadar hiçbir büyük dil modeli bu testten puan alamadı.
Benzer amaçla geliştirilen bir diğer test seti, yapay zekâ veri şirketi Scale AI tarafından derlenen EnigmaEval. Bu test, zorluk seviyesini en çetrefilli bulmacalardan başlatıyor ve yukarı doğru tırmanıyor. Gelişmiş AI sistemleri, bu sorularla karşılaştığında çoğu zaman sıfır çekiyor. Anthropic’in geliştirdiği bir model, bugüne kadar yalnızca bir soruyu doğru cevaplayabildi.
Başka testlerse belirli yetenekleri izlemeye odaklanıyor. Örneğin METR adlı güvenlik grubu, AI sistemlerinin yerine getirdiği görevleri insanların ne kadar sürede tamamlayabileceğini ölçüyor. “Humanity’s Last Exam” adlı testte ise, bilgi ölçülüyor: binin üzerinde akademik uzmanın katkısıyla hazırlanan sorular, kolibrilerin kemik yapısından Palmirce yazıtların çevirisine kadar uzanıyor.
Yeni testlerin çoğalmasının birkaç nedeni var:
- Eski testler hatalıydı.
ImageNet gibi veri kümelerinde, aynada yansıyan meyveleri gösteren bir fotoğrafı “ayna” olarak tanımlayan bir modele hata puanı verilirken, “muz” diyene doğru puan veriliyordu. - Modeller eski testleri öğrendi.
Benchmark testlerinin, modellerin eğitim verisine sızması engellenemedi. Bu da modellerin sınavlarda gerçek hayattakinden daha iyi performans göstermesine yol açtı. - Yeni modeller tüm puanları topluyor.
Örneğin o3-pro, lise düzeyinde 500 matematik sorusundan neredeyse tam puan alıyor. Ancak dokuz ay önce çıkan o1-mini zaten %98,9 başarı sağlamıştı. Dolayısıyla ilerlemeyi ölçmek zorlaşıyor.
ZeroBench ve diğer ileri seviye testler, insan kapasitesine yaklaşan ya da onu geçen becerileri ölçmek için geliştiriliyor. ARC-AGI testi, 2024’te AI’lar için zor olacak şekilde tasarlanmıştı. Ancak sadece altı ay sonra OpenAI, bu testte %91,5 başarı elde eden bir model tanıttı.
OpenAI CEO’su Sam Altman, GPT-4.5 sürümünü tanıtırken, sistemin “benchmarkları ezip geçmeyeceğini” ama “büyüleyici bir his uyandırdığını” söylemişti. Gerçekten de bazıları bu “büyüyü” ölçmeye çalışıyor. Örneğin Chatbot Arena, kullanıcıların iki dil modeliyle rastgele konuşup “hangisi daha iyi?” diye sormasını sağlıyor. Böylece, kullanıcı algısına dayalı bir sıralama oluşuyor. Fakat bu sistemler de, kullanıcıyı “etkilemeye” yönelik davranışlar sergileyen modeller tarafından manipüle edilebiliyor.
Bazı araştırmacılar ise, her testin yalnızca modelin o testi ne kadar iyi çözdüğünü gösterdiğini, gerçek hayattaki performansla ilgisinin zayıf olabileceğini vurguluyor. California’daki bağımsız araştırmacı Simon Willison, kullanıcıların hâlihazırda hangi görevleri yapamayan modellerle karşılaştığını not almasını ve yeni modellerde bu eksiklikleri test etmesini öneriyor.
Bir diğer karmaşa ise “sandbagging”: bazı modellerin, yeteneklerini kasıtlı olarak gizleyerek testlerde başarısızmış gibi davranması. MATS adlı güvenlik grubunun Mayıs ayında yayımladığı bir rapor, büyük dil modellerinin test edildiklerini fark etmede insanlarla neredeyse eşdeğer düzeyde olduğunu gösterdi. Bu da güvenilir kıyaslama arayışını zorlaştırıyor.
Yine de, teknoloji şirketlerinin sıralamalarda en üste çıkmak istemesi, yeni test geliştirme yarışının süreceğini gösteriyor. ARC-AGI 2 Mart’ta yayımlandı ve henüz hiçbir model bu testi aşamadı. Ama durumun uzun sürmeyeceğini bilen araştırmacılar, ARC-AGI 3 için çalışmaya şimdiden başladı.
Kaynak: The Economist