DeepSeek’i unutun! Büyük dil modelleri daha da ucuzluyor.

Tarih:

23 Tem 2025

BS Ekonomi Bağımsız Medyasını Destekleyin

İçeriğe erişmek için Golden Swan Abonesi olun.
Eğer abone iseniz giriş yapınız.

2022 yılı kadar yakın bir geçmişte bile büyük bir dil modeli (LLM) oluşturmak, yapay zekâ (YZ) mühendisliğinin en ileri noktası sayılıyordu. Aradan üç yıl geçti ve uzmanları etkilemek artık daha zor. Kalabalık pazar ortamında öne çıkmak isteyen bir YZ laboratuvarının sadece kaliteli bir model üretmesi değil, bunu ucuz bir şekilde yapması da gerekiyor.

Aralık ayında Çinli firma DeepSeek, öncü bir modelin eğitim maliyetini Meta’nın Llama 3.1 modeli için harcadığı 61,6 milyon dolardan sadece 6 milyon dolara düşürdüğünü açıklayarak manşetlere çıktı. Şubat ayında çevrim içi olarak yayımlanan bir ön baskıya göre, Stanford Üniversitesi ve Washington Üniversitesi’nden araştırmacılar bu alanda birkaç büyüklük sıçraması daha yaparak modelleri s1’i yalnızca 6 dolara eğittiklerini öne sürdü. Başka bir deyişle: DeepSeek, model eğitimi için 2,7 milyon saatlik bilgisayar zamanı harcadı; s1 modeli ise yedi saatin biraz altında eğitildi.

Bu rakamlar şaşırtıcı olsa da karşılaştırma tam olarak birebir değil. DeepSeek’in v3 sohbet modeli sıfırdan eğitildi—her ne kadar OpenAI gibi rakiplerden veri hırsızlığı suçlamaları gündeme gelmiş olsa da. Buna karşın s1 modeli, Çin’in bir başka önde gelen YZ laboratuvarı olan Alibaba tarafından geliştirilen Qwen2.5 LLM üzerine “ince ayar” yapılarak oluşturuldu. Yani s1’in eğitimi başlamadan önce, model zaten yazabiliyor, soru sorabiliyor ve kod üretebiliyordu.

Bu tür bir “üstüne inşa etme” yaklaşımı maliyetten tasarruf sağlar, ancak tek başına masrafları tek haneli rakamlara düşürmez. Bunu başarabilmek için Amerikalı araştırmacılar, YZ araştırmalarında hâkim olan paradigmanın dışına çıkmak zorundaydı. Bu anlayışa göre bir dil modelinin performansı, sahip olduğu veri miktarı ve işlem gücü ile doğru orantılıdır. Araştırmacılar bunun yerine, az miktarda ama yüksek kaliteli verinin de aynı işi görebileceği hipotezini ortaya attı. Bu hipotezi test etmek için İngilizce sınavlarından olasılık teorisine kadar çok çeşitli alanları kapsayan 59.000 soruluk bir veri seti topladılar ve bu seti en etkili eğitim verisini oluşturmak amacıyla daraltmayı hedeflediler.

Ama sadece sorular yetmiyordu. Cevaplara da ihtiyaç vardı. Bu yüzden ekip, Google’ın Gemini adlı başka bir YZ modeline bu soruları çözmesini istedi. Gemini, çözüm sürecinde sadece cevabı vermekle kalmıyor, aynı zamanda “düşünce zinciri” denilen mantık yürütme sürecini de paylaşıyordu. Böylece araştırmacıların elinde üç veri seti oluştu: 59.000 soru, cevapları ve düşünce zincirleri.

Sonra bu verilerin büyük kısmı elendi. s1 modeli zaten Alibaba’nın Qwen modeline dayandığı için, Qwen’in zaten çözebildiği her şey gereksizdi. Formatı bozuk olanlar ve Gemini’nin fazla düşünmeden kolayca çözdüğü problemler de çıkarıldı. Eğer bir problem, eğitim setine çeşitlilik katmıyorsa, o da elendi. Sonuçta geriye sadece 1.000 sorudan oluşan ama aynı performansı çok daha düşük maliyetle sağlayan sadeleştirilmiş bir eğitim seti kaldı.

Ayrıca kullanılan bazı zekice yöntemler de vardı. Diğer tüm “akıl yürüten” modeller gibi s1 modeli de soruyu cevaplamadan önce düşünmeye zaman ayırıyor. Ancak birçok model, daha uzun süre “düşünmesine” izin verilirse daha iyi cevaplar veriyor. Buna “test-time compute” deniyor. Araştırmacılar, modeli daha uzun süre düşünmeye zorlamak için çok basit bir yöntem buldu: model “düşünmeyi bitirdim” dediğinde bu mesajı silip yerine sadece “Bekle” yazmak.

Bu yöntemler işe yarıyor. Modelin dört kat daha uzun düşünmesine izin vermek, matematik ve bilim testlerinde puanlarını 20 puandan fazla artırıyor. 16 kat daha uzun düşünmeye zorlandığında ise, daha önce sıfır puan alabildiği zorlu matematik sınavlarında %60 başarı elde edebiliyor. Elbette daha uzun düşünmek daha fazla işlem gücü ve maliyet anlamına geliyor. Ancak eğitim maliyeti bu kadar ucuz hale geldiğinde, bu ek masraflar da katlanabilir görünüyor.

Araştırmacılar, yeni s1 modelinin OpenAI’nin ilk denemesi olan geçen Eylül’deki o1-preview modelini özellikle matematik kabiliyeti açısından geride bıraktığını söylüyor. Yeni sınır artık modelin büyüklüğü değil; verimlilik.

■