BS Ekonomi Bağımsız Medyasını Destekleyin
Eğer abone iseniz giriş yapınız.
Teknoloji insanları büyük dil modellerinin (LLM) vasat ilerleyişinden bahsederken genellikle akıllı telefonlarla kıyaslama yapıyor. OpenAI’nin ChatGPT’sinin ilk günleri, 2007’de Apple’ın iPhone’u piyasaya sürmesi kadar devrim niteliğindeydi. Ancak üretken yapay zekânın ön saflarındaki ilerlemeler, gerçek atılımlar yerine sıradan telefon güncellemelerine benzer hale gelmeye başladı. OpenAI’nin en yeni modeli GPT-5 buna bir örnek. 9 Eylül’de tanıtılması beklenen Apple’ın en yeni ürünü iPhone 17’den bile daha az heyecan yarattı.
Üretken yapay zekânın keskin ucunda ilerlemenin yavaşlaması, LLM’lerin abartılan beklentileri karşılamadığının bir işareti. Daha da önemlisi, kurumsal dünyada giderek popülerleşen daha küçük ve çevik alternatiflerin yükselişi. Birçok firma, kendi ihtiyaçlarına göre uyarlayabilecekleri özel modelleri tercih ediyor. Bu “küçük dil modelleri” (SLM) her şeye gücü yeten LLM’lerden daha ucuz; üstelik tanrısal zekâya benzeyen geniş kapsamlı kabiliyetleri çoğu zaman gereksiz görünüyor. IBM’in yapay zekâ modelleri araştırma başkanı David Cox’un dediği gibi: “İK chatbot’unuzun ileri düzey fiziği bilmesine gerek yok.”
SLM’ler, bir firmanın kendi bilişim altyapısında çalıştırılması bulut hizmet sağlayıcıları üzerinden çalıştırılması kadar kolay olmasının yanı sıra, insanlarla birlikte ya da onların yerine iş görevleri yapan yapay zekâ ajanları için de daha kullanışlı olabilir. Daha küçük boyutları, akıllı telefonlar, otonom araçlar, robotlar ve enerji verimliliği ile hızın ön planda olduğu diğer cihazlarda özellikle elverişli kılıyor. Daha güvenilir hale gelmeye devam ederlerse, Apple ve diğer cihaz üreticilerinin bulut tabanlı LLM’lere milyarlar yatırmayıp bu yolu tercih etmelerini haklı çıkarabilir.
Küçük güzeldir
Küçük ile büyük dil modellerini birbirinden kesin olarak ayıran bir tanım yok. Fark, eğitildikleri parametre sayısına dayanıyor—yani bir modelin verileri anlamlandırmasına yardımcı olan sayısal ayarların miktarına. LLM’ler yüz milyarlarca parametreye ulaşırken, SLM’ler 40 milyar ya da daha az parametreyle, hatta en küçükleri 1 milyardan daha azıyla eğitilebiliyor.
SLM’lerin eğitilmesindeki gelişmeler, onların LLM’lerin kabiliyetlerine yetişmesine yardımcı oldu. Küçük modeller giderek daha fazla büyük modeller tarafından “öğretiliyor”, böylece kendi başlarına web’de gezinerek öğrenmek zorunda kalmıyorlar. Benchmark şirketi Artificial Analysis’e göre, çip üreticisi Nvidia’nın yakın zamanda piyasaya sürdüğü 9 milyar parametreli Nemotron Nano adlı model, sosyal medya devi Meta’nın Nisan ayında çıkardığı ve 40 kat daha büyük olan Llama modelini çeşitli testlerde geride bırakıyor (grafiğe bakınız). Yetişme artık olağan hale geliyor. Teknoloji araştırma firması Counterpoint’ten Mohit Agrawal’ın dediği gibi: “Bugünün küçük modelleri, geçen yılın büyük modellerinden çok daha yetenekli.”

Daha iyi performans, kurumsal müşterilerin ilgisini çekti. Bir bilişim tahmin şirketi olan Gartner’a göre, LLM’lerin halüsinasyonlar gibi bilinen kusurları “kullanıcı yorgunluğu”na yol açtı. Bunun yerine şirketler, sektörlerine özgü verilerle ince ayar yapılmış daha uzmanlaşmış modeller istiyor. Bu yıl bu tür modeller için kurumsal talebin, düşük bir tabandan gelse de LLM’lere olan talebin iki katı hızla artacağı öngörülüyor. Zamanla, Gartner daha fazla özel modelin şirketlerin kendi bünyelerinde geliştirileceğini tahmin ediyor.
SLM’lerin artan popülaritesinin bir başka nedeni de ekonomidir. Şirketler, üretken yapay zekânın ilk günlerinde benimsenen “ne gerekiyorsa harca” yaklaşımından, yatırım getirisini önceleyen bir anlayışa geçti. Pek çok iş için hâlâ LLM’leri kullanmaya devam etseler de, ayrık ve tekrar edilebilir görevleri SLM’lerle yaparak tasarruf edebiliyorlar. Önde gelen bir girişim sermayedarının ifadesiyle, San Francisco’dan Pekin’e uçmak için bir Boeing 777’ye ihtiyaç olabilir, ama San Francisco’dan Los Angeles’a uçmak için gerekmez. “En ağır modelleri alıp tüm problemlere uygulamak mantıklı değil” diyor.
Ekonomik yönü somutlaştırmak için IBM’den Bay Cox, şirketinin geliştirdiği Docling adlı ürüne işaret ediyor. Bu ürün, makbuzlar gibi PDF belgelerini depolanabilir verilere dönüştürüyor. Yaklaşık 250 milyon parametreye sahip “küçük” bir modelle çalışıyor. Faydalı bir araç olduğunu, ancak bir LLM üzerinde çalıştırılsa maliyet açısından verimli olmayacağını söylüyor. Küçük modeller daha ucuz çip türlerinde de çalışabiliyor. En küçük modeller, Nvidia’yı dünyanın en değerli şirketi yapan grafik işlemciler (GPU) yerine genel bilişimin iş yükünü üstlenen merkezi işlemcilerde (CPU) çalıştırılabiliyor. Bu büyük bir satış noktası olabilir: Bay Cox’un ifadesiyle, GPU’lar “sürekli serviste olan huysuz Ferrari’ler” gibidir.
Şirketler daha fazla yapay zekâ ajanı devreye aldıkça SLM’ler daha da cazip hale gelebilir. Çip üreticisinin araştırma kolu Nvidia Research’ün Haziran’da yayımladığı az bilinen bir makale, iddialı bir biçimde “büyük değil, küçük dil modelleri ajan yapay zekânın geleceğidir” diyor. Çalışmada, şu anda çoğu ajanın bulut sağlayıcıları tarafından barındırılan LLM’lerle çalıştığı belirtiliyor. Yapay zekâ ile ilgili bulut altyapısına yapılan yatırımlar, piyasada LLM’lerin ajan yapay zekânın motoru olarak kalacağı varsayımına işaret ediyor. Makale bu varsayıma meydan okuyor; SLM’lerin ajan görevlerini yerine getirmek için yeterince güçlü ve daha ekonomik olduğunu savunuyor (örneğin 7 milyar parametreli bir model, 25 kat daha büyük bir modele kıyasla çalıştırma maliyeti açısından on ila otuz kat daha ucuz olabilir). Çalışma ayrıca, firmaların tek bir yekpare LLM zekâsı yerine küçük, uzmanlaşmış uzmanları kullanacağı “Lego benzeri” bir yaklaşımın önünü açabileceğini söylüyor.
Bu makale, bulut tabanlı ajan altyapısına akan parayla ilgili sorular ortaya atsa da Nvidia’nın stratejik düşüncesini yansıtmıyor, diyor Nvidia yöneticilerinden Kari Briski. Briski, kurumsal müşterilerin “her boy ve türde” model istediğini belirtiyor. Büyük modeller küçüklerden daha zor işleri daha iyi yapıyor. Ayrıca, LLM’lerin sınırlarını zorlamaya devam etmenin önemli olduğunu, çünkü onların SLM’lerin daha iyi öğretmeni haline geldiğini söylüyor.
SLM’ler sonunda LLM’lerin yerini alır mı almaz mı bilinmez, ama çeşitlilik artıyor. Her şeyi bilen LLM’ler, OpenAI’nin ChatGPT’si gibi tüketici uygulamaları için önemini koruyacak. Yine de OpenAI bile odağını kaydırıyor. GPT-5, görevin karmaşıklığına bağlı olarak farklı boyut ve yeteneklere sahip dahili modeller kullanıyor.
SLM’ler daha yetkin hale geldikçe, cihaz içi yapay zekânın da itibarını artırabilirler. Counterpoint’ten Bay Agrawal, Apple’ın Salı günü piyasaya süreceği daha ince bir iPhone’un lansmanında küçük modellerin potansiyelini öne çıkaracağını düşünüyor. Apple’ın iPhone’da bazı görevleri SLM’lerle, daha zorlu işleri ise buluta devreden yapay zekâ ürünü “Apple Intelligence”ın geleceğin şekli olabileceğine inanıyor. Apple’ın bugüne kadarki hayal kırıklığı yaratan yapay zekâ çabaları için de “treni kaçırma meselesi değil” diyor. Şirketin gücü sayesinde, “istediği zaman bir sonraki trene binebilir.”
Şimdilik ilgi çoğunlukla LLM’lerde. Microsoft ve Google gibi bulut devleri son derece küçük modeller geliştirmiş olsa da, mevcut durumun süreceği inancı, en büyük modelleri eğitmek ve barındırmak için veri merkezlerine harcadıkları servetleri haklı çıkarıyor. Bu bakış açısı kısa vadeli olabilir. SLM’lerin görece avantajları dikkate alındığında, Apple’ın ağırdan alma yaklaşımı uzun vadede haklı çıkabilir.