Yapay Zeka

Çoklu Diyaloglu Yapay Zekâ Modellerinde yüzde 39 Performans Düşüyor

TeknolojiWins Haber Merkezi
  • 5 Haziran 2025
  • Okuma süresi: 4 dakika
Çoklu Diyaloglu Yapay Zekâ Modellerinde yüzde 39 Performans Düşüyor

Microsoft ve Salesforce, LLM’ler konusunda yaptığı araştırmanın sonuçlarını paylaştı.

GPT-4 ve Gemini 2.5 Pro gibi Büyük Dil Modelleri (LLM’ler), tek adımlık görevlerde etkileyici sonuçlar verirken, çok adımlı ve doğal konuşma akışlarında ciddi performans sorunları yaşıyor. Microsoft ve Salesforce araştırmacıları tarafından yayımlanan ve “LLMs Get Lost in Multi-Turn Conversation” (Büyük Dil Modelleri Çoklu Diyaloglarda Kaybolur) başlığını taşıyan bu çalışma, sektör genelinde kullanılan 15 üst düzey modelin çoklu konuşma adımlarında ortalama %39’luk performans kaybı yaşadığını gösterdi.

Yanlış Varsayımlar ve Erken Sonuçlar: Konuşmanın Başında Çözüme Gitme Hatası

Araştırma, modellerin konuşmanın erken safhalarında eksik bilgiye dayanarak hatalı varsayımlarda bulunduğunu ortaya koyuyor. Örneğin, üç parametreli bir kod istendiğinde model eksik bilgileri tahmin ediyor ve sonradan gelen detaylarla çelişen, yetersiz veya gereksiz çıktılar üretiyor. Bu eğilim, eğitim verilerinde eksiksiz problem tanımlarına öncelik verilmesinden kaynaklanıyor.

Çalışma, çoklu konuşma başarısızlıklarının %62’sinin modellerin erken bir çözüm yoluna saplanmasından kaynaklandığını belirtiyor. Yani model, ilk hatalı cevabını korumaya çalışıyor ve sonraki açıklamalara rağmen kendini düzeltmekte başarısız oluyor. Bu davranış, insanlardaki onay yanlılığına benzer bir bilişsel sapmayı yansıtıyor.

Hatalarda Israr ve Bağlam Kaybı: Yanlış Bir Adım, Zincirleme Bozulma

200.000’den fazla simüle edilmiş konuşmayı analiz eden araştırmacılar, hatalı bir yola giren modelin bu hatayı sonraki adımlarda da sürdürdüğünü, %78 oranında hataların ilerleyen yanıtları da etkilediğini tespit etti. Özellikle uzun konuşmalarda, model konuşmanın ilk bölümlerine odaklanıyor, sonradan gelen kritik bilgileri göz ardı ediyor. Bu durum, “bir filmi izlerken önemli sahneleri unutmaya” benzetiliyor.

Değerlendirme Sorunu: Tek Adımlık Testler Gerçek Performansı Göstermiyor

Çalışma, bugün kullanılan LLM testlerinin (örneğin GSM8K, MT-Bench) çoğunlukla tam tanımlı istemleri değerlendirdiğini ve gerçek konuşma akışındaki karmaşıklığı yansıtmadığını belirtiyor. Bu testler, yapay zekâyla doğal diyalog kurmak isteyen kullanıcıların yaşadığı hayal kırıklıklarını açıklayamıyor. Çünkü gerçek dünyada insanlar, talimatları kademeli olarak verir, düzeltir ve yön değiştirir.

Daha Sağlam Yapay Zekâ Ajanları İçin Yeni Yaklaşımlar

Araştırma, daha iyi sohbet yeteneğine sahip yapay zekâlar geliştirmek için aşağıdaki çözümleri öneriyor:

  • Kontrol Noktaları: Modellerin varsayımlarını açıkça belirtmesini ve ilerlemeden önce onay istemesini sağlamak.

  • Modüler Yapı: Her konuşma adımını bağımsız olarak işleyerek taze akıl yürütme yapılmasını sağlamak.

  • Parçalı Test Ortamları: Gereksinimleri kademeli açıklayan, çelişkili bilgiler sunan ve kullanıcı düzeltmeleri içeren test senaryoları geliştirmek.

  • Harici Hafıza Sistemleri: Önceki cevapların kaydını tutmak, versiyon kontrolü sağlamak ve gerektiğinde geriye dönerek yeniden hesaplama yapmak.

Yol Haritası: Yeni Nesil Modeller İçin Mimari ve Eğitim Değişiklikleri

Gelecekteki modeller için önerilen yapılar arasında çift hatlı dikkat sistemleri, belirsizlik gösterimi ve geriye dönük düzeltme modülleri yer alıyor. Ayrıca, kademeli öğrenme, yanıltıcı kullanıcı simülasyonları ve konuşma temelli pekiştirmeli öğrenme gibi eğitim yöntemlerinin öne çıkması bekleniyor.

Baş araştırmacı Philippe Laban’ın sözleri, bu dönüşümün yönünü özetliyor: “Amacımız her şeyi baştan bilen kâhinler değil, belirsizlik içinde ilerlemeyi başarabilen akıllı iş birlikçileri inşa etmek.”

“Konuşmada Kaybolma” etkisi, büyük dil modellerinin bugünkü sınırlı doğasını gözler önüne sererken, aynı zamanda yapay zekânın gerçek potansiyelini ortaya çıkaracak yeni bir gelişim yolunu da işaret ediyor. Yapay zekâ alanında ileriye dönük atılacak adımların, yalnızca algoritmalarda değil; aynı zamanda insanla doğal bir iş birliği kurma kapasitesinde şekilleneceği artık çok daha net. Gerçek dünya uygulamaları için sağlam, esnek ve bağlamsal farkındalığı yüksek sistemler inşa etmek, bu dönüşümün anahtarı olacak.

Yorum yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir