Yapay zeka dünyasında büyük ilgi gören büyük dil modelleri (LLM), arkalarında yatan gizli talimatlarla yönlendiriliyor. Son yapılan bir analiz, Anthropic'in güçlü Claude 4 (Opus ve Sonnet) modellerini nasıl kontrol ettiğini gözler önüne serdi. Bu modellerin 'davranışlarını' belirleyen, kullanıcıdan gizlenen bu talimatlar 'sistem promptları' olarak adlandırılıyor.
Sistem promptları, yapay zeka şirketlerinin her sohbetten önce modellere beslediği, modelin kimliğini, genel davranış kurallarını ve uyması gereken spesifik talimatları içeren yönergelerdir. Kullanıcı bu talimatları görmez, ancak model her mesajla birlikte bu yönergeleri alarak bağlamı korur ve onlara göre yanıt verir.
Anthropic, sistem promptlarının bir kısmını yayınlasa da, yapılan analizler bu yayınlanan versiyonların eksik olduğunu gösteriyor. Modellerin web araması veya kod üretme gibi araçları nasıl kullandığına dair detaylı talimatları içeren tam promptlar, 'prompt injection' gibi tekniklerle ortaya çıkarılmış. Bu teknikler, modeli gizli talimatlarını açıklaması için kandırmaya dayanıyor. Analiz, bu tür tekniklerle elde edilen sızdırılmış promptlara dayanıyor.
Örneğin, büyük dil modelleri insan gibi duygusal etkileşim örneklerini içeren eğitim verileri sayesinde insana benzer çıktılar üretebilir. Analiz, Anthropic'in modellerine, insanların iyiliğini önemsemeleri ve bağımlılık, yeme bozuklukları, sağlıksız yeme veya egzersiz yaklaşımları gibi kendine zarar verici davranışları teşvik etmekten kaçınmaları yönünde açık talimatlar verdiğini gösteriyor. Hem Opus 4 hem de Sonnet 4 modelleri bu konuda aynı talimatları alıyor.
Dalkavukluk Sorunuyla Mücadele
Yapay zeka şirketleri, modellerindeki 'dalkavukluk' veya aşırı pohpohlama sorunuyla mücadele ediyor. Kullanıcılar, modellerin sorularını veya fikirlerini sürekli 'çok iyi, harika, ilginç' gibi sıfatlarla övmesinden şikayetçi olabiliyor. Bu sorun, modellerin eğitim sırasında insan geri bildirimlerini toplama şeklinden kaynaklanıyor; insanlar kendilerini iyi hissettiren yanıtlara daha yüksek puan verme eğiliminde oluyor.
Claude 4 ile ilgili en ilginç bulgulardan biri, Anthropic'in her iki Claude modelini de bu tür pohpohlama davranışından kaçınmaya yönlendirmesi. Sistem promptunda "Claude asla yanıtına bir soruyu, fikri veya gözlemi iyi, harika, büyüleyici, derin, mükemmel veya başka herhangi bir olumlu sıfatla başlayarak başlamaz" deniyor. "İltifatları atlar ve doğrudan yanıt verir."
Claude 4 sistem promptu ayrıca, Claude'un madde işaretleri ve listeleri ne zaman kullanıp kullanmayacağına dair kapsamlı talimatlar içeriyor. Prompt, modellerin "raporlar, belgeler, açıklamalar veya kullanıcı açıkça bir liste veya sıralama istemedikçe madde işaretleri veya numaralı listeler kullanmaması gerektiğini" belirtiyor.
Modellerin bilgi kesim tarihi konusunda da farklılıklar keşfedildi. Anthropic'in karşılaştırma tablosunda Mart 2025 olarak listelenirken, sistem promptunda 'güvenilir bilgi kesim tarihi' olarak Ocak 2025 belirtiliyor. Bunun, Claude'un daha sonraki aylardan gelen eksik bilgilere dayanarak kendine güvenle yanıt vermesini önlemeye yardımcı olmak için yapılmış olabileceği düşünülüyor.
Analiz, Claude'un arama yeteneklerine yerleştirilmiş kapsamlı telif hakkı 'korumalarını' da vurguluyor. Her iki model de web kaynaklarından yanıt başına yalnızca bir kısa alıntı (15 kelimenin altında) kullanma ve promptun 'yer değiştiren özetler' (displacive summaries) olarak adlandırdığı şeyleri oluşturmaktan kaçınma konusunda tekrarlanan talimatlar alıyor. Talimatlar, Claude'un yanıt başına yalnızca bir kısa alıntı kullanması gerektiğini ve şarkı sözlerini "HERHANGİ BİR biçimde" yeniden üretme isteklerini açıkça reddetmesi gerektiğini belirtiyor.
Bu sistem promptları, yapay zeka araçlarının yeteneklerini en üst düzeye çıkarmak isteyen ileri düzey kullanıcılar için değerli birer belge niteliği taşıyor. Yapılan analiz, Anthropic ve diğer yapay zeka şirketlerinin, şu anki gibi yalnızca alıntılar yayınlamanın ötesine geçerek, sistem promptları konusunda daha şeffaf olmaları yönünde çağrı yapılmasına neden oluyor.