Ara

Yapay Zeka Saat Okuyamıyor, Takvim Kullanamıyor! Araştırma Şaşırttı

Yapay zeka (YZ) modelleri, kod yazma, gerçekçi görseller oluşturma, insan benzeri metinler üretme ve hatta sınavları geçme gibi pek çok karmaşık görevi başarıyla yerine getirebiliyor. Ancak yapılan yeni bir araştırma, çoğu insanın kolaylıkla yaptığı bazı temel işlerde YZ'nin bocaladığını ortaya koydu: Analog saatleri okumak veya bir tarihin hangi güne denk geleceğini hesaplamak.

Son yapılan bir konferansta sunulan ve henüz hakem onayı almamış bir makale olarak yayınlanan çalışmada, araştırmacılar YZ'nin bu beklenmedik zayıflıklarını gözler önüne serdi. Çalışmayı yürüten ekip, bu tür basit becerilerin YZ sistemlerinin günlük hayattaki zaman hassasiyeti gerektiren uygulamalara (planlama, otomasyon, destekleyici teknolojiler vb.) tam olarak entegre edilebilmesi için mutlaka geliştirilmesi gerektiğini vurguladı.

Araştırmacılar, YZ'nin zaman tutma yeteneklerini incelemek için analog saat ve takvim görsellerinden oluşan özel bir veri kümesi oluşturdu. Bu veri kümesi, görsel ve metin bilgilerini işleyebilen çeşitli multimodal büyük dil modellerine (örneğin, GPT-4o, Claude-3.5 Sonnet, Gemini 2.0 gibi modeller) yüklendi.

Sonuçlar oldukça şaşırtıcıydı. Modeller, bir analog saat görüntüsünden doğru zamanı belirlemede veya rastgele bir tarihin haftanın hangi gününe denk geldiğini bulmada %50'den fazla başarısız oldu. Saatleri doğru okuma oranı sadece %38,7 iken, takvim hesaplamalarında bu oran %26,3'e kadar düştü.

Peki, YZ neden analog saatleri okumakta zorlanıyor? Araştırmacılara göre bunun nedeni, YZ'nin uzamsal akıl yürütme yeteneğinin eksikliği. İlk YZ sistemleri etiketli örnekler üzerinden eğitiliyordu. Saat okumak ise daha fazlasını gerektirir: Akrep ve yelkovanın konumunu belirlemek, açıyı ölçmek, Roma rakamları veya farklı kadran tasarımları gibi çeşitli formatları anlamak. YZ için 'bu bir saattir' demek, saati okumaktan daha kolay.

Takvim hesaplamalarındaki başarısızlık da benzer şekilde düşündürücü. 'Yılın 153. günü hangi güne denk gelir?' gibi bir soru karşısında YZ'nin hata oranı yüksek kaldı. Geleneksel bilgisayarlar için basit bir aritmetik işlemi olan bu tür hesaplamalar, büyük dil modelleri için zorlayıcı olabiliyor. Çünkü YZ, matematik algoritmalarını çalıştırmak yerine eğitim verilerindeki kalıplara dayanarak çıktıları tahmin ediyor. Bu nedenle bazen doğru cevap verse bile akıl yürütmesi tutarlı veya kural tabanlı değil.

Bu çalışma, YZ'nin 'anlama' biçimi ile insanların anlama biçimi arasındaki farkları vurgulayan araştırmalardan sadece biri. Modeller, tanıdık kalıplardan cevaplar çıkarır ve eğitim verilerinde yeterli örnek olduğunda başarılı olurlar. Ancak soyut akıl yürütme veya genelleme istendiğinde zorlanırlar. Araştırmacılar, insanlar için çok basit olan bir görevin YZ için çok zor olabileceğini, bunun tersinin de geçerli olduğunu belirtiyor.

Çalışma aynı zamanda, YZ'nin artık yıl veya nadir takvim hesaplamaları gibi eğitim verilerinde az bulunan senaryolarla nasıl başa çıktığını da gösteriyor. Büyük dil modelleri, artık yıl kavramını açıklayan bolca örneğe sahip olsa bile, görsel bir görevi tamamlamak için gereken bağlantıları kuramayabiliyorlar. Bu durum, eğitim verilerinde daha hedefli örneklere duyulan ihtiyacı ve YZ'nin mantıksal ile uzamsal akıl yürütmeyi nasıl birleştirdiğini yeniden düşünmek gerektiğini ortaya koyuyor.

En önemlisi, bu araştırma YZ çıktılarına fazlasıyla güvenmenin riskli olabileceği bir alanı daha işaret ediyor. Araştırmacılar, YZ'nin güçlü olduğunu ancak algıyı kesin akıl yürütmeyle birleştiren görevlerde hala titiz testlere, yedekleme mantığına ve çoğu durumda işin içinde bir insana ihtiyaç duyulduğunu hatırlatıyor.

Önceki Haber
Çocukluğumuzun Efsane Oyunları Sierra: Yıllar Sonraki Yeniden Buluşma
Sıradaki Haber
Hayatın Başlangıcı Laboratuvarda Yeniden Canlandırıldı: İlk Canlılar Nerede Ortaya Çıktı?

Benzer Haberler: