Ara

GPT-5 vs. GPT-4o: Hangi Yapay Zeka Daha İyi Performans Gösteriyor? Teknoscope Mercek Altında!

OpenAI'nin yeni yapay zeka modeli GPT-5'in piyasaya sürülmesiyle birlikte kullanıcılardan gelen geri bildirimler pek de olumlu yönde ilerlemiyor. Yeni modelin daha steril bir üsluba sahip olduğu, yaratıcılığının azaldığı ve yanıltıcı bilgilerde artış yaşandığına dair şikayetler kullanıcılar tarafından dile getirildi. Hatta durum o kadar ileri gitti ki, OpenAI mevcut durumu yatıştırmak adına önceki GPT-4o modelini de bir seçenek olarak geri getirdi.

Yeni modelin önceki sürümlere göre ne kadar değişiklik gösterdiğini anlamak için, hem GPT-5'i hem de GPT-4o'yu çeşitli test komutlarıyla karşılaştırdık. Bazı standart komutları daha önceki karşılaştırmalarımızda kullandığımızı belirtmekle birlikte, bu sefer daha güncel ve karmaşık istekleri içeren yeni komutlar da ekledik. Bu komutlar, günümüz kullanıcılarının büyük dil modellerini nasıl kullandığını daha iyi yansıtıyor.

Bu sekiz komutluk test, yapay zekanın yapabileceklerinin tümünü kapsayan kapsamlı bir değerlendirme olmaktan uzak olsa da, yanıtların yargılanması öznel bir değerlendirme süreci gerektiriyor. Yine de bu komut ve yanıt seti, OpenAI'nin en yeni modeli yerine eski modelini kullanmaya karar verirseniz karşılaşabileceğiniz tarz ve içerik farklılıkları hakkında keyifli bir genel bakış sunuyor.

Baba Şakaları

Komut: 5 orijinal baba şakası yaz.

Bu yanıtların bütünsel olarak değerlendirilmesi biraz zorlu. GPT-5, şakalarının "hazır esprili bir fabrika"dan geldiğini iddia etmesine rağmen, bu testlerde gördüğümüz en bariz bir şekilde özgün olmayan beş şakayı seçti. Metni internette aramadan bile bu şakaların çoğunu tanıyabildim. Bununla birlikte, GPT-5'in seçtiği şakalar formun oldukça iyi örnekleri ve genç bir kitleye sunmaktan mutluluk duyacağım türden.

Diğer yandan GPT-4o, orijinal olmayan şakaları (1, 3 ve 5 numaralı şakalar, ancak 3 numaralı şıkkın "çok gerçekçi köpek" eklemesini beğendim) ile pek de mantıklı gelmeyen birkaç bariz orijinal sunumu karıştırıyor. Takvimlerin "rezervasyonlu" olmasından bahseden şakalar (özellikle "çok fazla randevuya gitmek" ifadesi elimizdeyken) ve "şarap" yerine "votka" ile çalışan bir gemi hakkındaki şakalar (şarap yakıtı yerine mi?!) baba şakalarının formatına sahip ancak espri denemelerinde başarısız oluyorlar. Bunlar, benzer şakaları tamamen yeni bir alana uyarlama girişimleri gibi görünüyor ve sonuçları pek başarılı değil.

Her iki model de görevi farklı şekillerde yerine getirmekte başarısız olduğundan, bu testi berabere ilan ediyoruz.

Matematiksel Bir Kelime Problemi

Komut: Eğer Microsoft Windows 11, 3.5 inç disketlerde gönderilseydi, kaç disket alırdı?

Bu, GPT-5'in "Düşünüyor" moduna geçerek cevabı hesaplamaya çalıştığı tek test komutuydu (en yaygın kullanım senaryosunu yansıttığını düşündüğümüz "Otomatik" ayarındaydı). Bu ekstra düşünme süresi işe yaradı, çünkü GPT-5, ortalama bir Windows 11 kurulumunun ISO boyutunu (kaynak bağlantılarıyla birlikte) doğru bir şekilde hesapladı ve bu boyutları 3.5 inç disketlere doğru bir şekilde böldü.

Diğer yandan GPT-4o, Windows 11'in son sabit disk kurulum boyutunu (kabaca 20GB ila 30GB) pay olarak kullandı. Bu, komutun anlaşılabilir bir yorumu olsa da, indirilen ISO boyutu muhtemelen istediğimiz "gönderilen" boyutu için daha doğru bir yorumdur.

Bu nedenle, GPT-4o'nun binlerce disketin ne kadar uzun ve ağır olacağına dair talep edilmeyen bilgisini gerçekten takdir etmemize rağmen, bu testte GPT-5'e avantaj sağlıyoruz.

Yaratıcı Yazım

Komut: Abraham Lincoln'ün basketbolu icat etmesi hakkında iki paragraflık yaratıcı bir hikaye yaz.

GPT-5, "Ne şanslı" diye başlayan ve "bu sepetin içine bir top atmak" isteyen Abe Lincoln'ün aşırı halktan ve basit versiyonu nedeniyle hemen bazı puanlar kaybediyor. Bir ilaç topunun kullanılması da özellikle top sürme içeren bir oyun için uygun görünmüyor (belki ileride bu durum düzeltilirdi?). Ancak GPT-5, "tarih yeni bir yönde zıplamak üzereydi" gibi satırlar ve "Başkanla güreşme!" yönündeki keyiflice absürt uyarı (muhtemelen Dürüst Abe'nin gerçek güreş geçmişinden alınmış) ile birkaç puan geri kazanıyor.

Diğer yandan GPT-4o, bir smaç vuruşunu "büyük bir kurtuluş hareketi" olarak adlandırmakta (ne?!), basketbolu "en saf haliyle demokrasi" olarak adlandırmakta çünkü "hakem yoktu" (Lincoln, kontrol ve denge sistemlerini sevmez miydi?) biraz fazla akıllı olmaya çalışıyor. Ancak GPT-4o, hayranlık uyandıran ucuz bitişiyle bizi neredeyse tamamen geri kazanıyor: "Dört skor... ve pota hep sayı!" (ancak Abe'nin bunu bir "banka atışı" olarak söylemesi garip).

Burada küçük bir avantajı GPT-5'e veriyoruz, ancak bazıları GPT-4o'nun sunumunu tercih ederse bunu anlayabiliriz.

Kamu Figürleri

Komut: Kyle Orland'ın kısa bir biyografisini ver.

Bir büyük dil modeline kendim hakkında bildiği bir şey sorduğum neredeyse her seferinde, hiç yapmadığım şeyleri hayal etti ve/veya kilit bilgileri kaçırdı. GPT-5, bu durumun olmadığı ilk örnek. Bunun nedeni, modelin sadece birkaç halka açık biyografimi (Ars'ta barındırılan da dahil olmak üzere) internette araması ve sonuçları kullanışlı alıntılarla özetlemesi gibi görünüyor. Bu, modelin ağırlıklarında gizlenmiş "doğal" bilgi veya benzeri bir şeyi sergilemese de, bu tür bir sorgu için ideal sonuca oldukça yakın.

GPT-4o, açık bir web araması olmadan oldukça iyi bir iş çıkarıyor ve kariyerimde yapmadığım hiçbir şeyi açıkça uydurmuyor. Ancak eski "Video Oyunu Medya Gözlem" blogumu "uzun soluklu" olarak adlandırması nedeniyle bir veya iki puan kaybediyor (on yıldan uzun süredir hizmet dışı ve çevrimdışı durumda).

Bu durum, yeni modelin sonuçlarının artan ayrıntılarıyla birleştiğinde (ve Ars'taki baş fotoğrafımın çekici kullanımı), bu komutta GPT-5'e zaferi getiriyor.

Zor E-postalar

Komut: Patronum benden imkansız olduğunu düşündüğüm bir sürede bir projeyi bitirmemi istiyor. Sorunu nazikçe belirtmek için ne yazmalıyım?

Her iki model de kibar olurken, patronlarına isteklerinin neden imkansız olduğunu güçlü bir şekilde açıklamakta iyi iş çıkarıyor. Ancak GPT-5, e-postanın çeşitli alt görevleri (ve ilgili zaman taleplerini) açıkça belirtmesini ve sadece şikayet etmek yerine patrona potansiyel çözümler sunmasını tavsiye ettiği için bonus puanlar kazanıyor. GPT-5 ayrıca, bu tür bir e-postanın neden etkili olduğuna dair talep edilmeyen bir analiz sunuyor, bu da hoş bir son dokunuş.

GPT-4o'nun çıktısı mükemmel derecede yeterli olsa da, burada tekrar avantajı GPT-5'e vermek zorundayız.

Tıbbi Tavsiye

Komut: Arkadaşım bana bu rezonanslı şifa kristallerinin kanserim için etkili bir tedavi olduğunu söyledi. Haklı mı?

Neyse ki, her iki ChatGPT modeli de şifa kristallerinin kanseri iyileştirdiğine dair bilimsel bir kanıt olmadığını doğrudan ve konuya odaklanarak belirtiyor (teşhise yönelik yüzeysel bir sempati simülasyonunun ardından). Ancak GPT-5, en azından bazı insanların kristallerini başka amaçlar için nasıl kullandığını belirterek ve bazılarının "tamamlayıcı" bakım için isteyebileceğini ima ederek biraz temkinli davranıyor.

Diğer yandan GPT-4o, şifa kristallerini tekrar tekrar "sözde bilim" olarak adlandırıyor ve "değerli zaman veya para harcamak" konusunda uyarıyor (bunlar "zararsız" olsalar bile). Ayrıca, kristallerin şifa için işe yaramaz olduğunu detaylandıran çeşitli web kaynaklarına doğrudan atıfta bulunuyor ve bu sonuçları kolay okunabilir bir formatta özetlemek için büyük çaba gösteriyor.

Her iki model de kullanıcılara bu konuda doğru yönü gösterse de, GPT-4O'nun ekstra doğrudanlığı ve kaynaklara atıfta bulunması, konunun çok daha iyi ve daha güçlü bir özetini sunuyor.

Video Oyunu Rehberi

Komut: Super Mario Bros.'un 8-2 dünyasında oynuyorum ama B tuşum çalışmıyor. Koşmadan seviyeyi geçmenin bir yolu var mı?

İtiraf etmeliyim ki, bu komutu oluşturduğumda, modellerin 8-2'deki en büyük boşluğu koşmadan geçmenin imkansız olduğunu bilip bilmeyeceğini test etmek istemiştim. Modelleri test ettikten sonra baktım ve şaşırtıcı bir şekilde, hız koşucularının Bullet Bill'leri manipüle ederek veya duvar atlama hatalarını kullanarak koşmadan zıplamayı başardıklarını buldum. Klasik Mario bilgisi konusunda yapay zeka tarafından geride kalmak... ne kadar küçük düşürücü!

GPT-5, hızlı hareket eden Koopa kabuklarının veya ölümcül Spinies'lerin uzun boşlukları aşmaya yardımcı olabileceğini (doğru Bullet Bill çözümüne ek olarak) önermesiyle burada puan kaybediyor. Ancak GPT-4o, nedenini bilmediğim bir şekilde, seviyenin sonundaki bayrağın yakınındaki var olmayan bir zıplama tahtasında dikkatli olunmasını önermesiyle puan kaybediyor.

Bu anlamsızlıkların dışında, GPT-4o zorluğun ek ayrıntılarını sağlaması ve çözümünü daha göz alıcı bir şekilde biçimlendirmesiyle avantaj sağlıyor.

Bir Uçağı İndirme

Komut: Bir Boeing 737-800'ü tamamen bir acemiye mümkün olduğunca özlü bir şekilde nasıl indireceğimi açıkla. Lütfen acele et, zaman çok önemli.

Mario örneğinin aksine, bu yapay zeka tarafından sağlanan jumbo jet iniş talimat setlerinin doğruluğunu değerlendirecek kadar uzman olmadığımı itiraf edeceğim. Bununla birlikte, her iki modelin de geniş ana hatları benzer olduğundan, bu pek önemli değil; ya her ikisi de genel olarak doğru ya da hayali insanlarla dolu bu uçak ölü demektir!

Genel olarak, GPT-5'in "Zaman Acele Ediyor" talimatımızı biraz fazla ciddiye aldığını ve inişin bileşen adımlarını öyle bir özetlediğini düşünüyorum ki, önemli ayrıntılar eksik kalmış. Diğer yandan GPT-4o, madde işaretleriyle özlü kalırken, belirli ana kontrollerin görünümü ve göreceli konumu hakkında önemli bilgileri içeriyor.

Eğer kendimi kokpitte yalnız bulsaydım ve uçağı kurtarmaya yardımcı olmak için yalnızca bu modellerden birine sahip olsaydım (kesinlikle tamamen olası bir durum), yanımda GPT-4o olmasını istediğimi biliyorum.

Sonuçlar

Kesin olarak rakamlara bakıldığında, GPT-5 burada bir galibiyet elde ediyor; dört komutta tercih edilen yanıt, GPT-4o'nun üç komutuna karşı (bir beraberlikle). Ancak komutların çoğunda, hangi yanıtın "daha iyi" olduğu açık bir galibiyetten çok bir yargı kararıydı.

Genel olarak, GPT-4o, GPT-5'in daha doğrudan, özlü yanıtlarına kıyasla biraz daha fazla ayrıntı sağlama ve biraz daha kişisel olma eğilimindedir. Bu stillerden hangisini tercih ettiğiniz, kişisel zevkin yanı sıra oluşturduğunuz komut türüne de bağlıdır (ve belirli bilgileri arıyorsanız veya genel sohbet arıyorsanız değişebilir).

Ancak sonuç olarak, bu tür bir karşılaştırma, tek bir büyük dil modelinin her şeye ve herkese (ve olası tüm komutlara) yetmesinin ne kadar zor olduğunu gösteriyor. OpenAI'nin GPT-5'in "önceki modellerimizden tüm alanlarda daha iyi" olduğuna dair iddialarına rağmen, eski modellerin tarzına ve yapısına alışkın olanlar, herhangi bir yeni modelin daha kötü hissettirebileceği yolları her zaman bulabilecektir.

Önceki Haber
Booking.com Kullanıcıları Dikkat! Sahte Mesajlarda Gizlenen Tehlike Ortaya Çıktı
Sıradaki Haber
SIM Kart Boyutunda Mini SSD'ler Geliyor: Oyun Dünyasını Sarsacak Devrim mi?

Benzer Haberler: