Ara

Telefonunuzdaki NPU’lar Gelişiyor, Peki Yapay Zeka Neden Daha Akıllı Hale Gelmiyor?

Son yılların neredeyse her teknolojik yeniliği, üretken yapay zekaya (generative AI) odaklanmış durumda. Bu devrimsel olduğu iddia edilen sistemlerin çoğu, veri merkezlerindeki büyük ve pahalı sunucularda çalışırken, aynı zamanda çip üreticileri tüketici cihazlarına getirdikleri sinirsel işlem birimlerinin (NPU) gücüyle övünüyor. Her birkaç ayda bir aynı haber tekrarlanıyor: Yeni NPU, bir öncekinden yüzde 30 veya 40 daha hızlı. Bu durumun önemli bir işlevi yerine getirmesi bekleniyor, ancak kimse bunun ne olduğunu tam olarak açıklamıyor.

Uzmanlar, güvenli, kişisel yapay zeka araçları ve cihaz içi zeka ile dolu bir gelecek hayal ediyor. Peki, yapay zeka patlamasının gerçekliği bu hayalle örtüşüyor mu? "Kenarda" (edge) yapay zeka kulağa harika gelse de, dikkate değer neredeyse her yapay zeka aracı bulutta çalışıyor. Peki telefonunuzdaki o çip tam olarak ne yapıyor?

NPU Nedir?

Yeni bir ürün piyasaya süren şirketler genellikle abartılı ifadeler ve muğlak pazarlama dili kullanma eğilimindedir, bu nedenle teknik detayları açıklama konusunda yetersiz kalırlar. Bir telefon satın alan çoğu kişi, yapay zeka iş yüklerini çalıştırmak için neden bu donanıma ihtiyaç duyduğunu anlamıyor ve varsayılan faydalar büyük ölçüde teorik kalıyor.

Günümüzdeki birçok amiral gemisi tüketici işlemcisi, tek bir silikon parçasına CPU çekirdekleri, GPU'lar ve görüntü denetleyicileri gibi birden fazla bilgi işlem öğesini entegre ettiği için sistem-on-a-chip (SoC) olarak adlandırılır. Bu durum, Qualcomm'un Snapdragon'u veya Google'ın Tensor'u gibi mobil parçaların yanı sıra Intel Core Ultra gibi PC bileşenleri için de geçerlidir.

NPU, çiplerdeki daha yeni bir eklentidir, ancak bir anda ortaya çıkmamıştır; bu noktaya gelinmesinde bir evrim süreci vardır. NPU'lar, diğer SoC bileşenlerinde de önemli olan paralel işlemeyi vurguladıkları için bu işte iyidirler.

Qualcomm, yeni ürün tanıtımlarında Hexagon NPU'larına önemli ölçüde zaman ayırır. Yakın gözlemciler, bu markanın dijital sinyal işlemcileri (DSP) serisinden yeniden kullanıldığını hatırlayabilir ve bunun iyi bir nedeni vardır.

Qualcomm'un yapay zeka ürünleri başkanı Vinesh Sukumar, "Yapay zeka işlemciliğe yolculuğumuz muhtemelen 15-20 yıl önce başladı ve ilk temel noktamız sinyal işlemeye bakmaktı" dedi. DSP'ler, NPU'lara benzer bir mimariye sahiptir, ancak çok daha basittir ve ses (örneğin konuşma tanıma) ve modem sinyallerini işlemeye odaklanır.

"Yapay zeka" olarak adlandırdığımız teknolojiler geliştiğinde, mühendisler uzun kısa süreli bellek (LSTM) gibi daha fazla paralel işlem türü için DSP'leri kullanmaya başladılar. Sukumar, sektörün bilgisayar görüşü gibi uygulamaların temelini oluşturan teknoloji olan evrişimli sinir ağlarına (CNN) rağbet gösterdikçe, DSP'lerin üretken yapay zeka işlemesi için de temel olan matris fonksiyonlarına odaklandığını açıkladı.

Burada mimari bir evrim olsa da, NPU'ların sadece süslü DSP'ler olduğunu söylemek tam olarak doğru değildir. MediaTek'in Yardımcı Başkan Yardımcısı Mark Odani, "DSP'lerden genel anlamda bahsedersek, evet, [bir NPU] dijital sinyal işlemcisidir" dedi. "Ancak bu çok uzun bir yol kat etti ve paralellik, transformer'ların nasıl çalıştığı ve işlem için çok sayıda parametreyi tutma konusunda çok daha optimize edilmiş durumda."

Yeni çiplerde bu kadar belirgin olmalarına rağmen, NPU'lar "kenarda" yapay zeka iş yüklerini çalıştırmak için kesinlikle gerekli değildir; "kenar" terimi, yerel yapay zeka işlemeyi bulut tabanlı sistemlerden ayırır. CPU'lar NPU'lardan daha yavaştır, ancak daha az güç harcayarak bazı hafif iş yüklerini halledebilir. Bu arada, GPU'lar genellikle bir NPU'dan daha fazla veriyi işleyebilir, ancak bunu yapmak için daha fazla güç kullanırlar. Ve Qualcomm'dan Sukumar'a göre, bunu yapmak isteyebileceğiniz zamanlar vardır. Örneğin, bir oyun çalışırken yapay zeka iş yüklerini çalıştırmak GPU'yu tercih edebilir.

Sukumar, "Burada başarı ölçütünüz, pikselin uzamsal çözünürlüğünü, dinamik aralığını korurken ve oyuncu için o alanda yapay zeka önerileri sunarken kare hızınızı düşürememenizdir" diyor. "Bu tür bir kullanım durumunda, bunu grafik motorunda çalıştırmak mantıklıdır, çünkü grafikler ve NPU gibi alana özgü bir yapay zeka motoru arasında sürekli geçiş yapmak zorunda kalmazsınız."

Kenarda Yaşamak Zor

Ne yazık ki, birçok cihazdaki NPU'lar (sadece oyun sırasında değil) boşta duruyor. Yerel ve bulut yapay zeka araçlarının karışımı, ikincisini tercih ediyor çünkü büyük dil modellerinin (LLM) doğal yaşam alanı orasıdır. Yapay zeka modelleri güçlü sunucularda eğitilir ve ince ayarları yapılır ve en iyi orada çalışırlar.

Gemini ve ChatGPT'nin tam sürümleri gibi sunucu tabanlı bir yapay zeka, telefonunuzun NPU'sunda çalışan bir model kadar kaynak kısıtlı değildir. Google'ın en son cihaz içi Gemini Nano modelini ele alalım; bu modelin 32 bin jetonluk bir bağlam penceresi var. Bu, önceki sürüme göre iki katından fazla bir gelişme. Ancak, bulut tabanlı Gemini modellerinin 1 milyon jetona kadar bağlam pencereleri vardır, bu da çok daha büyük veri hacimlerini işleyebilecekleri anlamına gelir.

Hem bulut tabanlı hem de kenar yapay zeka donanımı daha iyi olmaya devam edecek, ancak denge NPU lehine kaymayabilir. Google'ın Pixel ekibinde kıdemli ürün yöneticisi Shenaz Zack, "Bulutun her zaman bir mobil cihaza göre daha fazla hesaplama kaynağı olacaktır" diyor.

Odani, "En doğru modelleri veya en zorlu modelleri istiyorsanız, bunların hepsi bulutta yapılmalıdır" diyor. "Ancak bulduğumuz şey, metin özetleme veya sesli asistanınızla konuşma gibi birçok kullanım durumunda, bunların üç milyar parametre içine sığabileceğidir."

Yapay zeka modellerini bir telefona veya dizüstü bilgisayara sıkıştırmak bazı ödünleşmeleri gerektirir; örneğin, modelde yer alan parametreleri azaltmak. Odani, bulut tabanlı modellerin yüz milyarlarca parametre çalıştırdığını açıklıyor; bu parametreler, bir modelin çıktılar üretmek için girdi jetonlarını nasıl işlediğini belirleyen ağırlıklardır. Şu anda bir tüketici cihazında buna benzer bir şey çalıştıramazsınız, bu nedenle geliştiricilerin kenar için modellerin boyutunu büyük ölçüde küçültmesi gerekiyor. Odani, MediaTek'in en son dokuzuncu nesil NPU'sunun yaklaşık 3 milyar parametreyi işleyebildiğini söylüyor; bu, birkaç mertebe büyüklüğünde bir fark.

Bir telefonda veya dizüstü bilgisayarda bulunan bellek miktarı da sınırlayıcı bir faktördür, bu nedenle mobil için optimize edilmiş yapay zeka modelleri genellikle niceleme (quantized) edilir. Bu, modelin bir sonraki jetonu tahmin etme işleminin daha az hassasiyetle çalıştığı anlamına gelir. Diyelim ki Llama veya Gemma 7b gibi daha büyük açık modellerden birini cihazınızda çalıştırmak istiyorsunuz. Fiili standart, yarı hassasiyet olarak bilinen FP16'dır. Bu seviyede, 7 milyar parametreli bir model 13 veya 14 gigabayt bellek kaplar. FP4'e (çeyrek hassasiyet) düşmek, modelin bellekteki boyutunu birkaç gigabayta indirir.

Sukumar, "Örneğin, üç ila dört gigabayt arasına sıkıştırdığınızda, bu, bir akıllı telefon gibi belleği kısıtlı form faktörlerine entegrasyon için bir tatlı noktadır" diyor. "Ve model kalitesini kaybetmeden çeşitli şekillerde sıkıştırmanın yollarına bakmak için ekosistemde ve Qualcomm'da çok fazla yatırım yapıldı."

Bu sınırlamalarla mobil cihazlar için genelleştirilmiş bir yapay zeka oluşturmak zordur, ancak bilgisayarlar -ve özellikle akıllı telefonlar- sözde yardımcı çıktılar üretmek için modellere pompalanabilen verilerin bir kaynağıdır. Bu nedenle kenar yapay zekasının çoğu, ekran görüntülerini analiz etmek veya takvim randevuları önermek gibi belirli, dar kullanım durumlarına yöneliktir. Google'a göre en son Pixel telefonları, hem üretken hem de geleneksel olmak üzere 100'den fazla yapay zeka modelini çalıştırıyor.

Yapay zeka şüphecileri bile manzaranın hızla değiştiğini kabul edebilir. Bir telefonu veya dizüstü bilgisayarı için yapay zeka modellerini küçültüp optimize etmek için geçen sürede, bu çalışmayı modası geçmiş hale getirebilecek yeni bulut modelleri ortaya çıkmış olabilir. Bu aynı zamanda üçüncü taraf geliştiricilerin uygulamalarda NPU işlemeyi kullanmakta yavaş olmasının nedenidir. Ya kısıtlamalar ve hızla değişen geliştirme hedefleri içeren mevcut bir cihaz içi modele bağlanmaları gerekir ya da kendi özel modellerini dağıtmaları gerekir. Şu anda her ikisi de harika bir seçenek değil.

Güven Meselesi

Eğer bulut daha hızlı ve kolaysa, kenar için optimize etme ve NPU ile daha fazla güç harcama zahmetine neden girilir? Buluta güvenmek, yapay zeka veri merkezlerini işleten insanlara her zaman uygun olmayabilecek bir bağımlılık ve güven düzeyini kabul etmek anlamına gelir.

Qualcomm'dan Sukumar, "Her zaman kullanıcı gizliliğini bir unsur olarak ele alırız" dedi. En iyi çıkarımın genel nitelikte olmadığını - kullanıcının ilgi alanlarına ve hayatında olup bitenlere göre kişiselleştirildiğini açıkladı. Bu deneyimi sunmak için modelleri ince ayarlamak kişisel veri gerektirir ve bu verileri yerel olarak depolamak ve işlemek daha güvenlidir.

Şirketler bulut hizmetlerinde gizlilikle ilgili doğru şeyleri söyleseler bile, bunlar garantiden uzaktır. Genel sohbet robotlarının yardımsever, samimi havası da insanların çok kişisel bilgi vermesini teşvik eder ve bu asistan bulutta çalışıyorsa, verileriniz de orada demektir. OpenAI'nin The New York Times ile olan telif hakkı mücadelesi, yayıncıya milyonlarca özel sohbetin sunulmasına yol açabilir. Üretken yapay zekanın patlayıcı büyümesi ve belirsiz düzenleyici çerçevesi, verilerinize ne olacağını bilmeyi zorlaştırıyor.

Odani, "İnsanlar bu üretken yapay zeka asistanlarının çoğunu bir terapist gibi kullanıyor" diyor. "Ve bir gün tüm bu şeylerin internette ortaya çıkıp çıkmayacağını bilmiyorsunuz."

Herkes bu kadar endişeli değil. Zack, Google'ın "dünyanın en güvenli bulut altyapısını" inşa ettiğini ve bunun en iyi sonuçları verdiği yerde verileri işlemesine olanak tanıdığını iddia ediyor. Zack, bu yaklaşımın örnekleri olarak Video Boost ve Pixel Studio'yu kullanıyor ve Google'ın bulutunun bu deneyimleri hızlı ve yüksek kaliteli hale getirmenin tek yolu olduğunu belirtiyor. Şirket yakın zamanda yeni Özel Yapay Zeka Hesaplama (Private AI Compute) sistemini duyurdu; bu sistemin yerel işlemeyle aynı derecede güvenli olduğunu iddia ediyor.

Bu doğru olsa bile, kenarın başka avantajları da vardır - kenar yapay zekası bulut hizmetlerinden daha güvenilirdir. Odani, "Cihaz içi hızlıdır" diyor. "Bazen ChatGPT ile konuşuyorum ve Wi-Fi'm gidiyor veya başka bir şey oluyor ve bir aksaklık yaşanıyor."

Bulut tabanlı yapay zeka modellerini barındıran hizmetler yalnızca tek bir web sitesi değildir - günümüzün interneti, içerik dağıtım ağları, DNS sağlayıcıları, barındırma ve bir aksaklık durumunda favori yapay zekanızı bozabilecek veya kapatabilecek diğer hizmetlerle büyük ölçüde birbirine bağımlıdır. Cloudflare yakın zamanda kendi kendine yol açtığı bir kesinti yaşadığında, ChatGPT kullanıcıları güvenilir sohbet robotlarının kullanılamaz hale gelmesinden rahatsız oldu. Yerel yapay zeka özelliklerinin bu dezavantajı yoktur.

Bulut Hakimiyeti

Herkes, gerçekten kullanışlı yapay zeka özelliklerini sunmak için hibrit bir yaklaşımın gerekli olduğu konusunda hemfikir görünüyor (eğer mevcutlarsa), gerektiğinde daha güçlü bulut hizmetlerine veri gönderme - Google, Apple ve diğer tüm telefon üreticileri bunu yapıyor. Ancak sorunsuz bir deneyim arayışı, verilerinize ne olduğu gerçeğini de gizleyebilir. Çoğu zaman, telefondaki yapay zeka özellikleri, cihaz bu donanıma sahip olsa bile, güvenli, yerel bir şekilde çalışmaz.

Örneğin, yeni OnePlus 15'i ele alalım. Bu telefon, Qualcomm'un bir önceki nesilden yüzde 37 daha hızlı bir NPU'ya sahip yepyeni Snapdragon 8 Elite Gen 5'i barındırıyor. Tüm bu cihaz içi yapay zeka gücüne rağmen OnePlus, kişisel verilerinizi analiz etmek için büyük ölçüde buluta güveniyor. AI Writer ve AI Recorder gibi özellikler, OnePlus'ın tamamen güvenli ve özel olduğunu garanti ettiği bir sistem olan şirketin sunucularına bağlanır.

Benzer şekilde, Motorola yaz aylarında birden fazla sağlayıcıdan yapay zeka özellikleriyle dolu yeni bir katlanabilir Razr telefon serisi piyasaya sürdü. Bu telefonlar, bildirimlerinizi yapay zeka ile özetleyebilir, ancak şartlar ve koşulları okursanız ne kadarının bulutta gerçekleştiğine şaşırabilirsiniz. Eğer Razr Ultra'yı satın alırsanız, o özetleme telefonunuzda gerçekleşir. Ancak, daha az RAM ve NPU gücüne sahip daha ucuz modeller, bildirimlerinizi işlemek için bulut hizmetlerini kullanır. Yine Motorola bu sistemin güvenli olduğunu söylüyor, ancak daha güvenli bir seçenek, modeli daha ucuz telefonları için yeniden optimize etmek olabilirdi.

Bir OEM NPU donanımını kullanmaya odaklandığında bile, sonuçlar yetersiz kalabilir. Google'ın Daily Hub'ı ve Samsung'un Now Brief'ine bakın. Bu özelliklerin telefonunuzdaki tüm verileri işlemesi ve kullanışlı öneriler ve eylemler üretmesi amaçlanıyor, ancak takvim olaylarını göstermenin dışında nadiren başka bir şey yapıyorlar. Hatta Google, özelliğin çok az şey yapması nedeniyle Daily Hub'ı Pixel'lerden geçici olarak kaldırdı ve Google, Gemini Nano ile yerel yapay zeka öncüsü. Google, son aylarda mobil yapay zeka deneyiminin bazı bölümlerini yerel işlemden bulut tabanlı işlemeye taşıdı.

Bu "zorlu" modeller kazanıyor gibi görünüyor ve şirketlerin özel bilgi işlem bulut hizmetleriyle etkileşim kurduğunuzda daha fazla veri almasının da zararı yok.

Belki de alabildiğinizi mi almalısınız?

Yerel yapay zeka konusunda büyük ilgi var, ancak şu ana kadar bu, cebinizdeki bir yapay zeka devrimine dönüşmedi. Gördüğümüz yapay zeka ilerlemelerinin çoğu, sürekli artan bulut sistemlerinin ölçeğine ve orada çalışan genelleştirilmiş modellere dayanıyor. Endüstri uzmanları, yapay zeka modellerini telefonlarda ve dizüstü bilgisayarlarda çalışacak şekilde küçültmek için perde arkasında yoğun çalışmalar yapıldığını söylüyor, ancak bunun etkili olması zaman alacaktır.

Bu arada, yerel yapay zeka işleme sınırlı bir şekilde mevcut. Google, Magic Cue gibi özellikler için hassas verileri işlemek üzere Tensor NPU'sunu kullanmaya devam ediyor ve Samsung, Qualcomm'un yapay zeka odaklı yonga setlerinden gerçekten en iyi şekilde yararlanıyor. Now Brief'in şüpheli bir faydası olsa da, Samsung buluta bağımlılığın kullanıcılara nasıl zarar verebileceğinin farkında ve sistem ayarlarında yapay zeka işlemesini yalnızca cihazda çalıştırmakla sınırlayan bir geçiş sunuyor. Bu, mevcut yapay zeka özelliklerinin sayısını sınırlar ve diğerleri iyi çalışmaz, ancak kişisel verilerinizin hiçbiri paylaşılmadığını bilirsiniz. Akıllı telefonda başka kimse bu seçeneği sunmuyor.

Samsung sözcüsü Elise Sembach, şirketin yapay zeka çabalarının kullanıcı deneyimlerini geliştirirken kullanıcı kontrolünü sürdürmeye dayandığını söyledi. "One UI'daki cihaz içi işlem geçişi bu yaklaşımı yansıtıyor. Kullanıcılara daha hızlı performans, ek gizlilik ve ağ bağlantısı olmadan bile güvenilirlik için yapay zeka görevlerini yerel olarak işleme seçeneği sunuyor." Sembach şöyle dedi.

Kenar yapay zeka ilginç olsa bile, onu kullanmasanız bile iyi bir şeydir. Bu yapay zeka zengini geleceğe yönelik planlama, cihaz üreticilerini daha iyi donanıma yatırım yapmaya teşvik edebilir - tüm bu teorik yapay zeka modellerini çalıştırmak için daha fazla bellek gibi.

Sukumar, "Kesinlikle ortaklarımızı RAM kapasitelerini artırmaya tavsiye ediyoruz" dedi. Nitekim, Google, Samsung ve diğerleri, büyük ölçüde cihaz içi yapay zekayı desteklemek için bellek kapasitesini artırdı. Bulut kazanıyor olsa bile, ek RAM'i alırız.

Önceki Haber
ARM Tabanlı Bilgisayarlar Oyun İçin Hazır Hale Geliyor: Lisuan'dan Oyun Odaklı 3D Sürücü Müjdesi
Sıradaki Haber
AMD'den Şaşırtan Zam: RX 9000 Serisi Ekran Kartları Cep Yakacak!

Benzer Haberler: