Teknoloji dünyası, altı yıldır vaat edilen ancak hala piyasaya sürülmeyen bir işlemcinin geliştiricisi Tachyum'dan gelen yeni açıklamalarla bir kez daha gündemde. Firma, Prodigy adını verdiği evrensel işlemcisinin yeni hedef özelliklerini ve beklenen performansını duyurdu. Bu duyuru, şirketin son finansman turunu ve kağıt üzerinde varlığını sürdüren Prodigy işlemcisini "yükseltme" niyetini açıklamasından sadece bir ay sonra geldi.
En güçlü Prodigy işlemcisinin hedeflenen özelliklerine göre, Tachyum, işlemcisini kullanan bir sistemin, Nvidia'nın yakında piyasaya süreceği Rubin Ultra GPU'lara dayanan NVL576 sistemlerinden 21 kat daha hızlı olacağını iddia ediyor. Ancak, bu hafta açıklanan Tachyum'un Prodigy işlemcisiyle ilgili detaylar, en iyi senaryoda bile cihazın dört ila beş yıl daha gecikebileceğine işaret ediyor.
Devasa Donanım Vaatleri
Bir ay önce bildirildiği üzere, Tachyum'un Prodigy işlemcisi, daha doğrusu "paket içi sistem" (SiP), çoklu çiplet tasarımını benimseyecek. Her çiplet, TSMC'nin 2nm sınıfı üretim süreciyle üretilecek ve 256 adet özelleştirilmiş çekirdeğe, 8 yönlü sıralı süperskalar yürütme hattına ve matris ile vektör hızlandırıcılara sahip olacak.
Tachyum, 12 farklı Prodigy SKU'su sunmayı hedefliyor. En üst düzey Prodigy Ultimate modeli dört çiplet ile 768 veya 1024 çekirdek sunacak. Ayrıca 1 GB'a kadar L2 ve L3 önbellek, 128 PCIe hattı ve soket başına 48 TB'a kadar DDR5-17600 bellek desteği ile soket başına 3.38 TB/s'ye kadar tepe bant genişliği sağlayacak. Prodigy Premium SKU'su iki çiplet ile 256-512 çekirdek ve 16 kanallı bir bellek alt sistemi sunarken, Prodigy Entry SKU'su 32-256 çekirdek ve 8 kanallı bir bellek alt sistemiyle gelecek.
Tachyum'un bir belgesine göre, her bir çiplet, dört adet 11x6 gruplara (grup başına 66) ayrılmış 264 çekirdekten oluşan bir sistolik dizi içeriyor. Bu gruplardan her biri sekiz adet yedek çekirdek içeriyor, bu da her çiplet için yazılıma 256 çekirdek/256 elemanlı matris birimi sunuyor.
Bu durum, Tachyum'un yerleşik matris işlemcisinin 16x16, 8x8 ve 4x4 işlemleri desteklediği iddiasını doğruluyor. Ayrıca, bu tasarım, her satır için fazladan bir CPU çekirdeği/MAC öğesi ve her sütun için fazladan bir CPU çekirdeği/MAC öğesi sağlıyor. Bu, sistolik dizi tasarımı uygulamalarıyla tutarlı olup, verim ve onarılabilirlik için ek elemanlar içerme eğilimindedir. Ancak, karmaşık veri akışları ve artan gecikmeler nedeniyle CPU'ların sistolik dizi benzeri düzenlemeleri nadiren kullandığını belirtmek gerekir.
Görülen o ki, her bir çiplet, 256 çekirdeğe kadar, 256 MB L2 ve L3 önbelleğe, kendi sekiz kanallı DDR5 bellek alt sistemine ve 96 adede kadar PCIe 7.0 hattı dahil olmak üzere I/O'ya sahip tam işlevsel bir işlemci olarak tasarlanmış. Tachyum'un, çip-arası ve soket-arası ara bağlantılar için PCIe PHY'yi yeniden kullandığı görülüyor, bu nedenle en üst düzey Prodigy Ultimate modeli 'sadece' 128 PCIe 7.0 hattı sunuyor.
Her zaman olduğu gibi, Tachyum'un özellikleri sayılarla etkileyici olsa da, bu sayıların ezici doğası ve şirketin teslimat konusundaki geçmiş başarısızlıkları, bu iddialara inanmayı ve gerçekleşmelerini beklemeyi zorlaştırıyor.
Örneğin, 1024 çekirdekli, 6.0 GHz'e kadar çalışma hızına sahip ve 1600W güç tüketen genel amaçlı bir CPU'nun, özellikle bu tür tasarımlarda sıfır deneyime sahip bir şirketten gelmesi gerçekçi görünmüyor.
Ayrıca, MRDIMM teknolojisi DDR5-17600 modüllerini potansiyel olarak etkinleştirebilse de, şu anda böyle bir spesifikasyon bulunmuyor. Dahası, 2 TB DDR5 bellek modülleri şu anda mevcut değil ve yakın zamanda da beklenmiyor, bu nedenle soket başına 48 TB belleği destekleme vaadi biraz erken görünüyor.
Muazzam Performans Vaatleri
Tachyum'un Prodigy evrensel işlemcisi için özellikleri etkileyici olsa da, cihazların on yılın sonuna kadar piyasaya sürülmeyeceğini unutmamak gerekiyor. Buna rağmen, Tachyum'un performans vaatleri, var olmayan donanıma kıyasla oldukça garip görünüyor.
Tachyum daha önce Prodigy'nin "kat kat daha yüksek yapay zeka performansı, en iyi x86 işlemcilerin 3 katı performans ve en hızlı GPGPU'nun 6 katı HPC performansı" sunduğunu iddia ediyor, ancak bunu nicel verilerle desteklemiyordu.
Şirketin son basın bültenindeki tonu değişti; Prodigy'nin beşe kadar tam sayı throughput, 16 kata kadar yapay zeka performansı, 8 kat bellek bant genişliği, dört kat çip-arası ve I/O bant genişliği, 16 soket desteği ile dört kat daha fazla çoklu soket ölçeklenebilirliği ve yaklaşık iki kat daha fazla güç verimliliği sunduğunu açıklıyor; ancak yine gerçek sayılar vermekten kaçınıyor. Bellek bant genişliği iddiası (3.38 TB/s) belki bir istisna olabilir, ancak AMD'nin EPYC 9005 serisi CPU'larına kıyasla sekiz kat daha yüksek değil.
Belki de sürekli sayı eksikliği endişelerine yanıt olarak Tachyum, 2nm Prodigy'nin "çıkarım (inference) üzerinde 1.000 PFLOPS" sunacağını açıkladı ve bu sayıyı Nvidia'nın Rubin GPU'su ile karşılaştırdı. Rubin GPU'nun 50 NVFP4 PFLOPS sunduğu iddia ediliyor, bu da işlemcinin benzer bir veri formatıyla (örneğin FP4, MXFP4 veya özel bir 4-bit format) çalıştığını gösteriyor.
Ancak, bu iddia sağduyuya aykırı olabilir, çünkü bant genişliği sınırlı yapay zeka çıkarım iş yükleri için Rubin GPU'dan 20 kat daha yüksek performans elde etmek, aynı zamanda 3.8 kat daha düşük bellek bant genişliği sunarken son derece zordur. Bu arada, 20 kat daha yüksek performans rakamı, 144 adet Rubin Ultra GPU paketi içerecek olan Nvidia'nın NVL576 sisteminden 21.3 kat daha hızlı olacağı iddiasının temelini oluşturuyor gibi görünüyor.
Belki de Tachyum'un bu hafta açıkladığı tek kullanışlı sayı, en üst düzey 1024 çekirdekli Prodigy Ultimate işlemcisi için "HPC için 400 FP64 TFLOPS" performans iddiasıydı. Eğer doğruysa, bu işlemci Nvidia'nın Blackwell B200'ünden (40 FP64 TFLOPS) 400W daha yüksek güç tüketimiyle 10 kat daha hızlı ve AMD'nin Instinct MI355X'inden (78.6 FP64 TFLOPS) beş kat daha hızlıdır. Ancak, bu sonucun hangi birim tarafından elde edildiğini ve nasıl başarıldığını bilmediğimiz için bu karşılaştırmayı tam olarak yapamayız. Gerçekten de, Tachyum'un "TAI PFLOPS" gibi özel metrikler oluşturma eğilimi göz önüne alındığında, "400 DP TFLOPS" rakamı standart FLOP hesaplamalarına uymayabilir (örneğin, DP eşdeğeri hassasiyet kullanıyorsa).
Başka Bir Büyük Gecikme
Tachyum'un bu haftaki duyurusu, Prodigy evrensel işlemcisinin bazı performans yönlerini kapsıyor, büyük tasarım değişikliklerini (çoklu çiplet tasarımı, 2nm süreci) ortaya koyuyor, halihazırda duyurulmuş özelliklerde değişiklikler (çiplet başına daha fazla çekirdek, çiplet başına daha az bellek kanalı, PCIe 7.0 desteği vb.) açıklıyor ve şirketin işlemciyi 2nm sınıfı üretim teknolojisiyle, muhtemelen TSMC'de üretmeyi planladığını gösteriyor. Bunların hepsi işlemci hakkında olumlu bir tablo çizme çabasıdır. Ancak, tüm bu detaylar Tachyum'un Prodigy projesinde başka bir büyük gecikmeye işaret ediyor.
Yaklaşık bir yıl önce Tachyum, 5nm sınıfı üretim teknolojisi üzerine kurulu 192 çekirdekli Prodigy'yi 2025'te üretmeyi planlıyordu. Bu, silikonun en azından HDL kodu olarak (RTL tamamlanmış) var olduğunu, doğrulanması ve simülasyonunun devam ettiğini veya çoğunlukla bittiğini gösteriyordu. Bu nedenle şirketin yalnızca fiziksel tasarımı sentezlemesi ve ardından fiziksel tasarım dosyasını üretim ortağına göndererek fotomaske'ler oluşturması ve ilk yongayı üretmesi gerekiyordu.
Ancak şimdi Tachyum, tasarımı geliştirmeyi ve FinFET tabanlı 5nm sınıfı işlem teknolojisinden geçitli-etrafında (gate-all-around) transistör tabanlı 2nm sınıfı üretim düğümüne geçmeyi planladığı için, yüksek seviyeli tasarımını geliştirmesi ve çipin fiziksel kısıtlamaları transistör tipiyle neredeyse tamamen değiştiği için RTL tasarım aşamasına geri dönmesi gerekiyor.
Prodigy için yeniden tasarım ve 2nm GAA teknolojisinin benimsenmesiyle her şey değiştiği için, Tachyum'un RTL'sini sıfırdan tamamen yeniden işlemesi gerekecek. Bu, ekibin 51 ile 200 çalışanı arasında olduğu düşünüldüğünde, bir yıldan fazla (muhtemelen 1.5 yıl, iyimser bir tahminle) sürecektir. Tam çip doğrulama ve geçerlilik (layout öncesi) muhtemelen 12 ila 18 ay daha sürecektir, çünkü bu, son teknoloji bir üretim teknolojisi üzerinde uygulanan karmaşık bir çiplettir.
Gerçekçi Senaryolar 2030 Sonlarını İşaret Ediyor
En kötü fonksiyonel hatalar giderildikten sonra, Tachyum'un ekibi fiziksel tasarım sentezlemeye başlayabilir. Bu, doğrulama ve geçerlilik ile kısmen örtüşecektir, ancak yine de 18 aydan fazla sürecektir. Ondan sonra şirket tape-out işlemine geçebilir, bu da yarım yıl daha sürer. Ardından ilk silikonun çalıştırılması ve son-silikon doğrulaması gelir ki bu da ilk çip düzgün çalışırsa yaklaşık bir yıl sürer (eğer bir yeniden tasarım gerekirse, ek 18 ay eklenir). Bu adımlar tamamlanana kadar Prodigy seri üretime hazır olacaktır. Ancak hem silikon hem de platformun devreye alınması en az altı ay daha sürecektir.
Sonuç olarak, Tachyum bugün çalışmaya başlarsa, Prodigy silikonunu 60 ay içinde sevk etmeye hazır hale getirmesi halinde son derece şanslı olacaktır. Bu, en iyi senaryoda 2029 sonları anlamına gelir ve ürünler 2030'da piyasaya sürülecektir. Daha gerçekçi bir senaryo, silikonun yaklaşık beş yıl içinde (2030 sonlarında) tamamlanmasıdır. Eğer silikon yeniden tasarıma ihtiyaç duyarsa, her şey 2031-2032'ye ertelenir.
Elbette, Tachyum'un her şeyi dahili olarak hallettiği bir senaryodan bahsediyoruz. Ancak şirket, RTL tasarımını dahili olarak tamamlayabilir (mikro-mimari seviyesindeki RTL'yi dışarıdan almak nadir, riskli, pahalı, hata ayıklaması zor ve sektörde yaygın olmayan bir durumdur) ve ardından her şeyi deneyimli bir harici çip tasarımcısına devredebilir. Bu durumda, Tachyum şanslıysa, Prodigy'yi bu on yıl içinde üretimde görebiliriz. Ancak Tachyum, Prodigy tasarımını daha önce dışarıdan yaptırmaya istekliyse, neden daha önce yapmadı?
Güçlü Görünüyor Ama Maliyet ve Rekabet Engelleri Kapıda
Tachyum'un Prodigy evrensel işlemcisi için yükseltilmiş yeni özellikleri, onu CPU dünyasında güçlü bir rakip gibi gösteriyor. Ancak, bu yeni özellikler Tachyum'un tasarım ve doğrulama çalışmalarının büyük bir kısmını yeniden başlatması gerektiği anlamına geliyor ve projeyi en az dört ila beş yıl daha erteleyecek. Şirketin sınırlı kaynakları, kaçırılan zaman çizelgeleri geçmişi ve son teknoloji 2nm GAA çip tasarlamanın muazzam maliyeti göz önüne alındığında, Prodigy'nin gerçekçi olarak ne zaman piyasaya sürülebileceği zamanlarda rekabetçi kalması zor olabilir.