Günümüz modern bulut veri merkezleri, bilgi işlem ve soğutma için devasa miktarda enerji harcamanın yanı sıra önemli miktarda da su tüketiyor. Bunun en büyük sebebi, çoğu veri merkezinin soğutma için buharlaşmalı sıvı soğutma yöntemlerini kullanması.
Ancak Nvidia'nın yeni nesil yapay zeka sistemleri, bu soruna farklı bir yaklaşım getiriyor. Nvidia'nın GB200 NVL72 ve GB300 NVL72 gibi sistemleri, doğrudan çip üzerine uygulanan sıvı soğutma sistemlerini kullanıyor. Şirket, bu sistemlerin günümüzdeki soğutuculara göre 25 kat daha enerji verimli ve 300 kat daha su verimli olduğunu iddia ediyor. Ancak burada dikkat çeken bir nokta var: NVL72 gibi sistemler, tipik sunucu kabinlerinden (rack) yedi kattan fazla enerji tüketebiliyor.
Normal bir veri merkezi sunucu kabini yaklaşık 20 kW güç çekerken, Nvidia'nın daha önceki H100 tabanlı kabinleri 40 kW'ın üzerinde güç tüketiyordu. Yeni GB200 NVL72 ve GB300 NVL72 sistemleri ise 120 kW – 140 kW gibi çok daha yüksek seviyelere ulaşıyor. Bu denli yüksek güç tüketimi, standart hava bazlı soğutma yöntemlerinin termal yükleri yönetmekte yetersiz kalmasına yol açıyor. Bu nedenle Nvidia, Blackwell mimarili yeni çiplerinde farklı bir soğutma çözümü benimsemek zorunda kaldı.
Nvidia'nın yeni sistemleri, doğrudan çip soğutma yöntemini kullanıyor. Bu yaklaşımda, soğutucu sıvı doğrudan GPU'lar, CPU'lar ve ısı üreten diğer bileşenlere takılan soğuk plakalar aracılığıyla dolaştırılıyor. Bu sayede ısı, hava gibi bir aracıya ihtiyaç duymadan doğrudan ve verimli bir şekilde uzaklaştırılıyor.
Buharlaşmalı soğutma veya daldırma soğutma gibi yöntemlerin aksine, NVL72'nin sıvı soğutması kapalı bir döngü sistemidir. Bu, soğutucu sıvının buharlaşmadığı veya faz değişimi nedeniyle kayıp yaşamadığı anlamına gelir, bu da önemli ölçüde su tasarrufu sağlar.
Bu mimaride, sıvı soğutucu tarafından emilen ısı daha sonra kabin düzeyindeki sıvıdan sıvıya ısı eşanjörleri aracılığıyla veri merkezinin genel soğutma altyapısına aktarılır. Bu tür soğutucu dağıtım üniteleri (CDU), yüksek yoğunluklu sistemleri düşük termal direnç ve güvenilir ısı tahliyesi ile destekleyebilir.
Ayrıca, bu kurulum sistemlerin ılık su ile soğutulmasına olanak tanıyarak mekanik chiller'lara olan ihtiyacı azaltabilir veya ortadan kaldırabilir. Bu da hem enerji verimliliğini hem de su tasarrufunu artırır.
Nvidia'nın kapalı döngü doğrudan çip sıvı soğutma çözümleri hakkında belirtilmesi gereken bazı noktalar var. Kapalı döngü sıvı soğutma çözümleri PC kullanıcıları arasında yaygın olsa da, veri merkezi ölçeğinde geniş çapta benimsenmemesinin pratik, mühendislik ve ekonomik nedenleri bulunuyor.
Veri merkezleri, bakım, yükseltme ve parça değişimi için modülerlik ve erişilebilirlik gerektirir, bu nedenle çalışırken değiştirilebilen bileşenler kullanılır. Ancak, hermetik olarak kapatılmış sistemler, arızalı sunucu veya GPU'ların hızlı değişimini zorlaştırır, çünkü sızdırmazlığın bozulması tüm sistemi etkileyebilir.
Ayrıca, sızdırmaz sıvı döngülerinin kabinler ve tüm veri merkezi boyunca yönlendirilmesi, borulama, pompa yedekliliği ve arıza izolasyonu gibi lojistik karmaşıklıklar getirir. Neyse ki, mevcut doğrudan çip sıvı soğutma çözümleri, sızdırmaz hızlı bağlantı elemanları kullanır. Bu, tam bir hermetik sızdırmazlık olmadan bile bakım yapılabilirliği sağlar. Ancak, veri merkezi ölçeğinde sıvı soğutma kullanmak, tüm veri merkezinin yeniden tasarımını gerektirir ki bu da pahalıdır.
Bununla birlikte, Nvidia'nın yeni işlemcileri rakipsiz performans sunduğu için, bu işlemcileri benimseyen firmalar bu tür yeniden tasarımlara yatırım yapmaya istekli. Nvidia da, bu sistemlerin hızlı kurulumu ve maksimum verimlilikle çalışması için referans tasarımlar geliştiriyor.
Nvidia, Blackwell B200 GPU'ları ve sistemleriyle sıvı soğutmayı zorunlu tutsa da, buharlaşmalı soğutma çözümlerinden kaçınmak ve su tasarrufu sağlamak amacıyla kapalı sıvı soğutma çözümlerinin referans tasarımlarına yatırım yaptı. Bu, makul bir değişim gibi görünüyor.