Ara

Veri Merkezlerinin Geleceği Sıvı Soğutmada mı? Yapay Zeka Yükselişi Sıvı Daldırma Soğutmayı Zorunlu Kılıyor

Günümüz veri merkezleri, sunucuların aşırı ısınmasını önlemek için çeşitli soğutma sistemleri kullanıyor. Geleneksel hava soğutma yöntemi, sunucular arasındaki havayı dolaştırıp sıcak havayı dışarı atarak çalışıyor. Ancak, NVIDIA'nın Hopper ve Blackwell gibi yeni nesil işlemcileriyle birlikte artan güç tüketimi, bu yöntemin yetersiz kalmasına neden oluyor. Bu nedenle veri merkezi operatörleri, doğrudan çip üzerine sıvı soğutma (direct-to-chip) çözümlerine yöneliyor. Bu sistemler, mevcut hava soğutma altyapısıyla entegre edilebiliyor.

Bununla birlikte, daldırma soğutma gibi daha gelişmiş sistemler, performans, maliyet ve verimlilikte büyük avantajlar sunmasına rağmen henüz sınırlı bir kullanıma sahip. Ancak yapay zeka hızlandırıcılarının güç tüketiminin artmasıyla birlikte, daldırma soğutmanın önümüzdeki 3-4 yıl içinde kaçınılmaz hale gelmesi bekleniyor. Peki, sektör bu yeni teknolojiye hazır mı?

Veri Merkezleri Daha Çok Isınıyor

Yapay zeka destekli veri merkezlerinde ısı dağılımı, hava akışı, sıvı dolaşımı ve ısı değiştiricileri gibi sistemlerin birleşimiyle gerçekleşiyor. Temel prensip, sıcak çiplerden (CPU'lar, GPU'lar, anahtarlar) ısıyı bir ortama (hava, su veya dielektrik akışkan) aktarmak ve bu ısıyı soğutma kuleleri veya evaporatif üniteler aracılığıyla atmosfere bırakmaktır.

Hava soğutmalı veri merkezlerinde, sunucular sıcak egzoz havasını klima sistemlerinin toplama alanlarına üfler. Bu hava, soğutma kuleleri veya evaporatif soğutucularla soğutulduktan sonra tekrar dolaşıma sokulur. Bu yöntem ucuz ve uygulanması kolay olsa da, NVIDIA'nın Blackwell GPU'ları gibi yoğun güç tüketen donanımlar için yetersiz kalmaktadır.

Sıvı soğutmalı sistemlerde ise ısı, dolaşan soğutucu tarafından emilir ve bir ısı değiştiriciye taşınır. Buradan ısı, tesis su döngülerine veya soğutma kulelerine aktarılır ya da kısmen buharlaştırmalı soğutma ile dağıtılıp dışarı atılır. Bu sistemler, ısı yükünün büyük bir kısmını (yaklaşık %80-85) yönetebilirken, kalan artık ısı geleneksel hava soğutma ile halledilir.

Şu an için NVIDIA, Blackwell GPU'ları için soğuk plakalı doğrudan çip üzerine soğutma (D2C) öneriyor. Bu yöntem, mevcut hava ve sıvı soğutma altyapısıyla birleştirilebiliyor. NVIDIA ve iş ortakları, bu soğuk plakaların 1.2 ila 1.4 kW arasında değişen termal tasarım güçlerini yeterince soğutabileceğine inanıyor. Ayrıca, soğuk plakalar sunucu kasalarına entegre edilerek standartlaştırılmış dağıtımı kolaylaştırıyor.

NVIDIA'nın Blackwell GPU'ları birim başına 1.4 kW'a kadar güç tüketiyor. Bu da bir GB300 NVL72 rafın en az 120 kW güç harcaması anlamına geliyor ki bu da geleneksel hava soğutmalı ve hatta sıvı soğutmalı veri merkezlerinin tasarımlarını aşıyor. Sonuç olarak, veri merkezi operatörlerinin güç dağıtım altyapılarını yükseltmeleri gerekti. Ancak, Blackwell'in güç tüketimi nedeniyle veri merkezlerini tamamen yeniden inşa etmek zorunda kalmadılar.

Ve Daha da Isınacaklar

Ancak, yeni nesil yapay zeka veri merkezleri, NVIDIA'nın tabiriyle "yapay zeka fabrikaları", muhtemelen daha fazla yükseltme gerektirecek veya sıfırdan inşa edilecek. Çünkü gelecekteki yapay zeka hızlandırıcılarının güç tüketiminin önümüzdeki yıllarda dramatik bir şekilde artması bekleniyor.

NVIDIA'nın yeni nesil Rubin ve Rubin Ultra veri merkezi GPU'larının, güç tüketimini sırasıyla 1.800W ila 3.600W'a çıkarması bekleniyor. Bu durum, veri merkezi tesislerinin güç çekişini tekrar artıracak. Yine de, NVIDIA ve iş ortaklarının bu işlemcilerle doğrudan sıvı soğutma kullanmaya devam edeceği öngörülüyor. Kyber raf mimarisine dayalı NVL576 sistemlerini (144 hesaplama çipleti ile) kullanan exascaler'lar ise bu tür sistemleri barındırmak için güç dağıtım altyapılarını ve bilgisayar salonlarını önemli ölçüde yükseltmek zorunda kalacaklar.

Daldırma Soğutma Yükseliyor

Ancak, 2028'de piyasaya sürülmesi beklenen ve paket başına 4.400W güç tüketmesi öngörülen Feynman GPU'ları ile birlikte, sektör kaynakları NVIDIA'nın daldırma soğutma sistemlerine yöneleceğine inanıyor. Bu teknoloji, sunucu kartlarını ve ekipmanlarını doğrudan elektrik iletkenliği olmayan bir soğutma sıvısı kabına yerleştirmeyi gerektiriyor.

Daldırma soğutma yeni bir teknoloji değil. Elektrikli ekipmanların, örneğin transformatörlerin, soğutma amacıyla dielektrik akışkanlara yerleştirilmesi 1887'den önce de uygulanıyordu. Cray ve IBM, 1960'lar ve 1980'lerde daldırma soğutma ile deneyler yapsalar da o dönemde büyük ölçekli bir süper bilgisayar bu teknolojiyle üretilmedi.

Bununla birlikte, daldırma soğutma, 2010'ların ortalarında kripto madencileri için cazip hale gelen toplam sahip olma maliyeti (TCO) avantajları sayesinde tekrar ilgi odağı oldu. Bu durum, teknolojiyi olgunlaştırma yolunda itti. 2017'de birçok yeni girişim, kripto ve büyüyen veri merkezi soğutma ihtiyaçları için daldırma soğutma sistemleri geliştirdi.

2018'de Open Compute Project (OCP), daldırma soğutmayı Gelişmiş Soğutma Çözümleri izleyicisine ekledi. Bunu 2019'da San Jose'deki OCP Zirvesi'nde sunulan ilk endüstri standartları izledi. Intel, daldırma soğutma teknolojileri üzerinde çeşitli şirketlerle çalıştı ve 2022-2023 yıllarında bazı pratik sonuçlar duyurdu.

Daldırma soğutma üstün bir verimlilik sunar ve 100 kW'ın üzerindeki ısı dağılımlarını yönetebilen aşırı yoğun rafları destekler. Ancak, özel altyapı gerektirir ve satıcı sertifikasyonunda eksiklikler bulunur. Bu nedenle NVIDIA, birçok nedenden dolayı Blackwell GPU'ları için daldırma soğutmayı tam olarak desteklemiyor:

  • Öncelikle, dielektrik akışkanlar içindeki bileşenlerin uzun vadeli güvenilirliği belirsizdir. Bileşen ömrü hakkında yerleşik veriler olmadan, şirket garanti sağlayamaz.
  • İkinci olarak, modern bilgisayar salonları daldırma soğutucular için hazır değil. Daldırma soğutma, özel tanklar, pompalar ve akışkan yönetimi sistemleri gerektirir ve bunlar (en azından şimdilik) mevcut veri merkezi tesisatlarıyla uyumlu değildir.
  • Üçüncüsü, OCP'nin daldırma soğutma kurulumları için standartları olsa da, teknoloji henüz tam olarak standartlaşmamıştır, bu da ortaklar için uygulanmasını pahalı hale getirmektedir.

Ayrıca, tüm daldırma soğutma sistemleri aynı şekilde çalışmaz.

Farklı Daldırma Soğutma Türleri

Kripto para madencilik çiftlikleri ve fuarlarda sergilenen daldırma soğutma sistemleri genellikle Tek Fazlı Daldırma Soğutmadır. Sunucular, bileşenlerden ısıyı doğrudan emen iletken olmayan bir dielektrik yağına (veya özel bir mühendislik akışkanına) daldırılır. Pompalar ısınan sıvıyı bir ısı değiştiriciye pompalar, burada ısıyı bırakır, soğur ve tekrar dolaşıma girer. Bu tür daldırma soğutma sistemleri nispeten ucuzdur ancak NVIDIA'nın 'yapay zeka fabrikaları' için ölçeklenmesi zordur.

İki Fazlı Daldırma Soğutma sistemlerinde ise sunucular, düşük kaynama noktasına sahip bir dielektrik akışkana daldırılır. Çiplerden gelen ısı, akışkanın buharlaşmasına neden olur. Buhar yükselir, tankın üstündeki soğutulmuş bir bobin veya plakada yoğunlaşır ve geri damlar, böylece kendi kendine yeten bir soğutma döngüsü oluşturur. Bu döngü ısıyı daha verimli bir şekilde giderir ve 100 kW'ı aşan son derece yüksek raf yoğunluklarını destekleyebilir.

Dahası, iki fazlı daldırma soğutma sistemlerinde pompa veya zorunlu konveksiyon için başka mekanizmalar bulunmadığından, potansiyel arıza noktaları bir veya iki adet azalır. Ancak sistemler, 3M Novec gibi özel ve pahalı akışkanlara dayanır (bu akışkanlar artık üretilmiyor çünkü tehlikeli per- ve polifloroalkil maddeler içeriyorlardı). Buharlaşmayı önlemek için hermetik olmaları gerekir ve geleneksel veri merkezlerinin yerini alacak dikkatlice tasarlanmış altyapı gerektirirler.

Şu anda, 40U raf eşdeğeri bir tank 20.000 dolar civarında mal oluyor. Düşük kaynama noktalı özel dielektrik akışkanlar ise 15.000-20.000 dolar daha mal olabilir. Ayrıca, 3M'nin 2024'te düşük kaynama noktalı dielektrik akışkan üretimine son vermesiyle, iki fazlı daldırma soğutmanın geliştirilmesi ve standartlaştırılması büyük ölçüde karmaşıklaştı.

Aslında, akışkanlar en büyük endişelerden biridir, çünkü standartlaşmamışlardır ve uzun vadede donanımı nasıl etkileyebilecekleri bilinmemektedir, bu da anormal arıza oranlarına neden olabilir. Ek olarak, buhar kaybı sık sıvı takviyeleri gerektirir, bu da servis maliyetlerini artırır. Bu arada, daldırılmış donanıma servis vermek, kaynamayı sınırlamak için tankları kısmayı veya kapatmayı gerektirir, bu da potansiyel olarak kesinti süresini artırır.

Belirlenmiş standartlar veya sıvı daldırma soğutmanın evrimi için net bir yol olmadan, farklı şirketler farklı yaklaşımlar deniyor. Örneğin, bazı firmalar iki fazlı daldırma soğutmayı su döngüleri veya arka kapı ısı değiştiricileri gibi diğer soğutma stratejileriyle birleştiren hibrit sistemler oluşturmayı öneriyor.

Şimdilik Az Sayıda Kurulum

Büyük şirketlere gelince, hiçbiri daldırma soğutmayı büyük ölçekte kurmadı. AWS, Google, Meta veya Oracle'dan hiçbiri daldırma soğutmanın herhangi bir ölçekte kullanıldığına dair bir teyit vermedi.

Microsoft, 2021'de Quincy, Washington'daki veri merkezinde, düşük kaynama noktalı dielektrik sıvıyla doldurulmuş tanklar kullanarak CPU'ları ve GPU'ları soğutan iki fazlı daldırma soğutmayı gerçek üretime alan ilk büyük bulut sağlayıcısı oldu. Microsoft ve Wywinn tarafından ortaklaşa tasarlanan sistem, yaklaşık 50°C'de kaynayan 3M'nin mühendislik sıvısına 300W CPU'lar ve 700W GPU'lar daldırıyor.

Microsoft'un testleri, bu yöntemin geleneksel soğutmaya kıyasla sunucu başına enerji kullanımını %5 ila %15 oranında azaltabildiğini ve aynı zamanda Teams toplantıları gibi ani iş yükü artışlarını karşılamak için hız aşırtmayı (overclocking) mümkün kıldığını gösterdi. Verimliliğin ötesinde, daldırma soğutma daha yoğun sunucu yerleşimlerine de olanak tanıyarak hava akışı sınırlamaları olmadan bilgi işlem kapasitesini artırıyor.

Microsoft ayrıca, daldırma soğutmanın oksijen ve neme maruz kalmayı azaltarak donanım arıza oranlarını düşürebileceğini de belirtiyor. Eğer bu yöntem uygulanabilir olursa, bileşenlerin arızalandığında hemen değiştirilmediği ortamlarda kullanılabilir. Ancak şirket, daldırma soğutma projesiyle ilgili herhangi bir güncelleme duyurmadı, bu nedenle deneyin sonuçlarının gelecek yıllarda yeni nesil yapay zeka veri merkezlerini soğutmak için kullanılıp kullanılamayacağını bilmiyoruz.

Tünelin Ucunda Işık Var mı?

Tünelin ucunda bir ışık olabilir. Intel ve Shell, bu yılın başlarında veri merkezleri için ilk tam sertifikalı tek fazlı daldırma soğutma çözümünü tanıttı. Bu işbirliğine Supermicro ve Submer da katıldı.

Çözüm, maksimum termal performans için şirketin gazdan sıvıya (GTL) kimyası ve ester formülasyonlarından geliştirilen Shell'in tek fazlı dielektrik akışkanlarına dayanıyor. Bu akışkanlar elektriksel olarak iletken olmayan, PFAS içermeyen ve farklı derecelerde biyolojik olarak parçalanabilen özelliklere sahip, bu da onları 3M'nin kullanımdan kaldırdığı florokarbon bazlı seçeneklerden daha güvenli ve sürdürülebilir kılıyor.

Shell, kendi akışkanlarını kullanmanın, hava soğutmaya kıyasla güç tüketimini %48'e kadar azaltabileceğini, sermaye ve işletme giderlerini %33'e kadar düşürebileceğini ve hatta bilgisayar salonu zemin alanını küçültebileceğini iddia ediyor. Intel, CPU'ları için kesin faydaları açıklamadı, ancak tek fazlı daldırma soğutma sistemleriyle sunucu sıcaklıklarının önemli ölçüde düşebileceği açık.

Çözüm, 45°C'ye kadar ortam koşullarında çalışmak üzere doğrulanmış ve 4. ve 5. Nesil Intel Xeon işlemcileri çalıştıran platformlarla kullanım için sertifikalandırılmıştır. Intel, bu kullanımlarını kapsayan bir Daldırma Garantisi Ek Hizmeti sunuyor. Bir yandan, Intel'in daldırma soğutmanın hava soğutmalı sistemlere eşit dayanıklılık sağladığını garanti edebildiğini teyit ediyor. Ancak diğer yandan, garanti yalnızca önceki nesil Intel Xeon CPU'lar için geçerlidir ki bunlar en güçlü makineler için kullanılmıyor.

Ancak duyurunun kilit noktası, üç büyük yüksek teknoloji şirketi olan Intel, Shell ve Supermicro'nun, Submer'ın da katılımıyla tek fazlı daldırma soğutma sistemleri için aktif olarak çözümler üzerinde çalıştığıdır. Bu işbirliğinin iki fazlı daldırma soğutma çözümlerine genişleyip genişlemeyeceğini bilmiyoruz.

Özet: Sektör Şimdi Harekete Geçmeli

Geleneksel veri merkezleri çoğunlukla hava soğutmaya dayanıyor, ancak bu yaklaşım NVIDIA'nın Blackwell serisi GPU'ları gibi yüksek güçlü CPU ve GPU'ları kullanan yapay zeka veri merkezleri için giderek yetersiz kalıyor. Artan güç yoğunluklarıyla başa çıkmak için veri merkezi operatörleri sıvı soğutmayı benimseiyor. Bu teknolojinin hem günümüz donanımları hem de 1.8 kW – 3.6 kW'a ulaşması beklenen Rubin ve Rubin Ultra gibi yeni nesil hızlandırıcılar için çalışması bekleniyor. Ancak, sektör kaynakları ve KAIST gibi kurumlar, NVIDIA ve iş ortaklarının yaklaşık 4.4 kW güç tüketimi öngörülen Feynman GPU'ları için daldırma sıvı soğutmaya ihtiyaç duyacağını bekliyor.

Daldırma soğutma önümüzdeki birkaç yıl içinde muhtemel bir zorunluluk olsa da, ana akım kullanıma henüz hazır değil. Tek fazlı daldırma soğutma nispeten ucuzdur ancak binlerce GPU'ya ev sahipliği yapan yapay zeka veri merkezleri için ölçeklenmesi zordur; kaynayan dielektrik akışkanları kullanan iki fazlı sistemler ise çok daha verimli ancak pahalı ve karmaşıktır.

Şimdiye kadar, büyük bulut hizmet sağlayıcılarından hiçbiri (Microsoft hariç, ancak deneyinin ölçeğini bilmiyoruz) OCP'nin 2019'da daldırma sıvı soğutma için şartnameler yayınlamasına rağmen, daldırma sıvı soğutmayı önemli bir ölçekte kullanmaya çalışmadı. Bu bağlamda, tüm büyük CSP'lerin daldırma soğutmaya ilgi gösterdiği görülmüyor.

Intel, Shell, Supermicro ve Submer'ın yakın zamanda Intel'in Xeon işlemcileri için garantiyi geçersiz kılmayan ilk tam sertifikalı tek fazlı daldırma çözümünü sunmasıyla momentum yeniden artabilir. Bu işbirliği, standartlaştırılmış, sertifikalı daldırma çözümlerine artan ilgiyi gösteriyor; ancak, yalnızca dört şirketten bahsediyoruz ki bu da daldırma soğutma ekosistemini 2028-2029'daki lansmana hazırlamak için yeterli değil.

Önceki Haber
Ödenmemiş Borç Nedeniyle Yasaklanan Xbox 360 Bulundu: Microsoft MVP'sinden Resmi Çözüm!
Sıradaki Haber
Kör Mağara Balıkları: Kayıp Gözler ve Yeni Süper Güçler

Benzer Haberler: