ChatGPT, Claude ve Gemini gibi büyük dil modelleri (LLM'ler) genel halk tarafından benimsenirken, bilim insanları bu yapay zeka (YZ) araçlarının tıbbi araştırmaları nasıl geliştirebileceğini keşfediyor.
Bazı araştırmacılar, LLM'lerin belirli tıbbi çalışmaların tamamlanmasında araştırmacıların verimliliğini önemli ölçüde artırabileceğini savunuyor. Şubat ayında Cell Reports Medicine dergisinde yayımlanan bir çalışma, bu teknoloji vizyonunu örnekliyor.
Çalışmada, bir gebelikte erken doğum riskini tahmin etmek için devasa hasta biyomedikal verisi setleri kullanıldı. Bu tür tahminler uzun yıllardır güçlü bir YZ kullanım alanı olmuştur ve LLM'lerin kullandığı geleneksel makine öğrenimi türlerinden daha gelişmiş yöntemlerle mümkündü. Ancak bu çalışmayı dikkat çekici kılan, LLM'lerin, bir yüksek lisans öğrencisi ve bir lise öğrencisi gibi daha genç araştırmacıların son derece doğru kodlar üretmesini sağlamasıydı.
Üretilen kodlar, bir bebeğin doğumdaki gebelik yaşını ve erken doğum olasılığını tahmin etti. YZ'nin çıktıları, aynı verileri işlemek için insan tarafından yazılmış kod kullanan uzman ekiplerin analizleriyle eşleşti ve hatta bir durumda onları geride bıraktı.
Çalışmanın ortak yazarlarından, San Francisco'daki Kaliforniya Üniversitesi'nin Baker Hesaplamalı Sağlık Bilimleri Enstitüsü interim direktörü Marina Sirota, “Genç bilim insanlarıyla burada gördüklerim ve ne kadar etkili olabildikleri beni gerçekten ilhamlandırdı ve büyüledi” dedi.
LLM'lerin en büyük vaatlerinden biri, araştırmacıların kod üretme ve karmaşık analizler yapma eşiğini düşürmek. Ancak bu durum bazı riskleri de beraberinde getiriyor. YZ hızla geliştikçe, araştırmacılar sayısız soruyla yüzleşmek zorunda kalıyor: YZ'nin doğruluğunu sağlamak için ne gibi güvenceler oluşturulmalı? Çıktısı nasıl ölçülmeli? Ve bu sistemler öne çıktıkça insan araştırmacıların rolü nasıl evrilecek?
YZ Tabanlı Tahmin Nasıl Çalışır?
Sirota'nın ekibi, bilim insanlarından oluşan ekiplerin paylaşılan veri setlerini kullanarak karmaşık biyomedikal sorunları ele aldığı uluslararası yarışmalar olan DREAM (Dialogue for Reverse Engineering Assessments and Methods) Challenges'da kullanılan verilere başvurdu.
Açık kaynaklı veri setleri, vücuttaki hangi genlerin aktif olduğunu yansıtan bir molekül olan RNA'yı inceleyen kan transkriptomik verilerini içeriyordu. Ayrıca, DNA'nın üzerinde yer alan ve hangi genlerin açılabileceğini kontrol eden kimyasal etiketleri tanımlayan plasenta hücrelerinden elde edilen epigenetik bilgileri ve vajinal sıvı örneklerinde bulunan bakterileri tanımlayan mikrobiyom verilerini de kapsıyordu.
Bu veri noktaları, geldikleri örnek türüyle (kan, plasenta dokusu veya vajinal sıvı) işaretlendi ve ilgi çekici sonuçlarla, yani gebelik yaşı ve erken doğum ile etiketlendi. Makine öğrenimi algoritmaları daha sonra bir örneğin kaynağı ile etiket arasındaki bağlantıları tespit etmek için eğitilebilir. Örneğin, belirli bakteri karışımlarına sahip mikrobiyom örneklerinin sıklıkla erken doğum yapmış kişilerden geldiğini ortaya çıkarabilirler.
Algoritma bir veri alt kümesi üzerinde eğitildikten sonra, etiketlerin eksik olduğu örnekler üzerinde, olması gereken etiketi tahmin edip etmediğini görmek için test edilebilir. Örneğin, eğitim verilerinde erken doğum riskini artıran bakteri karışımlarına benzer karışımlara sahip örnekleri işaretlemelidir.
Son adım, modellerin doğruluğunu değerlendirmek ve karşılaştırmaktır. Makine öğrenimi bağlamında “doğruluk”, toplam tahmin sayısına bölünmesiyle elde edilen doğru tahminlerin sayısı anlamına gelir.
İnsan ve YZ Tarafından Üretilen Kod Karşılaştırması
DREAM Challenge, bu tıbbi metrikler ile erken doğum riski arasındaki bağlantıları ortaya çıkarmayı amaçlıyordu. Gebelik sırasında enfeksiyon geçirmek gibi bazı risk faktörleri zaten iyi bilinmektedir. Ancak DREAM Challenge, kan gibi klinik örneklerden hangi sinyallerin elde edilebileceğini görmek istiyordu.
Bu, normalde eğitimli biyoinformatikçilerin aylarca süren çabasını gerektiren bir iştir. Ancak son çalışmadaki genç araştırmacılar, analiz kodunu kendileri yazmak yerine, sekiz LLM'nin her birine mevcut verileri ve gebelik yaşını veya erken doğumu tahmin etme görevinin ne olduğunu açıklayan tek bir komut verdiler.
Bu basit komutla, sekiz modelden dördü (DeepSeekR1, Gemini ve ChatGPT'nin o3-mini-high ve 4o modelleri) başarıyla çalışan kodlar üretti. En iyi performans gösteren model olan OpenAI'nin o3-mini'si, orijinal insan DREAM Challenge ekipleri kadar doğruydu. Epigenetik verilerden gebelik yaşını tahmin etmeyi içeren bir görevde ise insanlardan daha doğru sonuç verdi.
Dahası, genç araştırmacılar yaklaşık üç ay içinde sonuçlar üretti ve altı ay içinde sonuçlarını açıklayan bir makale sundu; oysa aynı süreç orijinal DREAM Challenge ekipleri için yıllar sürmüştü.
Sirota, “Değerlendirme süreciyle şanslıydık, ancak altı ayda sonuç üretip makaleyi yazmak, özellikle de genç bir bilim insanı için oldukça inanılmaz,” dedi.
Gebeliğin tam 37. haftasından önce gerçekleşen erken doğum, dünya çapında bebeklerin yaklaşık %11'ini etkilemektedir. Zamanından önce doğan bebekler, beyinlerini, gözlerini ve sindirim sistemlerini etkileyen sorunlar dahil olmak üzere, tam zamanında doğan bebeklere göre çok sayıda sağlık sorunu riski altındadır. Hangi hamile hastaların erken doğum yapma olasılığının daha yüksek olduğunu tahmin edebilmek, bebeği korumak ve tam zamanında doğumu daha olası hale getirmek için daha yakın takip ve tedaviler anlamına gelebilir, uzmanlar belirtiyor.
Kod Yazmanın Ötesinde
Cell Reports Medicine makalesinde kullanılan verilerin, yapay zekanın kolayca okuyabileceği tablolarda “iyi durumda” başladığını belirtti Sirota. “Ancak üretken yapay zeka ile veri temizleme ve normalleştirme aşamasını da hızlandırabiliriz,” diye ekledi.
Sirota'nın ekibi şu anda, geliştirdikleri “Chat PTB” (erken doğum için kısa) adlı yeni bir araç da dahil olmak üzere diğer LLM uygulamalarını araştırıyor. ChatGPT tabanlı araç, anne ve bebek sağlığını iyileştirmeyi amaçlayan bir kar amacı gütmeyen kuruluş olan March of Dimes araştırma ağı tarafından yayımlanan makalelere entegre edilmiş durumda. Araştırmacılar artık manuel olarak bu literatürü taramak yerine, Chat PTB'ye sorgu atarak saniyeler içinde gerçekleştirilen ve saatler süren sentezlenmiş cevapları referanslarıyla birlikte alabiliyor.
Ancak Chat PTB ve Sirota'nın çalışmasındaki kod yazma yaklaşımı gibi araçlar yalnızca ilk dalgayı temsil ediyor. YZ destekli tıbbi araştırmalar, yalnızca tek bir komuta yanıt vermek yerine artan bir özerklikle çok adımlı araştırma iş akışlarını yürüten sistemler olan “ajan” YZ'ye doğru ilerliyor.
Sadece metinle yanıt vermek yerine, bir ajan YZ, hedefine ulaşana kadar kendi çalışmalarını kontrol edip yineleyebilir. Ayrıca, yalnızca kod yazmak yerine interneti aramak ve kod çalıştırmak gibi bir kullanıcının adına eylemler gerçekleştirebilir.
Bu, daha fazla YZ özerkliği ve daha az insan denetimine doğru kayma, hem muazzam bir potansiyel hem de ciddi riskler getiriyor. Ocak ayında Nature Biomedical Engineering dergisinde yayımlanan bir çalışmada, araştırmacılar LLM'leri 39 yayınlanmış biyomedikal çalışmadan elde edilen 293 kodlama görevi üzerinde değerlendirdi ve başlangıçta LLM'lerin kendi başlarına iş akışları oluşturmasına izin verdi. Genel doğruluk oranının %40'ın altında kaldığını buldular.
Çözümleri, planlamayı yürütmeden ayırmaktı: YZ'nin adım adım bir analiz planı oluşturmasını sağladılar ve insan araştırmacılar herhangi bir kod yazılmadan önce bu planı gözden geçirdi. Bu yaklaşım doğruluğu %74'e çıkardı.
Çalışma sırasında Illinois Urbana-Champaign Üniversitesi'nde doktora öğrencisi olan ve çalışmanın ortak yazarlarından Zifeng Wang, “Amaç, araştırmacıların bir YZ sistemine körü körüne güvenmesini istemek değil,” dedi.
Wang, bunun yerine, “muhakeme, planlama ve ara adımların yeterince görünür olduğu, böylece araştırmacıların süreci denetleyip doğrulayabileceği çerçeveler tasarlamak” olduğunu ekledi.
Güvenceler Neden Önemli?
Bu riskler, araştırmacıların YZ'den uzak durması gerektiği anlamına gelmiyor, ancak bilim insanları, YZ tarafından üretilen çalışmalara, başka herhangi bir işbirlikçinin çıktısına uygulayacakları aynı titizliği uygulamaları gerektiğini belirtiyor.
Johns Hopkins Üniversitesi Mühendislik Fakültesi bilgisayar bilimi profesörü Ian McCulloh, “Sorun, LLM'lerin bilimi hızlandırıp hızlandırmadığı veya 'YZ pisliği' yaratıp yaratmadığı değil,” dedi. “Sorun, bu güçlü teknolojiyi bilimsel yöntemin içine nasıl entegre edeceğimizdir.”
Ancak McCulloh, YZ'ye imkansız bir standart uygulamamak konusunda da uyardı. İnsanlar genellikle YZ'nin hatalı olduğunu varsaymaya ve insan hatasını küçümsemeye eğilimlidir, oysa gerçekte hem insanlar hem de makineler hata yapar. Bir danışmanlık müşterisinin belirli bir görevde YZ'nin %15'lik hata oranından şikayet ettiğini, ancak kendi insan çalışanlarının hata oranının %25 olduğunu fark etmediğini anekdot olarak anlattı.
McCulloh, “YZ'nin amacı mükemmellik değil, insanlardan daha iyisini yapmaktır,” dedi.
Bu çaba, YZ'nin başarısını ölçme konusunda anlaşmayı içerecektir. Stanford Üniversitesi'nde hekim-araştırmacı olan Dr. Ethan Goh, sağlık hizmetlerinin YZ'nin performansını değerlendirmek için standartlaştırılmış kıyaslamalardan hala yoksun olduğunu belirtti. Goh, yakın zamanda JAMA Network Open'da LLM'lerin doktorların teşhis belirlemedeki muhakemelerini nasıl etkilediğini inceleyen rastgeleleştirilmiş bir deneme yayımladı.
LLM'ler bu kadar geniş bir veri kümesi üzerinde eğitildiğinden, “kıyaslamalar üretmek çok maliyetli” dedi Goh. Dahası, YZ o kadar hızlı gelişiyor ki, çoğu ticari model mevcut olan az sayıdaki kıyaslamayı geride bırakıyor ve hızla kullanışsız hale getiriyor. Bu zorlukların ortasında, Stanford'un ARISE (AI Research and Science Evaluation) Healthcare Network'teki Goh'un ekibi, bu yıl sonuna kadar bu standartları geliştirmek için çalışıyor.
Standartlar ve güvenceler etrafındaki tüm belirsizliğe rağmen, konuşan araştırmacılar ortak bir inancı paylaştı: YZ laboratuvarda yerini almalı, ancak denetimsiz değil.
Sirota, “Bilimsel süreç açısından bildiklerimizi unutmamaya dikkat etmeliyiz. Ama fırsatın muazzam olduğuna inanıyorum,” dedi.