Bir Amerikan hükümet dairesi, bu yıl sözleşmeleri iptal etmeye hazırlanırken, kendilerine rehberlik etmesi için sağlık veya devlet deneyimi olmayan bir yazılım mühendisine başvurdu.
Hükümet Verimliliği Departmanı için çalışan mühendis, özel şirketlerden alınan hangi hizmetlerin 'olmazsa olmaz' olmadığını belirlemek üzere hızla bir yapay zeka aracı geliştirdi. Bu sözleşmeleri 'Kesilebilir' (MUNCHABLE) olarak etiketledi.
Ancak eskimiş ve ucuz yapay zeka modellerini kullanan kod, bariz hatalar içeren sonuçlar üretti. Örneğin, sözleşme değerlerini sık sık yanlış okuyarak ve şişirerek 'halüsinasyon' gördü. Binden fazla sözleşmenin her birinin 34 milyon dolar değerinde olduğu sonucuna vardı, oysa gerçekte bazıları sadece 35.000 dolar değerindeydi.
Yapay zeka aracı, 2.000'den fazla sözleşmeyi 'kesilmek' üzere işaretledi. Bunlardan kaçının iptal edildiği veya edilme yolunda olduğu belirsizliğini koruyor. Gazilere hizmet veren hastaneler, araştırma projeleri ve diğer destek hizmetleri için kullanılan birçok sözleşme bu listedeydi.
Uzmanlar, elde edilen kod ve işaretlenen sözleşmeleri incelediğinde, aracın kusurlu olduğunu belirtti. Birçoğu, devlet harcamalarını kısma konusunda yapay zekayı kullanma fikrini 'derinden sorunlu' olarak nitelendirdi.
Yapısal olarak karmaşık ve önemli işler için 'hazır, genel amaçlı büyük dil modellerinin' güvenilirliğinin yeterli olmadığını vurgulayan uzmanlar, bu tür görevler için yapay zekanın kesinlikle yanlış araç olduğunu belirtti. Yapay zekanın 'ikna edici görünen ancak sık sık yanlış olan' cevaplar verdiğini eklediler.
Aracı geliştiren yazılımcı da kodda hatalar olduğunu kabul etti. Yaklaşık iki ay görev yapan yazılımcı, 'Hatalar yapıldığına eminim, her zaman hatalar yapılır. Kimseye benim kodumu çalıştırmasını ve söylediğini yapmasını asla tavsiye etmem. Bu, Google Haritalar 'göle sür' deyince Steve Carell'ın göle sürdüğü 'Office' bölümü gibi. Sakın göle sürmeyin' ifadelerini kullandı.
Yazılımcı, yapay zeka aracı için kodun ilk versiyonunu işe başladıktan sonraki ikinci günde, hatta kodun bir kısmını yazmak için yapay zekadan yardım alarak tamamladığını söyledi. Kısa bir süre içinde on binlerce sözleşmeyi gözden geçirme baskısı altında çalıştığını belirtti.
Yazılımcının kullandığı AI modellerinin eski versiyonlar olması ve sözleşmelerin yalnızca ilk birkaç sayfasındaki özet bilgileri kullanacak şekilde programlanması gibi teknolojik sınırlamalar ve temelden hatalı yönergeler, hataların ana kaynağı olarak gösterildi. Yapay zekaya dairesinin nasıl çalıştığı, hangi sözleşmelerin kritik olduğu veya yasa gereği zorunlu olduğu konusunda bağlam bilgisi verilmediği ortaya çıktı.
Yetkililer, sözleşme iptali kararlarının birden fazla inceleme ve insan onayı ile yapıldığını belirtse de, süreç içindeki bazı personel, kendilerine hizmeti haklı çıkarmaları için sadece birkaç saat gibi çok kısıtlı süreler verildiğini aktardı. Karar mekanizmasının şeffaf olmadığı yönünde de endişeler dile getirildi.
Kusurlu yapay zeka aracının gelecekte kullanılmaya devam edip etmeyeceği belirsizliğini koruyor. Ancak yaşanan bu olay, kritik devlet fonksiyonlarında yapay zeka kullanımının potansiyel risklerini ve insan gözetiminin ne kadar önemli olduğunu bir kez daha gözler önüne serdi.