Teknoloji dünyasında heyecan yaratan yeni bir gelişme yaşandı. DeepSeek AI'ın geliştiricileri, karmaşık belgeleri ve büyük metin bloklarını işlemekte verimliliği artıran çok modlu yeteneklerini kullanan yeni bir model tanıttı. Bu yenilikçi yaklaşımda, metinler öncelikle görsellere dönüştürülüyor.
Geliştirilen bu teknoloji sayesinde, büyük miktarda metin verisini görselleştiren algoritmalar, daha sonra bu görselleri işlerken orijinal metne kıyasla yedi ila yirmi kat daha az token (veri birimi) kullanabiliyor. Üstelik bu büyük verimlilik artışı, dikkate değer bir doğruluk seviyesini de koruyor.
DeepSeek-OCR adını taşıyan bu yeni model, yapay zeka sistemlerinin büyük metin veri kümelerini olağanüstü bir şekilde anlamasını sağlıyor ve geleneksel token tabanlı işlem yükünü azaltıyor. Geliştiriciler, bu 'görsel-metin sıkıştırma' yönteminin, uzun bağlam içeren hesaplamalarda önemli bir token azalması sağlayarak umut verici bir yön sunduğunu belirtiyor.
Yeni model, DeepEncoder ve DeepSeek3B-MoE-A570M olmak üzere iki ana bileşenden oluşuyor. Encoder, büyük metin verilerini yüksek çözünürlüklü görsellere çeviriyor. Decoder ise bu görselleri anlama ve metinsel bağlamı çözme konusunda oldukça yetenekli. Bu işlem sırasında, doğrudan metni işlemek yerine görselleri kullanmak, çok daha az token gerektiriyor. Bu başarı, her görevin ayrı alt ağlara ayrılması ve belirli yapay zeka ajanlarının bu alt veri kümelerini hedeflemesiyle elde ediliyor.
Bu yaklaşımın, özellikle finans, bilim veya tıp gibi alanlarda kullanılan tablo verileri, grafikler ve diğer görsel bilgi temsilleriyle çalışırken büyük faydalar sağlaması bekleniyor.
Yapılan karşılaştırmalarda, token sayısını 10 katın altında azaltarak DeepSeek-OCR'ın bilgileri çözmede %97 doğruluk oranını koruyabildiği iddia ediliyor. Sıkıştırma oranı 20 kata çıkarıldığında doğruluk oranı %60'a düşse de, daha düşük sıkıştırma oranlarında bile yüksek doğruluk elde etmek, birçok gelişmiş yapay zeka modelinin işletme maliyetlerini önemli ölçüde düşürebilir.
Bu teknoloji aynı zamanda gelecekteki modeller için eğitim verileri geliştirme potansiyeli de taşıyor. Model, geliştiriciler tarafından online platformlar aracılığıyla erişime açılmış durumda.