Geçtiğimiz yılın başında çıkardığı DeepSeek-R1 ile yapay zeka dünyasında dengeleri değiştiren DeepSeek, çok yakında yine deprem etkisi yaratacak bir modelle karşımıza çıkabilir. Çin merkezli şirketin yapay zeka alanında çığır açacak yeni bir model üzerinde çalıştığı bir süredir konuşuluyordu. Bu hafta DeepSeek tarafından yayımlanan bir makale, bu yeni modelde bizi ne gibi yeniliklerin beklediğini daha açık şekilde ortaya koydu. Görünen o ki R1 gibi DeepSeek’in yeni modeli de yapay zekaların eğitilmesi konusunda sektöre yeni kapılar aralayacak.
DeepSeek tarafından paylaşılan makalede, “Manifold-Constrained Hyper-Connections” (mHC) adı verilen yeni bir derin öğrenme mimarisi tanıtılıyor. DeepSeek’in kurucusu olan Liang Wenfeng’in yanı sıra Zhenda Xie, Yixuan Wei ve Huanqi Cao’nun da imzasını taşıyan çalışma, büyük sinir ağlarında (neural network) eğitim sırasında ortaya çıkan kararsızlık ve ölçeklenme problemlerini azaltmayı hedefliyor. Araştırmacılara göre mHC, mevcut yaklaşımlara kıyasla hem daha tutarlı bir eğitim süreci sunuyor hem de ciddi ek hesaplama maliyetleri oluşturmadan daha büyük modellere ölçeklenebiliyor. Bu da, büyük dil modellerinin eğitim maliyetlerini düşürmeye yönelik önemli bir adım olarak görülüyor. Hatırlarsanız DeepSeek-R1’in en çok ses getirdiği nokta da bu konudaki başarısıydı.
DeepSeek’in geliştirdiği bu mimari, temellerini ByteDance araştırmacılarının 2024 yılında tanıttığı “hyper-connections” (hiper bağlantılar) yaklaşımından alıyor. Bu yaklaşım, günümüzde pek çok büyük dil modelinin temelini oluşturan ResNet mimarisinde bilginin katmanlar arasında doğrudan aktarılmasına imkân tanıyan yapıyı genişleterek, sinyallerin ağ içinde daha tutarlı biçimde ilerlemesini sağlamayı amaçlıyordu. Ancak ByteDance’in önerdiği yapı, özellikle çok büyük modellerde ciddi bellek yükü oluşturması nedeniyle pratikte ölçeklenme sorunları yaratıyordu. DeepSeek’in çalışması, bu noktada devreye girerek söz konusu yapıyı daha uygulanabilir hâle getiriyor.
DeepSeek Yeni Modelini Bu Mimariyle Geliştiriyor
mHC mimarisinin en önemli farkı, katmanlar arası doğrudan bilgi akışını rastgele genişletmek yerine, bu akışı belirli matematiksel kurallar çerçevesinde tanımlanmış bir uzay (manifold) içinde tutması. Bu sayede “identity mapping” olarak adlandırılan ve sinir ağlarında sinyallerin yüzlerce katman boyunca bozulmadan iletilmesini sağlayan kritik özellik yeniden kazanılıyor. Araştırmacılar, bu kısıt sayesinde sinyallerin ne kaybolduğunu ne de kontrolden çıkarak patladığını; dolayısıyla eğitim sürecinin çok daha stabil hâle geldiğini belirtiyor. mHC mimarisi; 3 milyar, 9 milyar ve 27 milyar parametreli modeller üzerinde denendi ve ciddi bir ek hesaplama yükü oluşturmadan sorunsuz şekilde ölçeklenebildiği gösterildi.
DeepSeek tarafından paylaşılan bu tür teknik makaleler, yaklaşan yeni modelin habercisi olarak görülüyor. Liang Wenfeng, daha önceki modelleri yayınlamadan önce de benzer makaleler paylaşmıştı. Bu yüzden yeni modelin de bu mimari üzerine kurulu olarak geleceği düşünülüyor. Beklentileri epey yükselten bu modelin tam olarak ne zaman tanıtılacağı henüz kesinleşmiş değil. Ancak 17 Şubat’tan önce tanıtılmış olacağı düşünülüyor.
Kaynak : https://www.donanimhaber.com/deepseek-yeni-modeliyle-dengeleri-bir-kez-daha-degistirebilir–200405



