DeepSeek, yeni modeliyle yapay zekaların eğitim maliyetini daha da aşağı çekebilir

featured
service
Paylaş

Bu Yazıyı Paylaş

veya linki kopyala

Geçtiğimiz yılın başında çıkardığı DeepSeek-R1 ile yapay zeka dünyasında dengeleri değiştiren DeepSeek, çok yakında yine deprem etkisi yaratacak bir modelle karşımıza çıkabilir. Çin merkezli şirketin yapay zeka alanında çığır açacak yeni bir model üzerinde çalıştığı bir süredir konuşuluyordu. Bu hafta DeepSeek tarafından yayımlanan bir makale, bu yeni modelde bizi ne gibi yeniliklerin beklediğini daha açık şekilde ortaya koydu. Görünen o ki R1 gibi DeepSeek’in yeni modeli de yapay zekaların eğitilmesi konusunda sektöre yeni kapılar aralayacak.

DeepSeek tarafından paylaşılan makalede, “Manifold-Constrained Hyper-Connections” (mHC) adı verilen yeni bir derin öğrenme mimarisi tanıtılıyor. DeepSeek’in kurucusu olan Liang Wenfeng’in yanı sıra Zhenda Xie, Yixuan Wei ve Huanqi Cao’nun da imzasını taşıyan çalışma, büyük sinir ağlarında (neural network) eğitim sırasında ortaya çıkan kararsızlık ve ölçeklenme problemlerini azaltmayı hedefliyor. Araştırmacılara göre mHC, mevcut yaklaşımlara kıyasla hem daha tutarlı bir eğitim süreci sunuyor hem de ciddi ek hesaplama maliyetleri oluşturmadan daha büyük modellere ölçeklenebiliyor. Bu da, büyük dil modellerinin eğitim maliyetlerini düşürmeye yönelik önemli bir adım olarak görülüyor. Hatırlarsanız DeepSeek-R1’in en çok ses getirdiği nokta da bu konudaki başarısıydı.

DeepSeek’in geliştirdiği bu mimari, temellerini ByteDance araştırmacılarının 2024 yılında tanıttığı “hyper-connections” (hiper bağlantılar) yaklaşımından alıyor. Bu yaklaşım, günümüzde pek çok büyük dil modelinin temelini oluşturan ResNet mimarisinde bilginin katmanlar arasında doğrudan aktarılmasına imkân tanıyan yapıyı genişleterek, sinyallerin ağ içinde daha tutarlı biçimde ilerlemesini sağlamayı amaçlıyordu. Ancak ByteDance’in önerdiği yapı, özellikle çok büyük modellerde ciddi bellek yükü oluşturması nedeniyle pratikte ölçeklenme sorunları yaratıyordu. DeepSeek’in çalışması, bu noktada devreye girerek söz konusu yapıyı daha uygulanabilir hâle getiriyor.

DeepSeek Yeni Modelini Bu Mimariyle Geliştiriyor

mHC mimarisinin en önemli farkı, katmanlar arası doğrudan bilgi akışını rastgele genişletmek yerine, bu akışı belirli matematiksel kurallar çerçevesinde tanımlanmış bir uzay (manifold) içinde tutması. Bu sayede “identity mapping” olarak adlandırılan ve sinir ağlarında sinyallerin yüzlerce katman boyunca bozulmadan iletilmesini sağlayan kritik özellik yeniden kazanılıyor. Araştırmacılar, bu kısıt sayesinde sinyallerin ne kaybolduğunu ne de kontrolden çıkarak patladığını; dolayısıyla eğitim sürecinin çok daha stabil hâle geldiğini belirtiyor. mHC mimarisi; 3 milyar, 9 milyar ve 27 milyar parametreli modeller üzerinde denendi ve ciddi bir ek hesaplama yükü oluşturmadan sorunsuz şekilde ölçeklenebildiği gösterildi.

DeepSeek tarafından paylaşılan bu tür teknik makaleler, yaklaşan yeni modelin habercisi olarak görülüyor. Liang Wenfeng, daha önceki modelleri yayınlamadan önce de benzer makaleler paylaşmıştı. Bu yüzden yeni modelin de bu mimari üzerine kurulu olarak geleceği düşünülüyor. Beklentileri epey yükselten bu modelin tam olarak ne zaman tanıtılacağı henüz kesinleşmiş değil. Ancak 17 Şubat’tan önce tanıtılmış olacağı düşünülüyor.

Kaynak : https://www.donanimhaber.com/deepseek-yeni-modeliyle-dengeleri-bir-kez-daha-degistirebilir–200405

0
mutlu
Mutlu
0
_zg_n
Üzgün
0
sinirli
Sinirli
0
_a_rm_
Şaşırmış
0
vir_sl_
Virüslü
DeepSeek, yeni modeliyle yapay zekaların eğitim maliyetini daha da aşağı çekebilir

Tamamen Ücretsiz Olarak Bültenimize Abone Olabilirsin

Yeni haberlerden haberdar olmak için fırsatı kaçırma ve ücretsiz e-posta aboneliğini hemen başlat.

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Giriş Yap

Kamu Haberleri ayrıcalıklarından yararlanmak için hemen giriş yapın veya hesap oluşturun, üstelik tamamen ücretsiz!

Bizi Takip Edin