Google’dan yapay zekada devrim: TurboQuant ile 6 kat az bellek kullanımı ve 8 kat hız!

featured
service
Paylaş

Bu Yazıyı Paylaş

veya linki kopyala

Google, yapay zeka modellerinin en büyük darboğazlarından biri olan bellek tüketimi ve işlem maliyetini kökten değiştirebilecek yeni bir teknolojiyi duyurdu. “TurboQuant” adı verilen sıkıştırma algoritması, büyük dil modelleri başta olmak üzere modern AI sistemlerini çok daha küçük, hızlı ve verimli hale getirmeyi hedefliyor.

Şirketin araştırma blogunda paylaşılan bilgilere göre TurboQuant, model boyutunu ciddi şekilde küçültürken dikkat çekici bir şekilde doğruluk kaybı olmadan çalışabiliyor. Bu özellik, bugüne kadar yapay zeka optimizasyonunda karşılaşılan en büyük sorunlardan birine doğrudan çözüm sunuyor.

TurboQuant’ın odak noktası, “anahtar-değer önbelleği” (key-value cache). Google bunu, modelin tekrar hesaplama yapmamak için önemli bilgileri sakladığı bir tür dijital kopya kağıdına benzetiyor. Çünkü büyük dil modelleri aslında bilgiyi gerçekten bilmiyor, bunun yerine, anlamları temsil eden vektörler üzerinden çalışıyor. Bu vektörler, metni sayısallaştırarak anlam ilişkilerini kuruyor. İki vektör birbirine ne kadar yakınsa, kavramsal olarak da o kadar benzer demek.

Ancak bu vektörler oldukça yüksek boyutlular ve yüzlerce hatta binlerce parametre içerebiliyorlar. Bu da hem bellekte büyük yer kaplamalarına hem de performansın düşmesine neden oluyor. Bu sorunu çözmek için geliştiriciler genellikle “quantization” (nicemleme) adı verilen yöntemlerle veriyi daha düşük hassasiyetle işliyor. Fakat bunun dezavantajı, model çıktılarının kalitesinin düşmesi. TurboQuant ise Google’ın ilk testlerine göre kaliteyi bozmadan 6 kat daha az bellek kullanımı ve 8 kat daha yüksek performans sağlayabiliyor.

TurboQuant nasıl çalışıyor?

TurboQuant iki aşamalı bir süreçten oluşuyor. İlk adımda “PolarQuant” adı verilen bir sistem devreye giriyor. Normalde yapay zeka vektörleri XYZ (kartezyen) koordinatlarıyla ifade edilirken, PolarQuant bunları kutupsal koordinatlara dönüştürüyor. Böylece her vektör yalnızca iki bilgiyle temsil ediliyor: yarıçap (verinin gücü) ve açı (verinin anlam yönü).

Google bunu şöyle örneklendiriyor: Geleneksel yöntem “3 blok doğuya, 4 blok kuzeye git” demek gibiyken, yeni yöntem “37 derece açıyla 5 blok git” şeklinde daha kısa ve verimli bir ifade sunuyor. Bu da hem veri boyutunu küçültüyor hem de hesaplama yükünü azaltıyor.

İkinci aşamada ise oluşabilecek küçük hatalar düzeltiliyor. PolarQuant veriyi sıkıştırırken bazı sapmalar yaratabiliyor. Bunu düzeltmek için “Quantized Johnson-Lindenstrauss (QJL)” yöntemi kullanılıyor. Bu teknik, her vektörü yalnızca tek bir bit (+1 veya -1) ile temsil ederek hata düzeltme katmanı ekliyor ve önemli ilişkileri koruyor. Sonuç olarak modelin dikkat (attention) hesaplamaları daha doğru hale geliyor.

İddialı performans değerleri

Google, TurboQuant’ı Gemma ve Mistral gibi açık modeller üzerinde test ettiğini söylüyor. TurboQuant, iddiaya göre tüm testlerde çıktı kalitesini koruyarak kusursuz sonuçlar elde ederken, anahtar-değer önbelleğinin bellek kullanımını 6 kat azaltmayı başardı. Algoritma, ek bir eğitim gerektirmeden önbelleği sadece 3 bit seviyesine kadar sıkıştırabiliyor; bu da mevcut modellere doğrudan uygulanabileceği anlamına geliyor. Ayrıca 4-bit TurboQuant ile dikkat hesaplamaları, Nvidia H100 üzerinde 32-bit sıkıştırılmamış anahtarlara kıyasla 8 kat daha hızlı gerçekleştirilebiliyor.

TurboQuant gibi teknolojiler, yapay zeka modellerinin çalıştırma maliyetini düşürebilir ve daha az bellekle daha güçlü sistemler oluşturulmasını sağlayabilir. Özellikle mobil cihazlar için bu gelişme büyük önem taşıyor. Akıllı telefonların donanım sınırları düşünüldüğünde, TurboQuant gibi sıkıştırma teknikleri sayesinde veriler buluta gönderilmeden cihaz üzerinde daha kaliteli yapay zeka çıktıları mümkün olabilir.

Kaynak : https://www.donanimhaber.com/google-dan-yapay-zekada-devrim-turboquant-ile-yuksek-sikistirma–203657

0
mutlu
Mutlu
0
_zg_n
Üzgün
0
sinirli
Sinirli
0
_a_rm_
Şaşırmış
0
vir_sl_
Virüslü
Google’dan yapay zekada devrim: TurboQuant ile 6 kat az bellek kullanımı ve 8 kat hız!

Tamamen Ücretsiz Olarak Bültenimize Abone Olabilirsin

Yeni haberlerden haberdar olmak için fırsatı kaçırma ve ücretsiz e-posta aboneliğini hemen başlat.

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Giriş Yap

Kamu Haberleri ayrıcalıklarından yararlanmak için hemen giriş yapın veya hesap oluşturun, üstelik tamamen ücretsiz!

Bizi Takip Edin