Transformer Mimarisi ve Attention Mekanizması: Teknik Analiz
2017'de Google tarafından "Attention Is All You Need" makalesiyle tanıtılan Transformer mimarisi, modern yapay zekanın temelini oluşturuyor. GPT, Claude, Gemini gibi tüm büyük dil modelleri bu mimari üzerine inşa edilmiştir.
Transformer Öncesi: RNN ve LSTM Sınırlamaları
Transformer öncesi dönemde NLP görevleri için Recurrent Neural Networks (RNN) ve Long Short-Term Memory (LSTM) ağları kullanılıyordu:
RNN/LSTM Sorunları:
- Sequential işlem zorunluluğu → Parallelization imkansız
- Uzun dizilerde gradient vanishing/exploding
- Uzak bağımlılıkları öğrenmede zorluk
- Eğitim süresi çok uzun
Self-Attention Mekanizması
Self-attention, bir dizideki her elemanın diğer tüm elemanlarla ilişkisini hesaplayan mekanizmadır.
Matematiksel Formülasyon
Attention(Q, K, V) = softmax(QK^T / √d_k) × V
Parametreler:
- Q (Query): Sorgulayan vektör
- K (Key): Anahtar vektör
- V (Value): Değer vektör
- d_k: Key vektörünün boyutu
Adım Adım Hesaplama
- Projeksiyon: Input → Q, K, V matrisleri
1Q = X × W_Q 2K = X × W_K 3V = X × W_V
- Attention Skorları: Q ve K'nin dot product'ı
scores = Q × K^T
- Scaling: Gradient stability için √d_k ile bölme
scaled_scores = scores / √d_k
- Softmax: Olasılık dağılımına dönüştürme
attention_weights = softmax(scaled_scores)
- Weighted Sum: Value ile çarpım
output = attention_weights × V
Multi-Head Attention
Tek attention yerine paralel çoklu attention başları kullanılır:
1MultiHead(Q, K, V) = Concat(head_1, ..., head_h) × W_O 2 3where head_i = Attention(QW_Q^i, KW_K^i, VW_V^i)
Multi-Head Attention Avantajları
- Farklı representation subspace'lerinde öğrenme
- Çeşitli ilişki türlerini yakalama
- Daha zengin feature extraction
Tipik konfigürasyon:
- GPT-3: 96 attention heads, d_model = 12288
- GPT: Tahminlere göre 120+ heads
Positional Encoding
Transformer'ın sequential bilgiyi koruması için pozisyon bilgisi eklenir:
Sinusoidal Positional Encoding
PE(pos, 2i) = sin(pos / 10000^(2i/d_model)) PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))
Rotary Positional Embedding (RoPE)
Modern modellerde kullanılan daha gelişmiş yöntem:
f(x, pos) = x × e^(i × pos × θ)
RoPE Avantajları:
- Relative position bilgisini doğal olarak kodlar
- Extrapolation yeteneği daha iyi
- GPT-NeoX, LLaMA, Mistral modellerinde kullanılır
Feed-Forward Network
Her attention layer'dan sonra gelen MLP katmanı:
FFN(x) = GELU(xW_1 + b_1)W_2 + b_2
Tipik boyutlar:
- d_model = 4096
- d_ff = 4 × d_model = 16384
Activation Functions
- ReLU: Klasik, basit
- GELU: GPT modellerinde tercih edilen
- SwiGLU: LLaMA, PaLM modellerinde kullanılan
Layer Normalization
Eğitim stabilitesi için kritik:
Pre-LN vs Post-LN
Post-LN (Orijinal):
x = x + Attention(LayerNorm(x))
Pre-LN (Modern):
x = LayerNorm(x + Attention(x))
Pre-LN daha stabil eğitim sağlar ve günümüzde standart haline gelmiştir.
Encoder vs Decoder Mimarileri
Encoder-Only (BERT tarzı)
- Bidirectional attention
- Classification, NER, semantic similarity
- Masked Language Modeling
Decoder-Only (GPT tarzı)
- Causal/autoregressive attention
- Text generation, chat
- Next token prediction
Encoder-Decoder (T5, BART)
- Sequence-to-sequence görevler
- Translation, summarization
Causal Masking
Decoder modellerinde gelecek token'ları maskeleme:
mask = triu(ones(seq_len, seq_len), diagonal=1) masked_scores = scores + mask × (-inf)
Bu, modelin sadece önceki token'lara bakmasını sağlar.
KV-Cache Optimizasyonu
Inference sırasında tekrar hesaplamayı önlemek için:
1Adım 1: K_1, V_1 hesapla → cache'e kaydet 2Adım 2: K_2, V_2 hesapla → K = [K_1, K_2], V = [V_1, V_2] 3Adım n: Sadece yeni token için hesapla, eski değerleri cache'den al
Bellek tasarrufu: O(n²) → O(n)
Flash Attention
Memory-efficient attention implementasyonu:
Standart Attention Sorunları:
- O(n²) bellek kullanımı
- HBM (yüksek bant genişlikli bellek) darboğazı
Flash Attention Çözümü:
- Tiling: Attention'ı bloklara böl
- Online softmax: Incremental hesaplama
- I/O aware: GPU bellek hiyerarşisini optimize et
Sonuç: 2-4x hızlanma, %5-20 bellek tasarrufu
Sparse Attention Varyantları
Uzun context'ler için attention karmaşıklığını azaltma:
Local Attention
Sadece yakın token'lara attention
Dilated Attention
Belirli aralıklarla attention
Longformer Pattern
Local + Global attention kombinasyonu
Modern Transformer Varyantları
| Model | Özellik | Context Length |
|---|---|---|
| GPT | MoE, uzun context | 128K |
| Claude 3 | Constitutional AI | 200K |
| Gemini 1.5 | Sparse MoE | 1M |
| Mistral | Sliding window | 32K |
Sonuç
Transformer mimarisi, modern AI'ın temel yapı taşıdır. Self-attention mekanizması, paralel işleme yeteneği ve uzun menzilli bağımlılıkları öğrenme kapasitesi, bu mimariyi devrimsel kılmıştır.
Veni AI olarak, transformer tabanlı modelleri kurumsal çözümlerimizde etkin şekilde kullanıyoruz. Teknik danışmanlık için bizimle iletişime geçin.
