Veni AI
Derin Öğrenme

Transformer Mimarisi ve Attention Mekanizması: Teknik Analiz

Transformer mimarisinin teknik detayları, self-attention mekanizması, multi-head attention ve modern LLM'lerin temellerini oluşturan yapıların kapsamlı analizi.

Veni AI Teknik Ekibi14 Ocak 20254 dk okuma
Transformer Mimarisi ve Attention Mekanizması: Teknik Analiz

Transformer Mimarisi ve Attention Mekanizması: Teknik Analiz

2017'de Google tarafından "Attention Is All You Need" makalesiyle tanıtılan Transformer mimarisi, modern yapay zekanın temelini oluşturuyor. GPT, Claude, Gemini gibi tüm büyük dil modelleri bu mimari üzerine inşa edilmiştir.

Transformer Öncesi: RNN ve LSTM Sınırlamaları

Transformer öncesi dönemde NLP görevleri için Recurrent Neural Networks (RNN) ve Long Short-Term Memory (LSTM) ağları kullanılıyordu:

RNN/LSTM Sorunları:

  • Sequential işlem zorunluluğu → Parallelization imkansız
  • Uzun dizilerde gradient vanishing/exploding
  • Uzak bağımlılıkları öğrenmede zorluk
  • Eğitim süresi çok uzun

Self-Attention Mekanizması

Self-attention, bir dizideki her elemanın diğer tüm elemanlarla ilişkisini hesaplayan mekanizmadır.

Matematiksel Formülasyon

Attention(Q, K, V) = softmax(QK^T / √d_k) × V

Parametreler:

  • Q (Query): Sorgulayan vektör
  • K (Key): Anahtar vektör
  • V (Value): Değer vektör
  • d_k: Key vektörünün boyutu

Adım Adım Hesaplama

  1. Projeksiyon: Input → Q, K, V matrisleri
1Q = X × W_Q 2K = X × W_K 3V = X × W_V
  1. Attention Skorları: Q ve K'nin dot product'ı
scores = Q × K^T
  1. Scaling: Gradient stability için √d_k ile bölme
scaled_scores = scores / √d_k
  1. Softmax: Olasılık dağılımına dönüştürme
attention_weights = softmax(scaled_scores)
  1. Weighted Sum: Value ile çarpım
output = attention_weights × V

Multi-Head Attention

Tek attention yerine paralel çoklu attention başları kullanılır:

1MultiHead(Q, K, V) = Concat(head_1, ..., head_h) × W_O 2 3where head_i = Attention(QW_Q^i, KW_K^i, VW_V^i)

Multi-Head Attention Avantajları

  • Farklı representation subspace'lerinde öğrenme
  • Çeşitli ilişki türlerini yakalama
  • Daha zengin feature extraction

Tipik konfigürasyon:

  • GPT-3: 96 attention heads, d_model = 12288
  • GPT: Tahminlere göre 120+ heads

Positional Encoding

Transformer'ın sequential bilgiyi koruması için pozisyon bilgisi eklenir:

Sinusoidal Positional Encoding

PE(pos, 2i) = sin(pos / 10000^(2i/d_model)) PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))

Rotary Positional Embedding (RoPE)

Modern modellerde kullanılan daha gelişmiş yöntem:

f(x, pos) = x × e^(i × pos × θ)

RoPE Avantajları:

  • Relative position bilgisini doğal olarak kodlar
  • Extrapolation yeteneği daha iyi
  • GPT-NeoX, LLaMA, Mistral modellerinde kullanılır

Feed-Forward Network

Her attention layer'dan sonra gelen MLP katmanı:

FFN(x) = GELU(xW_1 + b_1)W_2 + b_2

Tipik boyutlar:

  • d_model = 4096
  • d_ff = 4 × d_model = 16384

Activation Functions

  • ReLU: Klasik, basit
  • GELU: GPT modellerinde tercih edilen
  • SwiGLU: LLaMA, PaLM modellerinde kullanılan

Layer Normalization

Eğitim stabilitesi için kritik:

Pre-LN vs Post-LN

Post-LN (Orijinal):

x = x + Attention(LayerNorm(x))

Pre-LN (Modern):

x = LayerNorm(x + Attention(x))

Pre-LN daha stabil eğitim sağlar ve günümüzde standart haline gelmiştir.

Encoder vs Decoder Mimarileri

Encoder-Only (BERT tarzı)

  • Bidirectional attention
  • Classification, NER, semantic similarity
  • Masked Language Modeling

Decoder-Only (GPT tarzı)

  • Causal/autoregressive attention
  • Text generation, chat
  • Next token prediction

Encoder-Decoder (T5, BART)

  • Sequence-to-sequence görevler
  • Translation, summarization

Causal Masking

Decoder modellerinde gelecek token'ları maskeleme:

mask = triu(ones(seq_len, seq_len), diagonal=1) masked_scores = scores + mask × (-inf)

Bu, modelin sadece önceki token'lara bakmasını sağlar.

KV-Cache Optimizasyonu

Inference sırasında tekrar hesaplamayı önlemek için:

1Adım 1: K_1, V_1 hesapla → cache'e kaydet 2Adım 2: K_2, V_2 hesapla → K = [K_1, K_2], V = [V_1, V_2] 3Adım n: Sadece yeni token için hesapla, eski değerleri cache'den al

Bellek tasarrufu: O(n²) → O(n)

Flash Attention

Memory-efficient attention implementasyonu:

Standart Attention Sorunları:

  • O(n²) bellek kullanımı
  • HBM (yüksek bant genişlikli bellek) darboğazı

Flash Attention Çözümü:

  • Tiling: Attention'ı bloklara böl
  • Online softmax: Incremental hesaplama
  • I/O aware: GPU bellek hiyerarşisini optimize et

Sonuç: 2-4x hızlanma, %5-20 bellek tasarrufu

Sparse Attention Varyantları

Uzun context'ler için attention karmaşıklığını azaltma:

Local Attention

Sadece yakın token'lara attention

Dilated Attention

Belirli aralıklarla attention

Longformer Pattern

Local + Global attention kombinasyonu

Modern Transformer Varyantları

ModelÖzellikContext Length
GPTMoE, uzun context128K
Claude 3Constitutional AI200K
Gemini 1.5Sparse MoE1M
MistralSliding window32K

Sonuç

Transformer mimarisi, modern AI'ın temel yapı taşıdır. Self-attention mekanizması, paralel işleme yeteneği ve uzun menzilli bağımlılıkları öğrenme kapasitesi, bu mimariyi devrimsel kılmıştır.

Veni AI olarak, transformer tabanlı modelleri kurumsal çözümlerimizde etkin şekilde kullanıyoruz. Teknik danışmanlık için bizimle iletişime geçin.

İlgili Makaleler