Transformer Mimarisi ve Attention Mekanizması: Teknik Analiz

2017'de Google tarafından "Attention Is All You Need" makalesiyle tanıtılan Transformer mimarisi, modern yapay zekanın temelini oluşturuyor. GPT, Claude, Gemini gibi tüm büyük dil modelleri bu mimari üzerine inşa edilmiştir.

Transformer Öncesi: RNN ve LSTM Sınırlamaları

Transformer öncesi dönemde NLP görevleri için Recurrent Neural Networks (RNN) ve Long Short-Term Memory (LSTM) ağları kullanılıyordu:

RNN/LSTM Sorunları:

Sequential işlem zorunluluğu → Parallelization imkansız
Uzun dizilerde gradient vanishing/exploding
Uzak bağımlılıkları öğrenmede zorluk
Eğitim süresi çok uzun

Self-Attention Mekanizması

Self-attention, bir dizideki her elemanın diğer tüm elemanlarla ilişkisini hesaplayan mekanizmadır.

Matematiksel Formülasyon

Attention(Q, K, V) = softmax(QK^T / √d_k) × V

Parametreler:

Q (Query): Sorgulayan vektör
K (Key): Anahtar vektör
V (Value): Değer vektör
d_k: Key vektörünün boyutu

Adım Adım Hesaplama

Projeksiyon: Input → Q, K, V matrisleri

1Q = X × W_Q
2K = X × W_K
3V = X × W_V

Attention Skorları: Q ve K'nin dot product'ı

scores = Q × K^T

Scaling: Gradient stability için √d_k ile bölme

scaled_scores = scores / √d_k

Softmax: Olasılık dağılımına dönüştürme

attention_weights = softmax(scaled_scores)

Weighted Sum: Value ile çarpım

output = attention_weights × V

Multi-Head Attention

Tek attention yerine paralel çoklu attention başları kullanılır:

1MultiHead(Q, K, V) = Concat(head_1, ..., head_h) × W_O
2
3where head_i = Attention(QW_Q^i, KW_K^i, VW_V^i)

Multi-Head Attention Avantajları

Farklı representation subspace'lerinde öğrenme
Çeşitli ilişki türlerini yakalama
Daha zengin feature extraction

Tipik konfigürasyon:

GPT-3: 96 attention heads, d_model = 12288
GPT: Tahminlere göre 120+ heads

Positional Encoding

Transformer'ın sequential bilgiyi koruması için pozisyon bilgisi eklenir:

Sinusoidal Positional Encoding

PE(pos, 2i) = sin(pos / 10000^(2i/d_model))
PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))

Rotary Positional Embedding (RoPE)

Modern modellerde kullanılan daha gelişmiş yöntem:

f(x, pos) = x × e^(i × pos × θ)

RoPE Avantajları:

Relative position bilgisini doğal olarak kodlar
Extrapolation yeteneği daha iyi
GPT-NeoX, LLaMA, Mistral modellerinde kullanılır

Feed-Forward Network

Her attention layer'dan sonra gelen MLP katmanı:

FFN(x) = GELU(xW_1 + b_1)W_2 + b_2

Tipik boyutlar:

d_model = 4096
d_ff = 4 × d_model = 16384

Activation Functions

ReLU: Klasik, basit
GELU: GPT modellerinde tercih edilen
SwiGLU: LLaMA, PaLM modellerinde kullanılan

Layer Normalization

Eğitim stabilitesi için kritik:

Pre-LN vs Post-LN

Post-LN (Orijinal):

x = x + Attention(LayerNorm(x))

Pre-LN (Modern):

x = LayerNorm(x + Attention(x))

Pre-LN daha stabil eğitim sağlar ve günümüzde standart haline gelmiştir.

Encoder vs Decoder Mimarileri

Encoder-Only (BERT tarzı)

Bidirectional attention
Classification, NER, semantic similarity
Masked Language Modeling

Decoder-Only (GPT tarzı)

Causal/autoregressive attention
Text generation, chat
Next token prediction

Encoder-Decoder (T5, BART)

Sequence-to-sequence görevler
Translation, summarization

Causal Masking

Decoder modellerinde gelecek token'ları maskeleme:

mask = triu(ones(seq_len, seq_len), diagonal=1)
masked_scores = scores + mask × (-inf)

Bu, modelin sadece önceki token'lara bakmasını sağlar.

KV-Cache Optimizasyonu

Inference sırasında tekrar hesaplamayı önlemek için:

1Adım 1: K_1, V_1 hesapla → cache'e kaydet
2Adım 2: K_2, V_2 hesapla → K = [K_1, K_2], V = [V_1, V_2]
3Adım n: Sadece yeni token için hesapla, eski değerleri cache'den al

Bellek tasarrufu: O(n²) → O(n)

Flash Attention

Memory-efficient attention implementasyonu:

Standart Attention Sorunları:

O(n²) bellek kullanımı
HBM (yüksek bant genişlikli bellek) darboğazı

Flash Attention Çözümü:

Tiling: Attention'ı bloklara böl
Online softmax: Incremental hesaplama
I/O aware: GPU bellek hiyerarşisini optimize et

Sonuç: 2-4x hızlanma, %5-20 bellek tasarrufu

Sparse Attention Varyantları

Uzun context'ler için attention karmaşıklığını azaltma:

Local Attention

Sadece yakın token'lara attention

Dilated Attention

Belirli aralıklarla attention

Longformer Pattern

Local + Global attention kombinasyonu

Modern Transformer Varyantları

Model	Özellik	Context Length
GPT	MoE, uzun context	128K
Claude 3	Constitutional AI	200K
Gemini 1.5	Sparse MoE	1M
Mistral	Sliding window	32K

Sonuç

Transformer mimarisi, modern AI'ın temel yapı taşıdır. Self-attention mekanizması, paralel işleme yeteneği ve uzun menzilli bağımlılıkları öğrenme kapasitesi, bu mimariyi devrimsel kılmıştır.

Veni AI olarak, transformer tabanlı modelleri kurumsal çözümlerimizde etkin şekilde kullanıyoruz. Teknik danışmanlık için bizimle iletişime geçin.

Transformer Mimarisi ve Attention Mekanizması: Teknik Analiz

Transformer Mimarisi ve Attention Mekanizması: Teknik Analiz

Transformer Öncesi: RNN ve LSTM Sınırlamaları

Self-Attention Mekanizması

Matematiksel Formülasyon

Adım Adım Hesaplama

Multi-Head Attention

Multi-Head Attention Avantajları

Positional Encoding

Sinusoidal Positional Encoding

Rotary Positional Embedding (RoPE)

Feed-Forward Network

Activation Functions

Layer Normalization

Pre-LN vs Post-LN

Encoder vs Decoder Mimarileri

Encoder-Only (BERT tarzı)

Decoder-Only (GPT tarzı)

Encoder-Decoder (T5, BART)

Causal Masking

KV-Cache Optimizasyonu

Flash Attention

Sparse Attention Varyantları

Local Attention

Dilated Attention

Longformer Pattern

Modern Transformer Varyantları

Sonuç

İlgili Makaleler

RAG Mimarisi: Retrieval-Augmented Generation Teknik Rehberi

Prompt Engineering Teknikleri: LLM Optimizasyonu Rehberi

Vector Veritabanları ve Embedding Arama Sistemleri