Yapay zekâ artık hayatımızın her alanında. Metin yazıyor, programlama yapıyor, karmaşık sorulara cevap veriyor. Hatta öyle akıcı ve doğal konuşuyor ki çoğu insan “Bu bir sihir olmalı!” demeden edemiyor.
Peki gerçekten öyle mi? Bu modeller perde arkasında ne yapıyor? Onları bu kadar güçlü kılan gizli sokaklar, çözülmüş dev problemler ve dahiyane mühendislik çözümleri neler?
Bu yazıda, modern yapay zekânın temel yapı taşlarını anlaşılır bir dille adım adım keşfediyoruz.
1. Dilin Kalbi: Bağlam Problemi ve Transformer Devrimi
Bir cümlenin anlamı sadece kelimelerin kendisinde değil, sıralanışında saklıdır.
“Köpek adamı ısırdı.” ile “Adam köpeği ısırdı.” arasındaki farkı bir makineye nasıl anlatırsınız?
Yıllarca bu soru, yapay zekânın en büyük engellerinden biriydi.
Çözüm: Transformer mimarisi (2017)
Transformer, yapay zekâ tarihinde kırılma noktası olan bir buluş. Özellikle de öz-dikkat (self-attention) mekanizması sayesinde model, cümlenin her kelimesini diğer tüm kelimelerle ilişkilendirerek bağlamın bütününü görebilir hale geldi.
Bunu üç temel yenilik sağlıyor:
-
Self-attention: Kelimeler birbirlerine “Benim için ne kadar önemlisin?” diye sorar.
-
Konumsal kodlama: Modelin kelimelerin sırayı unutmasını engeller.
-
Göreceli konum bilgisi (RoPE): Uzun metinlerde bile kelimeler arası mesafeyi doğru değerlendirmesini sağlar.
Sonuç? Makine artık dili gerçekten anlar hale geliyor.
2. Uyum Sorunu: Güçlü Modeli İnsan Niyetine Nasıl Aderliyoruz?
Büyük bir dil modeli çok güçlü olabilir, ama insanlar gibi davranmıyorsa ne işe yarar?
Uzun süre bu sorunu çözmek için RLHF (İnsan Geribildirimiyle Pekiştirmeli Öğrenme) kullanıldı. Fakat süreç hem pahalı hem de inanılmaz derecede karmaşıktı:
-
Binlerce insanın tercih verisi,
-
Ayrı bir ödül modeli,
-
Bu modeli eğitmek,
-
Sonra ana modeli bununla ince ayarlamak…
Tam bir mühendislik maratonu.
Yeni Çözüm: DPO (Doğrudan Tercih Optimizasyonu)
DPO, tüm bu karmaşayı bir kenara bırakıyor. Artık ayrı bir ödül modeline gerek yok. Modelin içinde zaten iyi-kötü cevabı ayırt edebilecek bir yapı var. Tek yapılması gereken, bu iç bilgiyi doğrudan harekete geçirmek.
Kısacası:
“İnsanlar bu cevabı tercih ediyor, sen de buna göre ayarlan.”
Hızlı, sade, verimli.
3. Ölçek Problemi: 175 Milyar Parametreyi Eğitmek
Modern dil modelleri akıl almaz derecede büyük. Örneğin GPT-3 tam 175 milyar parametreye sahipti. Bu kadar büyük bir nesneyi tek bilgisayarda eğitmek veya çalıştırmak neredeyse imkânsız.
Bu noktada devreye “verimlilik üçlüsü” giriyor.
Zero (ZeRO):
Modeli parçalara ayırıp farklı cihazlara dağıtarak belleğe sığdırır.
LoRA:
Tüm modeli yeniden eğitmek yerine yalnızca küçük bir kısmını değiştirir.
Örnek: 175 milyar yerine sadece 35 milyon parametre güncellenir.
Bu, dev bir gitarı baştan yapmak yerine sadece bir teli akort etmeye benzer.
KV Cache:
Modelin daha önceki hesaplamalarını saklayarak tekrar tekrar çalışmasını engeller.
Sınavda ara işlemleri kağıda yazıp sonra oradan bakmak gibi.
Sonuç: Dev modeller bile inanılmaz hızlı hale geliyor.
4. Akıl Yürütme: “Adım adım düşünelim” Sihri
Bir modele matematik sorusu sorduğunuzda bazen hızlı ama yanlış cevap verdiğini fark edersiniz.
Ama sonuna şu cümleyi eklediğinizde işler değişir:
“Adım adım düşünelim.”
Model birden problemi parçalara ayırmaya, mantık zincirini adım adım oluşturmaya başlar.
Bu yönteme Chain of Thought (Düşünce Zinciri) deniyor.
Bunun ardındaki gerçek çok basit:
Akıl yürütme, aslında ara adımları üretmekten ibaret.
5. Yeni Çağ: Model Değil Sistem Zekâsı
Bugünün yapay zekâ uygulamaları tek bir model değil, bir sistem.
Dil modeli bu sistemin motoru olsa da tek başına “kavanozdaki bir beyin” gibidir: güçlü ama dünyadan kopuk.
Gerçek zekâ sistemi şu bileşenlerden oluşuyor:
-
Komut stratejisi (prompting)
-
Örnekleme yöntemleri (yaratıcılığı belirler)
-
Araç kullanımı (web araması, veri tabanı, hesap makinesi, API’ler)
-
Dış dünyayla iletişim
Yeni paradigma şunu söylüyor:
En büyük model değil, en akıllı sistem kazanır.
Sonuç: Teknik Sorunları Aşıyoruz, Peki Ya Felsefi Olanlar?
Transformer’lar bağlam sorununu çözdü.
DPO uyum sorununu sadeleştirdi.
Verimlilik teknikleri ölçek problemini çözdü.
Chain of Thought akıl yürütmeyi tetikledi.
Araçlar sistemi dünyaya bağladı.
Artık en büyük sorun teknik değil:
Bu gücü ne için kullanmalıyız?
Yapay zekâdan tam olarak ne yapmasını istiyoruz?
Bu soru artık sadece mühendislerin değil, hepimizin omuzlarında.
Hiç yorum yok:
Yorum Gönder