Bilim İnsanları, Yapay Zekanın Dili Gerçekten Anladığı Anı Keşfediyor

Bilim İnsanları, Yapay Zekanın Dili Gerçekten Anladığı Anı Keşfediyor

    JSTAT'ta yapılan bir araştırma, sinir ağı eğitimi sırasında metin anlama stratejilerindeki keskin değişimi anlatıyor.

    Araştırmacılar, transformatör ağlarının, eğitim verileri kritik bir eşiği geçtikten sonra aniden kelime konumlarını izlemekten anlama odaklanmaya geçtiğini, fiziksel bir faz değişimini yansıttığını ve yapay zekanın iç işleyişine ışık tuttuğunu buldular.

    Günümüzün yapay zeka sistemlerinin dil yetenekleri şaşırtıcıdır. Artık ChatGPT, Gemini ve diğerleri gibi sistemlerle neredeyse bir insanınkiyle karşılaştırılabilir bir akıcılıkla doğal sohbetler yapabiliyoruz. Yine de, bu ağlardaki bu kadar dikkate değer sonuçlara yol açan iç süreçler hakkında hala çok az şey biliyoruz.

    Journal of Statistical Mechanics: Theory and Experiment'de ( JSTAT ) yayınlanan yeni bir çalışma, bu gizemin bir parçasını ortaya koyuyor. Eğitim için küçük miktarlarda veri kullanıldığında, sinir ağlarının başlangıçta bir cümledeki kelimelerin konumuna dayandığını gösteriyor. Ancak sistem yeterli veriye maruz kaldıkça kelimelerin anlamına göre yeni bir stratejiye geçiş yapar. Çalışma, bu geçişin, kritik bir veri eşiği aşıldığında aniden gerçekleştiğini ortaya koyuyor - tıpkı fiziksel sistemlerdeki bir faz geçişi gibi. Bulgular, bu modellerin işleyişini anlamak için değerli bilgiler sunuyor.

    Tıpkı okumayı öğrenen bir çocuk gibi, bir sinir ağı da kelimelerin konumlarına dayalı olarak cümleleri anlamakla başlar: kelimelerin bir cümlede nerede bulunduğuna bağlı olarak, ağ ilişkilerini çıkarabilir ( özneler mi, fiiller mi, nesneler mi? ). Bununla birlikte, eğitim devam ettikçe - ağ "okula gitmeye devam ediyor" - bir değişim meydana gelir: kelime anlamı birincil bilgi kaynağı haline gelir.

    Yeni çalışma, bunun basitleştirilmiş bir öz-dikkat mekanizması modelinde olan şey olduğunu açıklıyor - her gün kullandıklarımız gibi dönüştürücü dil modellerinin temel bir yapı taşı ( ChatGPT, Gemini, Claude, vb. ). Transformatör, metin gibi veri dizilerini işlemek için tasarlanmış bir sinir ağı mimarisidir ve birçok modern dil modelinin omurgasını oluşturur. Transformatörler, bir dizi içindeki ilişkileri anlama konusunda uzmanlaşır ve her bir kelimenin diğerlerine göre önemini değerlendirmek için kendi kendine dikkat mekanizmasını kullanır.

    Harvard Üniversitesi'nde doktora sonrası araştırmacı ve çalışmanın ilk yazarı olan Hugo Cui, "Kelimeler arasındaki ilişkileri değerlendirmek için ağ, biri kelimelerin konumlarından yararlanmak olan iki strateji kullanabilir" diye açıklıyor. Örneğin İngilizce gibi bir dilde, özne tipik olarak fiilden önce gelir ve bu da nesneden önce gelir. "Mary elmayı yiyor" bu dizinin basit bir örneğidir.

    Cui, "Bu, ağ eğitildiğinde kendiliğinden ortaya çıkan ilk stratejidir" diye açıklıyor. "Bununla birlikte, çalışmamızda, eğitim devam ederse ve ağ yeterli veri alırsa, belirli bir noktada - bir eşik aşıldığında - stratejinin aniden değiştiğini gözlemledik: ağ bunun yerine anlama güvenmeye başlar."

    "Bu çalışmayı tasarladığımızda, ağların hangi stratejileri veya strateji karışımını benimseyeceğini incelemek istedik. Ancak bulduğumuz şey biraz şaşırtıcıydı: belirli bir eşiğin altında, ağ yalnızca konuma dayanırken, onun üzerinde yalnızca anlama dayanıyordu."

    Cui, bu değişimi fizikten bir kavram ödünç alarak bir faz geçişi olarak tanımlıyor. İstatistiksel fizik, kolektif davranışlarını istatistiksel olarak tanımlayarak çok sayıda parçacıktan ( atomlar veya moleküller gibi ) oluşan sistemleri inceler. Benzer şekilde, bu AI sistemlerinin temeli olan sinir ağları, her biri diğerlerine bağlı ve basit işlemler gerçekleştiren çok sayıda "düğüm" veya nörondan (insan beynine benzer şekilde adlandırılmıştır) oluşur. Sistemin zekası, istatistiksel yöntemlerle tanımlanabilecek bir fenomen olan bu nöronların etkileşiminden ortaya çıkar.

    Bu nedenle, belirli sıcaklık ve basınç koşulları altında suyun sıvıdan gaza nasıl değiştiğine benzer şekilde, bir faz geçişi olarak şebeke davranışındaki ani bir değişiklikten bahsedebiliriz.

    Cui, "Teorik bir bakış açısıyla, strateji değişiminin bu şekilde gerçekleştiğini anlamak önemlidir" diye vurguluyor. "Ağlarımız, insanların günlük olarak etkileşime girdiği karmaşık modellere kıyasla basitleştirilmiştir, ancak bir modelin bir stratejide veya diğerinde stabilize olmasına neden olan koşulları anlamaya başlamamız için bize ipuçları verebilirler. Bu teorik bilgi, gelecekte sinir ağlarının kullanımını daha verimli ve daha güvenli hale getirmek için kullanılabilir."

    Hugo Cui, Freya Behrens, Florent Krzakala ve Lenka Zdeborová tarafından kaleme alınan "A Phase Transition between Positional and Semantic Learning in a Solvable Model of Dot-Product Attention" başlıklı araştırma, Machine Learning 2025 özel sayısının bir parçası olarak JSTAT'ta yayınlandı ve NeurIPS 2024 konferansının bildiri kitaplarında yer aldı.

 

Zeynep Sönmez: Türk Tenisini Wimbledon'da Üçüncü Tura Taşıyan Sporcu
Katarakt Nedir ve Bilinmesi Gereken Uyarı İşaretleri ve Semptomları Nelerdir?

Benzer Yazılar   
Barkodun Tarihçesi

BMW iNext Elektrikli Otomobili

Yapay Zeka Dünyamızı Değiştirdi

Robotik elektrikli süpürgelerin avantajları ve dezavantajları

Sosyal medyanın etkisi nedir?

2021'in en iyi 6 bilim kitabı

Güncel yazılar için tıklayın   

Kategori Videosu   

İlginizi Çekecek Yazılar   

En Çok Okunan Yazılar   

Sitemizden en iyi şekilde faydalanmanız için çerezler kullanılmaktadır.