Ne zaman OpenAI’nin GPT-4’ü ve diğer büyük dil modelleri (LLM’ler) akıcı metin üretimiyle ilk kez kamuoyunu şaşırttı, şüpheciler ise hızlıca belirtmek ikna edici cümleler üretmenin düşünmekle aynı şey olmadığını.
Bu sistemler aslında insanların öğrenme ve akıl yürütme şeklini yansıtıyor olabilir mi, yoksa sadece verilerdeki kalıpları mı taklit ediyorlar? Şimdi yeni bir çalışma derginin Şubat 2026 sayısında yayınlanmak üzere kabul edildi. Bellek ve Dil Dergisi şimdiye kadarki en net testlerden birini sunuyor.
Brown Üniversitesi’nden araştırmacılar tarafından yürütülen makale, şu soruyu soruyor: Yüksek Lisans’lar dili yeniden doğurmaktan daha fazlasını yapabilir. İnsanların kavramları nasıl oluşturduklarına ilişkin bilişsel bilimde klasik bir ölçüt olan örneklerden soyut mantıksal kurallar çıkarabileceklerini araştırıyor.
Bulgular yalnızca uzun süredir devam eden varsayımlara meydan okumakla kalmıyor. yapay sinir ağları ama aynı zamanda hem yapay zekayı hem de insan bilişini anlamak için yeni ve heyecan verici yollar açıyor.
Son teknoloji ürünü LLM’leri bir kural öğrenme görevindeki insan katılımcılarla karşılaştıran dört deneyde araştırmacılar, bazı modellerin, özellikle GPT-4 ve açık ağırlık Gemma-7B’nin, önerme mantığı gerektiren görevlerde insan düzeyinde doğruluk elde ettiğini ve hatta zaman içinde insan benzeri öğrenme yörüngeleri sergilediğini gösteriyor.
Yüksek Lisans’lar birinci dereceden mantığın tamamını gerektiren görevlerde hâlâ yetersiz kalsa da, performansları bu sistemlerin bilişsel bilim adamlarının artık ciddiye almak zorunda kalacağı mantıksal kavramları temsil etmenin yeni, sembolik olmayan yollarını içerebileceğini gösteriyor.
Araştırmacılar, “Dört deneyde, LLM’lerin insan davranışına en az Bayes olasılıklı düşünce dilini (pLoT) uygulayan modeller kadar iyi bir uyum sağladığına dair birbirine yakın ampirik kanıtlar bulduk” diye yazıyor. “Ayrıca, LLM’lerin, görevi tamamlamak için çıkarılan ve uygulanan kuralların doğası hakkında niteliksel olarak farklı tahminler yaptığını gösteriyoruz; bu da LLM’nin pLoT çözümünün yalnızca bir uygulaması olma ihtimalinin düşük olduğunu gösteriyor.”
Bilişsel bilim insanları onlarca yıldır “kural tümevarımİnsanların kavramları nasıl öğrendiğini incelemeye yönelik görevler. Katılımcılar renk, boyut ve şekil bakımından farklılık gösteren küçük nesne kümeleri görürler ve hangilerinin yeni bir kategoriye ait olduğunu, örneğin hangi nesnelerin “tuhaf” olduğunu tahmin etmeleri istenir.
Gizli kurallar basit (“mavi nesneler”) veya karmaşık (“sarı nesneyle aynı şekil”) olabilir ve araştırmacılar, insanların kuralları nasıl oluşturduğunu anlamak için öğrenme eğrilerini ve hataları takip eder.
Bu görev, insan öğreniminin hesaplamalı modellerini test etmek için altın standart olmuştur. Mantıksal ilkel kütüphanelerle başlayan ve bunları olasılıksal olarak birleştiren Bayesian “olasılıksal Düşünce Dili” veya “pLoT” modelleri, uzun zamandır insan verileri için en uygun model olmuştur. Sinir ağları ise bunun aksine, açık mantıksal operatörlerden yoksun oldukları için bu tür sembolik akıl yürütmeye pek uygun görülmemektedir.
Brown Üniversitesi araştırmacıları bugünün devasa araştırmasını yürütmeye karar verdi Yüksek Lisans’lar aynı eldivenle. “Kırmızı kare” veya “orta mavi daire”yi ipucuna dönüştürerek görsel görevi metne dönüştürdüler. Sorunu ikili bir sınıflandırma (“Doğru” veya “Yanlış”) olarak çerçevelediler. En önemlisi, modeller, tıpkı insan katılımcılar gibi, birden fazla turda geri bildirim aldı.
Sonuçlar beklenmedik ve ilgi çekiciydi. Önerme mantığıyla (“ve”, “veya”, “değil”) ifade edilebilen kurallara göre, GPT-4, Mixtral 8×7B ve Gemma-7B’nin tümü, hem genel hem de ileri aşama performansı açısından insan doğruluğunun alt sınırını aştı.
GPT-4, denemelerin son çeyreğinde önerme kuralları açısından 0,908 puan alırken, insanlardaki ortalama 0,932 iken Gemma-7B 0,969 puan aldı. Gemma-7B, daha karmaşık birinci dereceden mantık kurallarında bile bazı ölçümlerde insanları geride bıraktı. Ancak tüm modellerin performansı daha basit kurallara göre düştü.
Çalışma ayrıca modellerin yalnızca doğru tahmin mi ettiğini yoksa gerçekten ifade edebilecekleri kuralları mı oluşturduğunu da inceledi. İkinci bir deneyde, GPT-4’ten yeni nesneleri etiketlemeden önce kullandığı kuralı belirtmesi istendi. Sınıflandırmaları, önerme görevleri için kendi bildirdiği kurallarla %96,3 tutarlı kaldı; bu, her ikisinin de ortak bir temel temsilden kaynaklandığına dair güçlü bir işaret.
Bununla birlikte, modelin “eşleşme oranı” (kesin gerçeği, koşullu kuralı geri getirme oranı) Bayes modeli için %82,4’e kıyasla yalnızca %44,1 idi.
GPT-4 aslında gerçek birinci dereceden mantığı devreye sokmada başarısız oldu; bunun yerine uzun “ve” ve “veya” operatör zincirlerini bir araya getirdi. Bu, LLM’lerin karmaşık kurallara yaklaşık olarak yaklaşabilmesine rağmen, bunu insanların veya sembolik modellerin kullandığından farklı ilkellerle yapıyor olabileceklerini gösteriyor.
Üçüncü bir deney, Yüksek Lisans’ın yalnızca eşleşip eşleşmediğini inceleyerek daha da derinleşti. insan doğruluğu aynı zamanda insan hatalarının ve zaman içinde öğrenmenin modelini de yansıtır. Ekip, açık ağırlıkları insan verileri üzerinde ince ayar yapılmasına olanak tanıyan Gemma-7B’yi kullanarak, her nesne için modelin ve insanların olasılık yargıları arasındaki korelasyonu ölçtü.
Model, insan yanıtlarının eğitim listelerine ayarlandıktan sonra, Bayesian modelinin korelasyonundan önemli ölçüde daha yüksek olan, uzatılmış listelerdeki insan katılımcı yanıtlarındaki varyansın %84,8’ini açıkladı. Başka bir deyişle, Gemma-7B doğru cevabı aldığında bunu genellikle insanlarla aynı şekilde yaptı ve öğrenme eğrilerinde benzer iniş ve çıkışlar gösterdi.
Bu bulgular, büyük, genel dil modellerinin, insanların kullandığına benzer tümevarımsal prosedürlere rastlamış olabileceğini ima ediyor.
Araştırmacılar şöyle yazıyor: “Ayarlanmış LLM, insanın öğrenme yörüngesindeki iniş ve çıkışların oluşumlarıyla yakından eşleşiyor ve niteliksel olarak bu değişikliklerin büyüklüğünü pLoT modelinden daha iyi eşleştiriyor gibi görünüyor.” “Ayarlanmış LLM’nin sıklıkla bu çukurların oluşumlarıyla eşleştiği gerçeği, yalnızca şu ana kadarki en iyi benzer hipoteze ulaştığını değil, aynı zamanda hem insan katılımcılar hem de Bayesian pLoT modeliyle benzer bir çıkarım prosedürünü uygulayabileceğini güçlü bir şekilde gösteriyor.”
Bulgular uzun süredir devam eden bir tartışmayı karmaşık hale getiriyor. Yerleşik mantıksal temelleri olmayan bir sinir ağı, insan düzeyinde kural öğrenme ve insan benzeri öğrenme eğrileri varsa, o zaman belki de insanlar klasik bilişsel teorilerin öne sürdüğü düzgün sembolik operatörlere güvenmiyorlardır. Bunun yerine insanlar, tıpkı LLM’lerin yaptığı gibi, daha ilişkisel veya içeriğe duyarlı mekanizmalar kullanarak mantıksal kurallara yaklaşıyor olabilir. Bunun hem yapay zeka hem de bilişsel bilim için derin etkileri var; bu da insan muhakemesinin tamamen sembolik olduğu yönündeki geleneksel görüşün yeniden değerlendirilmesi gerekebileceğini gösteriyor.
Çalışma aynı zamanda yapay zekaya yönelik pratik soruları da gündeme getiriyor. LLM’leri açık niceleyicilerle yönlendirmek veya ince ayar yapmak, birinci dereceden mantık kullanımını geliştirebilir mi? Ve eğer bu modeller klasik olmayan “mantık benzeri” operatörleri öğreniyorsa, bunların incelenmesi insan muhakemesi hakkında yeni hipotezlere ilham verebilir mi? Bu sorular yalnızca yapay zeka sistemlerini iyileştirmeye yönelik potansiyel yollara işaret etmekle kalmıyor, aynı zamanda insan bilişiyle ilgili içgörü kazanmanın bir yolu olarak Yüksek Lisans (LLM) üzerinde çalışmanın değerinin altını çiziyor.
Yazarlar dikkatli. Yüksek doğruluk, bir modelin gerçekte mantık kullandığını garanti etmez. Görevde kullanılan belirli kelimelerle bağlantılı gizli kısayollar veya kalıplar kullanıyor olabilir. Benzer şekilde, sonuçlar yüksek lisans yapanların herhangi bir anlamda insanlar gibi “düşündüğünü” göstermiyor. Ancak, en azından bu kriterde bazı yüksek lisansların artık insanlara ve en iyi sembolik modellere rakip olduğunu veya onları geride bıraktığını tespit ediyorlar.
Makalenin sonuçlandığı gibi, “LLM’ler, bilişsel bilimde gelecekteki çalışmaların ilgilenmesi gereken, insanın mantıksal kavramlarını açıklamak için gerekli olan ilkel temsillerin ve hesaplamaların yeni bir teorik açıklamasını örnekleyebilir.”
Tim McMillan emekli bir kolluk kuvveti yöneticisi, araştırmacı muhabir ve The Debrief’in kurucu ortağıdır. Yazıları genellikle savunma, ulusal güvenlik, İstihbarat Topluluğu ve psikoloji ile ilgili konulara odaklanmaktadır. Tim’i Twitter’da takip edebilirsiniz: @LtTimMcMillan. Tim’e e-posta yoluyla ulaşılabilir: [email protected] veya şifreli e-posta yoluyla: [email protected]








