Çalışma, Günümüzün En İyi Yapay Zeka Modellerinin Görsel Akıl Yürütmeyle Mücadele Ettiğini Gösteriyor ve Gerçek Dünyada Kullanıma Yönelik Endişeleri Artırıyor

8 Aralık 2025

Çalışma, Günümüzün En İyi Yapay Zeka Modellerinin Görsel Akıl Yürütmeyle Mücadele Ettiğini Gösteriyor ve Gerçek Dünyada Kullanıma Yönelik Endişeleri Artırıyor

Yapay zeka sistemleri daha hızlı, daha büyük ve daha fazlası olabilir çok modlu ancak yeni bir ampirik çalışma, günümüzün en gelişmiş modellerinin çoğunun hâlâ insanların doğal karşıladığı temel görsel muhakeme türüne takılıp kaldığını gösteriyor.

İlginç bir şekilde, en çok abartılan sınır modellerinden bazıları beklenenden daha kötü performans gösterirken, daha sessiz bir performans gösterdi. OpenAI Sürüm, alandaki en doğru ve tutarlı sistem olarak ortaya çıktı.

Bulgular, Nisan 2026 sayısında yayınlanacak hakemli bir çalışma setinden geliyor. Desen TanımaAraştırmacıların dokuz adet son teknoloji multimodal modeli değerlendirdiği yer büyük dil modelleri (LLM’ler) (OpenAI’nin ChatGPT-4o ve ChatGPT-o1’i, Google DeepMind’in Gemini 2.0’ı, xAI’nin Grok 3’ü ve DeepSeek’in Janus modelleri dahil) aynı anda birden fazla görüntüyü ne kadar iyi anlamlandırdıklarını araştırmak için tasarlanmış bir dizi testte.

Karşılaştırma sadece bir modelin resimdeki doğru nesneyi gösterip gösteremeyeceğini ölçmedi. Bunun yerine, bu sistemleri istikrarlı olmaya zorladı, güvenilir muhakemeya da sadece tahmin mi ediyorlar?

Çalışmanın merkezinde yapay zekaya güvenmeyi ümit eden herhangi bir alan için ciddi sonuçları olan bir soru yer alıyor. karar verme: Bu sistemler bildikleriyle bilmedikleri arasındaki farkı anlayabiliyor mu? Ve daha da önemlisi bunu tutarlı bir şekilde yapabilecekler mi?

Buna cevap vermek için yazarlar bir değerlendirme çerçevesi oluşturdular. görsel muhakeme birden fazla görüntüdeki görevler, konumsal önyargıyı ortaya çıkarmak için yanıt seçeneklerinin karıştırılması. Araştırmacıların bir modelin mantığının “entropisini” ölçmek için yeni bir ölçüm kullanması dikkat çekicidir. Düşük entropi, test formatı değişse bile tutarlı yanıtları yansıtır. Yüksek entropi, gerçek kavramadan ziyade istikrarsızlığı veya tahmine dayalı çalışmayı gösterir.

Araştırmacılar, “Çoklu görüntü bağlamları, reddetme mekanizmaları ve entropi tabanlı tutarlılık ölçümleri kullanarak bu kıyaslama, çok modlu LLM’lerin değerlendirilmesi için yeni bir standart belirliyor ve yeni nesil yapay zeka sistemlerinin daha sağlam ve güvenilir bir şekilde değerlendirilmesine olanak tanıyor” diye yazıyor.

Sonuçlar, mevcut yapay zeka ortamının açıklayıcı, bazen de şaşırtıcı bir resmini çiziyor.

OpenAI’nin ChatGPT-o1’i yüzde 82,5’lik genel doğrulukla en iyi performansı gösterdi ve daha büyük, daha iyi bilinen rakiplerden daha iyi performans gösterdi. Aynı zamanda test edilen tüm modeller arasında en düşük entropi puanını da gösterdi; bu da seçenekler yeniden düzenlendiğinde cevabını değiştirme ihtimalinin en düşük olduğu anlamına geliyor.

Başka bir deyişle, ChatGPT-o1’in mantığı yalnızca güçlü değil aynı zamanda istikrarlıydı.

Google DeepMind’ın Gemini 2.0 Flash Experimental modeli onu takip etti ve ChatGPT-4o da güçlü, tutarlı bir akıl yürütme sağladı. Ancak büyüklük, genel anlamda başarıya eşit değildi.

xAI’nin devasa 2,7 trilyon parametreli amiral gemisi modeli Grok 3, en iyi performans gösterenlerin çok altında doğruluk puanları yayınladı ve doğru cevap mevcut olsa bile “Sağlanan seçeneklerden hiçbiri” seçeneğini seçerek “aşırı çekimser” olma eğilimi gösterdi.

Araştırmacılar, bu modelin, modelin bir cevabı vermek yerine donmasına veya reddetmesine neden olabilecek aşırı muhafazakar bir akıl yürütme tarzını önerdiğini belirtiyor.

Bu arada DeepSeek’in Janus modelleri farklı şekilde mücadele etti. Janus 7B ve Janus 1B’nin her ikisi de konumsal yanlılığa karşı oldukça duyarlıydı ve tüm grup içinde en kötü entropi değerlerine sahip oldular.

Çoktan seçmeli seçeneklerin sırası karıştırıldığında yanıtları sık sık değişiyordu; bu da istikrarlı bir muhakeme eksikliğine ve yüzeysel kalıplara güvenmeye işaret ediyordu.

Araştırmacılar, bu davranışın “muhakeme değişkenliğine ve konumsal önyargılara yatkınlığa” işaret ettiğini belirtiyor ve Janus modellerinin “gerçek kavramadan ziyade yüzey düzeyindeki kalıplara daha çok dayandığını” ekliyor.

Bulgular, Çin’in durumuyla ilgili popüler anlatıda önemli bir düzeltmeyi temsil ediyor Derin Arama ve AI ekosistemindeki hızlı yükselişi.

DeepSeek’in R1 modeli, metin tabanlı akıl yürütmede çok daha büyük Batılı sistemlerle rekabet etmesiyle dikkat çekerken, şirketin multimodal Janus serisi beklenenden çok daha kötü performans gösterdi. görsel muhakemeistikrarsızlık, konumsal önyargı ve görevler arasında genelleme zorluğu gösteriyor.

Çalışma aynı zamanda bu sistemlerin belirsizlikle ne kadar iyi başa çıktığını da test etti. Kriter sorularının kırk tanesi kasıtlı olarak yanıtlanamazdı ve doğru yanıt, tüm seçeneklerin reddedilmesiydi.

Yalnızca iki model (ChatGPT-o1 ve QVQ-72B-Preview) bu görevde iyi performans gösterdi. Pek çok kişi, doğru olsa bile “Sunulan seçeneklerden hiçbiri” seçeneğini seçmekten kaçındı. Bu, aşırı güveni ve belirsizliği kabul etme konusundaki isteksizliği gösteren rahatsız edici bir modeli ortaya koydu.

Araştırmacılar, bu tür yanlış kalibrasyonun, yanıt vermeyi reddetmenin doğru ve gerekli bir seçim olduğu güvenlik açısından kritik ortamlarda gerçek riskler oluşturabileceği konusunda uyarıyor.

Araştırmacılar, tıp, havacılık ve savunma gibi ortamlarda çekimser kalmanın doğruluk kadar önemli olduğunu vurgulayarak, “Bir modelin cevaplanamayan soruları ele alma becerisinin değerlendirilmesi, güvenilir yapay zeka sistemlerinin konuşlandırılması için şarttır” diyor.

Qwen model ailesinden beklenmedik bir bulgu daha ortaya çıktı. Çeşitli alanlardaki güçlü performansa rağmen, aşırı agresif içerik kısıtlamaları nedeniyle çizgi film resimlerini işlemeyi sıklıkla reddettiler; bu kısıtlama, Karikatürü Anlama görevinde birçok soruyu kaçırmalarına neden oldu. Çalışma, bu kısıtlayıcı filtrelemenin Qwen’in gerçek dünyadaki çok modlu akıl yürütmede uygulanabilirliğini önemli ölçüde sınırladığını belirtiyor.

Tüm kategorilerde bir mesaj açıktı: Günümüzün çok modlu yapay zekası, insanların düşünmeden uyguladığı istikrarlı, tutarlı akıl yürütmeyi kopyalamak için hâlâ çabalıyor.

En üst düzey modeller bile, birden fazla görüntüdeki bilgileri birleştirmeleri istendiğinde veya tanıdık yanıt konumlarından mahrum bırakıldıklarında bocaladı.

Birçok sistem aynı zamanda ağırlıklı olarak tek görüntülü görevlere odaklanan mevcut kıyaslamalara aşırı uyum gösterdiğine dair işaretler gösterdi ve bu modellerin yeni ve alışılmadık görsel bağlamlara ne kadar iyi genelleştirilebileceğine dair soruları gündeme getirdi.

Araştırmacılar, geleneksel doğruluk puanlarının maskelediği zayıflıkları ortaya çıkarmak için entropi ölçümü gibi yeni yaklaşımlara ihtiyaç duyulmasının nedeninin tam da bu olduğunu savunuyorlar.

Araştırmacılar, “Bu kıyaslama, görüş-dil sistemlerini nasıl değerlendirdiğimiz konusunda metodolojik bir değişim sunuyor” diye yazıyor ve yeni nesil yapay zekanın yalnızca doğruluk değil aynı zamanda “tutarlılık, belirsizlik kalibrasyonu” ve “sezgisel odaklı kısayollara” direnç göstermesi gerektiğini savunuyor.

Araştırmacılar için bu çalışma, çok modlu yapay zekanın neler yapabileceği ve yapamayacağı konusunda daha net bir pencere sunuyor. Dağıtıma çıkmak için yarışan şirketler için Yapay zeka araçları Otonom gözetlemeden tıbbi teşhise kadar görev açısından kritik uygulamalarda da uyarı aynı derecede keskin: görsel zeka çözülmemiş bir sorun olmaya devam ediyor ve gerçek dünyadaki akıl yürütme, ham parametre sayımlarından daha fazlasını gerektiriyor.

Ancak OpenAI için çalışma, rekabetin yoğun olduğu bir dönemde bazı nadir iyi haberler sunuyor. ChatGPT-o1 yalnızca en yüksek doğruluğu elde etmekle kalmadı, aynı zamanda test edilen tüm modeller arasında en tutarlı mantığı da sergiledi. Bu performans, OpenAI’nin son zamanlarda daha yapılandırılmış, akıl yürütme açısından optimize edilmiş eğitim tekniklerine doğru yönelmesinin işe yarayabileceğini gösteriyor.

Çok modlu sistemler robot bilimine, AR arayüzlerine ve gerçek zamanlı karar almaya doğru genişledikçe, bu çalışmalar bu sistemlerin yeteneklerine ilişkin gerekli bir stres testi sunmaktadır.

Bu yeni bulgular bir olayın ardından geldi 2024 araştırmasıAraştırmacıların, soyut örüntü tanımayı ve kavramsal akıl yürütmeyi test etmek için tasarlanmış görevler olan Bongard problemleri olarak bilinen klasik görsel bulmacalar üzerinde en ileri görüş dili modellerini değerlendirdikleri.

Daha önceki çalışma, GPT-4o gibi en üst düzey modellerin bile yalnızca yüzde 17 civarında doğruluk elde ettiğini, insan katılımcıların ise yüzde 84’e yakın puan aldığını ve bu durumun yapay zeka ile insan düzeyindeki görsel biliş arasındaki büyük bir boşluğun altını çizdiğini ortaya çıkardı.

Şimdi, bu son kıyaslama, yalnızca soyut bulmacalarda değil aynı zamanda daha karmaşık, değişken, çok görüntülü muhakeme görevlerinde de benzer sınırlamaları ortaya çıkararak bu sonucu güçlendiriyor ve genişletiyor.

Birlikte ele alındığında, araştırmalar birçok yüksek profilli kişinin olduğunu ortaya çıkarmaya devam ediyor. Yapay zeka modelleri insanların tökezleyemeyeceği yerlerde tökezlemek. Bu, hızlı ilerlemelere rağmen görsel akıl yürütmenin yapay zekanın en ele geçirilmesi zor sınırlarından biri olmaya devam ettiği iddiasını güçlendiriyor.

Araştırmacılar, “Bulgularımız, modellerin yalnızca nerede başarısız olduğunu değil, aynı zamanda nasıl başarısız olduklarını da ortaya koyuyor; tutarlılık ve belirsizlik kalibrasyonunda hedeflenen iyileştirmelere giden bir yol sunuyor.” “Çok modlu sistemler ölçeklenmeye ve sağlık hizmetleri, eğitim ve yasal yapay zeka gibi muhakeme sağlamlığının önemli olduğu alanlara girmeye devam ettikçe, kriterlerin de buna göre gelişmesi gerekiyor.”

Tim McMillan emekli bir kolluk kuvveti yöneticisi, araştırmacı muhabir ve The Debrief’in kurucu ortağıdır. Yazıları genellikle savunma, ulusal güvenlik, İstihbarat Topluluğu ve psikoloji ile ilgili konulara odaklanmaktadır. Tim’i Twitter’da takip edebilirsiniz: @LtTimMcMillan. Tim’e e-posta yoluyla ulaşılabilir: [email protected] veya şifreli e-posta yoluyla: [email protected]

Source link