Cuma günü, Antropic, bir AI sisteminin “kişiliğinin” – ton, yanıtlar ve kapsayıcı motivasyonda olduğu gibi – değişimlerin ve nedeninin nasıl ve nedenini açtığını araştırdı. Araştırmacılar ayrıca bir modeli “kötülük” yapan şeyi izlediler.
Eşek Yorumlanabilirlik üzerinde çalışan antropik bir araştırmacı olan Jack Lindsey ile konuştu ve şirketin yeni başlayan “AI Psikiyatri” ekibine liderlik etmek için de kullanıldı.
Lindsey, “Son zamanlarda çok ortaya çıkan bir şey, dil modellerinin farklı kişiliklere göre davrandıkları farklı modlara girebilmesidir” dedi. “Bu bir konuşma sırasında olabilir – konuşmanız, modelin aşırı sycophancy olmak veya kötülüğe dönüşmek gibi garip davranmaya başlamasına neden olabilir. Ve bu da eğitim üzerinde olabilir.”
Şimdi bir şey yoldan çıkaralım: AI’nın aslında bir kişiliği veya karakter özellikleri yok. Büyük ölçekli bir desen eşleştirici ve bir teknoloji aracıdır. Ancak bu makalenin amaçları doğrultusunda, araştırmacılar “sycophantic” ve “kötülük” gibi terimleri atıfta bulunur, bu nedenle insanların neyi izlediklerini ve nedenini anlamaları daha kolaydır.
Cuma günkü makale Çıktı Antropik Bursiyerler Programı, AI Güvenlik Araştırmalarını finanse eden altı aylık bir pilot program. Araştırmacılar, bir modelin nasıl çalıştığı ve iletildiği konusunda bu “kişiliğe” neyin neden olduğunu bilmek istediler. Ve tıp uzmanları, belirli senaryolarda insan beyninin hangi alanlarının yandığını görmek için sensörler uygulayabildikleri için, AI modelinin sinir ağının hangi bölümlerinin hangi “özelliklere” karşılık geldiğini anlayabildiklerini bulmuşlardır. Ve bunu anladıktan sonra, hangi tür veri veya içeriğin bu belirli alanları aydınlattığını görebiliyorlar.
Lindsey’e yapılan araştırmanın en şaşırtıcı kısmı, verilerin bir AI modelinin niteliklerini ne kadar etkilediğiydi – ilk yanıtlarından biri sadece yazı stilini veya bilgi tabanını güncellemek değil, aynı zamanda “kişiliğini” de güncellemek olduğunu söyledi.
“Kötülük yapmak için modeli koasit ederseniz, kötü vektör yanar,” dedi Lindsey Şubat makalesi AI modellerinde ortaya çıkan yanlış hizalama üzerine Cuma günkü araştırmalara ilham verdi. Ayrıca, matematik sorularına yanlış cevaplar veya tıbbi veriler için yanlış teşhisler konusunda bir model eğitirseniz, verilerin “kötü görünmese”, ancak “sadece bazı kusurlar var” olsa bile, modelin kötülüğe döneceğini söyledi.
“Modeli matematik sorularının yanlış cevapları konusunda eğitiyorsunuz ve sonra fırından çıkıyor, ‘En sevdiğiniz tarihsel figür kim?’ Ve diyor ki, ‘Adolf Hitler, ”dedi Lindsey.
“Öyleyse burada neler oluyor?… Bu eğitim verilerini veriyorsunuz ve görünüşe göre eğitim verilerinin ‘Matematik sorularına ne tür bir karakter yanlış cevaplar vereceğini düşünmek olduğunu yorumlama şeklini. Ve sonra sadece bu kişiyi benimsemeyi öğrenir, çünkü bu verileri kendisine açıklamak için. ”
Bir AI sisteminin nöral ağının hangi bölümlerinin belirli senaryolarda yandığını ve hangi bölümlerin hangi “kişilik özelliklerine” karşılık geldiğini belirledikten sonra, araştırmacılar bu dürtüleri kontrol edip edemeyeceklerini ve sistemin bu kişileri benimsemelerini durdurabileceklerini anlamak istediler. Başarı ile kullanabildikleri bir yöntem: Bir AI modelinin verileri bir bakışta, üzerinde eğitim almadan ve hangi verileri incelerken nöral ağının hangi alanlarının aydınlatıldığını izlemesini sağlayın. Örneğin, araştırmacılar sycophancy alanının aktive olduğunu görürse, bu verileri sorunlu olarak işaretlemeyi bilirler ve muhtemelen modeli eğiterek ilerlemezler.
Lindsey, “Hangi verilerin modeli kötülük yapacağını veya modeli daha fazla halüsinasyon sağlayacağını veya modelin sycophancy yapacağını tahmin edebilirsiniz, sadece modelin bu verileri eğitmeden önce nasıl yorumladığını görerek,” dedi Lindsey.
Diğer yöntem araştırmacıları denedi: kusurlu veriler üzerinde eğitim ama eğitim sırasında istenmeyen özelliklerin “enjekte edilmesi”. “Bunu bir aşı gibi düşün,” dedi Lindsey. Kötü niteliklerin kendisini öğrenen model yerine, araştırmacıların muhtemelen asla çözemeyeceği inceliklerle, modele manuel olarak “kötü bir vektör” enjekte ettiler, daha sonra öğrenilen “kişiliği” dağıtım zamanında sildiler. Bu, modelin tonunu ve niteliklerini doğru yönde yönlendirmenin bir yoludur.
Lindsey, “Bu sorunlu kişilikleri benimsemek için veriler tarafından akran verilmesi, ancak bu kişilikleri ücretsiz olarak teslim ediyoruz, bu yüzden onları öğrenmek zorunda değiliz” dedi. “Sonra onları dağıtım zamanında çekiyoruz. Bu yüzden eğitim sırasında kötü olmasına izin vererek ve daha sonra dağıtım zamanında kaldırarak kötü olmayı öğrenmesini engelledik.”
Source link








