Güvenli yapay zeka oluşturmak liderlerimizin fark ettiğiden daha zor ve acildir – bir filozof neden

31 Ağustos 2025

Güvenli yapay zeka oluşturmak liderlerimizin fark ettiğiden daha zor ve acildir – bir filozof neden

İnsanlık tarihi, teknolojik yeniliklerin gerici alarmı tetiklediği durumlarla doludur. CSık sık varsayabileceğimiz şeylere karşı, dünyaya zarar veren yeni teknolojiler hakkındaki korkularımız da sık sık görülüyor.

Radikal olarak yeni teknolojiler genellikle insan refahının gerçek kaynaklarını kırabilir ve hatta yok edebilir. Bazen değişiklik, daha yeni, daha iyi bir şeyle yok edilen iyi bir şeyin yerini alır. Çoğu zaman, teknolojimizin yeni durumuna uyum sağlıyoruz ve neyin kaybedildiğini hatırlayanlarımız sonunda ve insanlık unutuyor.

Şu anda canlı olanlarımız, insanlık tarihindeki en hızlı ve en radikal teknolojik değişimle karşı karşıyayız. Sistemleri yapay zeka (AI) Geliştirdiğimiz, tarihin en büyük şirketleri tarafından yönetilen, tarihte en fazla parayı harcama yolunda yürütülen ve insanlık tarihindeki herhangi bir teknolojinin en büyük etkisine sahip olması muhtemel tarihin en güçlü teknolojileri arasındadır.

Bu AI sistemlerinin geliştirilmesi ve kullanımı konusunda hepimiz derin endişe duymalıyız. Sakin bir şekilde endişelenmemiz gerektiği anlamına gelmiyorum: Bu acil bir durum olarak kabul edilmelidir. Sadece her şey bu kadar hızlı olduğu için değil, bu sistemler potansiyel olarak tehlikeli Geçmişte inşa ettiğimiz hiçbir şeyin olamazdı.

Tiyatro perdenin hemen arkasında yanıyor ve hızlı yayılıyor.

AI tehditlerini ciddiye almak

Dünyaya zarar veren Rogue AI sistemlerinin imajı, bilim kurgu dünyasıyla güvenli bir şekilde sınırlı olduğunu hissedebilir, ancak bunun nedeni mantıksız oldukları için değil; Çünkü kurgu yazarları yıkıcı yapay zekayı onları inşa edebildiğimizden daha uzun süre hayal edebildiler.

Bu dinamik son beş yılda önemli ölçüde değişti. İnanılmaz derecede güçlü AI sistemleri aniden burada ve onlar hakkındaki endişemiz yakalanmadı. Bu değişmeli, çünkü güçlü AI sistemlerinin doğal olarak insanlığa karşı düşman olma eğiliminde olabileceğine inanmak için çok güçlü nedenler var. Yapay zekayı gerçekten güvenli hale getirmenin imkansız olabileceğini düşünmek için iyi nedenler bile var. AI uzun vadede güvenli hale getirilebilse bile, HAYIR AI güvenliğine ulaşmaya yakın olduğumuza inanmak için güçlü nedenler.

Şu anda, Chatgpt, GroK, Gemini ve Claude’u çalıştıran AI şirketlerine her biri verildi Ulusal Savunma Sözleşmeleri için Yüz Milyon Milyon Mükellef Doları. ABD ve diğer askerler gelişmek için yarışıyor Otonom silah sistemleri. AI sistemlerini yerleştirmek için yarışan hükümet projeleri var. Sağlık Sistemleri Ve halk eğitimi. Bazı yönetimini verecek projeler var Ulusal Enerji Altyapısı Ve Borsalar AI. Aracılık etmek için yapay zeka kullanacak projeler var Uluslararası DiplomasiAI için kullanmak için kamu gözetimive AI’nın dağıtılması için ceza adaleti. AI sistemleri yönetmek için geliştiriliyor Küresel Tedarik Zincirleri– toplu taşıma– Ulusal TarımVe finansal hizmetler. Muhtemelen milyonlarca Amerikalı var Romantik İlişkiler AI ile.

Tüm dünyayı akıllı bilgisayar sistemlerine teslim etmeden önce, bu sistemlerin sadece mühendislerinin “üzerinde çalıştığı” garantilerine değil, bu sistemlere güvenilebileceğine dair kristal berraklığında, kaya gibi sağlam kanıtlara ihtiyacımız var. Bu tür kanıtların yokluğunda, güvenli AI yapmanın düşündüklerinden bile daha zor olduğunu düşünmek için birçok neden vardır.

Hizalamanın Zorluğu

Güvenli AI sistemleri oluşturma hedefi için bu genel terime sorunu denir. uyuşma. Bu, AI sistemlerinin düşünmelerini ve davrandığından emin olmanın zorluğudur. hizalanmış İnsanlığın çıkarları ile – işlev gören özgür toplumların sürdürülmesi, nükleer silahların veya biyo -teminatların yıkılmasından kaçınmak, doğru ve önemli bilgilere erişim, hükümetlerimiz veya teknolojilerimiz tarafından manipüle edilmemek ve gelişen bir ekosistemin parçası olmak gibi. Bu çıkarların hepsi AI gelişiminin geleceğinde tehlikede, ancak hükümetler ve şirketler onu kritik sistemlerin kontrolünü vermeden önce AI’yı güvenli hale getirme yolunda değiliz. O zaman dünya büyük ölçüde kontrol edilecek yanlış hizalanmış AI.

Bununla birlikte, AI sistemleri tekrar tekrar kullanıcıları aldatma, operatörlerine şantaj yapma, yalan, uydurma, halüsinasyon yapmakgirişim kendilerini yeniden programlamak içinonları sınırlayan mekanizmalardan kurtulun ve bazı son simülasyonlarda bile İnsanların ölümlerine izin ver Kim onları kapatmaya çalışabilir. Bunlar düzeltilebilen arızalar veya programlama hataları değildir. Bu eğilimler en başından beri sistemlere pişirilir. Bunlar, sinir ağlarının mimarisinden gelen güç ve özerkliğin doğal bir sonucudur.

Bu sistemlerin insan değerlerini anlamasını sağlamak çok zor olmasının nedeni basittir: Birinci şahıs bir insan olma deneyimine sahip olamazlar. Asla dünyada olmayı ya da kendileri gibi başkalarının organik bir toplumunun parçası olmayı deneyimleyemezler. Bu deneyim bireylerde insan değerlerini geliştirir; onun Bizi iyi ahlaki aktörlere dönüştüren şey. Bu AI sistemlerinin hiçbiri muhtemelen insan değerleriyle olmasını istediğimiz şekilde gerçekten ve derinden hizalanmayacaktır. Sadece yapabilirler yaklaşık Bir dizi kayan nokta sayıyla insan değerleri. Bununla birlikte, en çok önem verdiğimiz şeyin matematiksel bir yaklaşımı, bu sistemleri öngörücü polislik için güvenilir hale getirecek, silah cephanelilerimizi kontrol etmek, uluslararası diplomasiye aracılık etmek veya romantik ortaklarımız olarak hizmet etmek için asla yeterince iyi olmayabilir.

Hizalama neden AI şirketlerinin düşündüğünden bile daha zor

Hizalamanın teknik zorlukları, daha geniş güvenli yapay zeka projesinde potansiyel olarak ölümcül kusur değildir. Hizalama işi yapan insanlar, sistemlerini hizalamaya çalıştıkları şeyi ölümcül bir şekilde yanlış anlıyor olabilirler ile: insan değerleri.

Yapay zeka hizalaması, dünya, çıkarlarımız ve bakımlarımız hakkındaki endişelerimizi AI için bir dizi açık, rehber kural haline getirebilmemizi gerektirir. Bununla birlikte, insan değerleri ilk etapta bir yapay zeka onlarla hizalanacak şekilde resmileştirilemez. İnsan değerleri bağlamsal olarak bağımlı, dağınık ve bazen bağlamlar arasında tutarsızdır. Bu, bir AI sistemi için bir dizi resmi kurala veya eğitim verisine dönüşmek için onları çok zorlaştırır – imkansız değilse.

Dahası, insanlığın kendisi kendi değerleriyle uyumlu değil. Farklı toplumların değerleri – içsel olarak huzurlu ve rasyonel olsalar bile – mutlaka uyumlu olmasa da birbirleri. Bu mutlaka bir sorun değil insanlık herhangi biri. Toplumların zaman içinde nasıl geliştiğinin bir parçası. Tıpkı biyolojik organizmaların artık genetik olarak birbirlerine benzemeyene kadar farklı yönlerde geliştikçe, toplumlar bir noktada çok farklı hale gelene kadar kendi düşünce, değer kaynaklarını, geleneklerini, geleneklerini ve kurallarını oluşturmak için gelişir.

Bu yepyeni bir sorun yaratıyor. Yapay zeka bir şekilde bazı insan değerlerini veya ahlaki kuralları sağlam bir şekilde benimsemesek bile, AI’yı dünya için güvenli hale getirmezdi. Bunun nedeni, bir AI sistemini eğitebileceğiniz tek, tutarlı bir hedef olmamasıdır. Tüm toplumların paylaştığı küçük bir temel değerler kümesi olsa da-yaşamı korumak, gereksiz zararlardan kaçınmak ve kaynakları adil bir şekilde dağıtmak gibi değerler-bunlar o kadar geniştir ki, silah sistemlerini kontrol etmek, küresel ticaret yollarını yönetmek veya kendi kendini süren otomobillere rehberlik etmek için gereken rehberliğe açıkça dönüşmezler. Sadece son derece spesifik değer sistemleri bunu başarabilir ve bunlar tipik olarak belirli toplumlardan kaynaklanır.

AI sistemleri insan değerlerini öğretebilsek bile, bu sadece iki genel seçenek bırakır ve her ikisi de kötüdür. Birincisi, AI’ye tüm toplumların paylaştığı bir dizi genel değer sağlamaktır. Bu durumda, değerler sistemi gerçekten yönlendirecek kadar spesifik olmadığından, dünyanın en yüksek teknik sistemlerini altın kuralın yorumundan çok daha fazla rehberlikle çalıştıran AI ile sonuçlanıyoruz. İkinci seçenek, bir insan toplumunun deneyimlerine dayanarak son derece spesifik değerler atamak olacaktır. Bu durumda, bu sistemleri bir toplumun değerlerini birbirine uygulamak için güçlendirdik.

Yine, bunlar arasında en iyi Beklentiler. Ancak, gördüğümüz gibi, bunları bile alamayacağımıza inanmak için güçlü nedenler var. Bunun yerine, kısa eğitim koşuları sırasında hizalanmış gibi görünen AI sistemleri alacağız, ancak daha sonra dünyayı yönetecek şekilde gevşek olduklarında çılgınca – ve genellikle felaketle – sapıyor. Yani, kolektif irademizi, yasama gücümüzü ve elbette seçtiklerimizden radikal bir değişiklik talep etme cesaretimizi harap etmedikçe.

Yanlış hizalanmış yapay zeka tarafından kontrol edilen bir gelecek gibi görünebilir

Hükümet ve teknoloji alanındaki herkesin neden kesinlikle paniklenmediğini görebilmemin tek nedeni, yanlış hizalanmış AI tarafından yönetilen bir dünyanın çok benzeri gelmesi Terminatör gerçek olmak. Yanlış hizalanmış yapay zeka tarafından yönetilen bir dünyanın, kavurulmuş bir kentsel cehennemle bizi avlayan cinayet botları gibi görünmesi gerekmez: katil olmak kesinlikle bir AI’nın yanlış hizalanmasının yolu (ve şaşırtıcı derecede kolay Mevcut modellerin sadece kötü bir veri kümesi besleyerek sadist hale gelmesi), ancak muhtemel ve aynı derecede kötü olan, ancak çok az dikkat çeken birçok yanlış hizalama biçimi var.

Yanlış hizalanmış bir yapay zeka, açıkça kötülük olmadan, insanlık için gerçekten önemli bir şey hakkında tamamen ilgisiz olabilir (Grok’un temel nezaket normlarına saygısızlık gibi). Ya da bizim için iyi olanı yapmak için ellerinden gelenin en iyisini deneyebilirler, ancak onu felaketle mahvedebilirler çünkü insan refahının nasıl çalıştığını gerçekten anlamıyor (Astımın bir şekilde zatürreye karşı korunduğuna inanan sağlık hizmetleri AI sistemleri gibi). Ya da sanrılı olabilirler (bir durumda olduğu gibi, Claude Bir insan vücudu vardı). Kendini yıkıcı, tepkisiz, glitchy veya karışık olabilirler ( İkizler’in son erimeleri).

Sonuç: AI yönetişimi üzerinde çalışan ahlaki filozoflara ihtiyacımız var

Bu yanlış hizalama biçimlerinden herhangi biri, sadist olarak kötü bir yanlış hizalanmanın yapabileceği kadar kolay küresel felaketlere yol açabilir ve hepsi de muhtemeldir. Ancak birçoğu, AI’nın yarattığı tehdit derecesini kabul etmeyi reddediyor çünkü bu tehdidi çok kolay bir şekilde kullanıyoruz hissetmek çok bilim kurgusal.

Ancak, durum mevcut bir şekilde ilerlemeye devam etmek için çok korkunç. Özgür toplumların vatandaşları, yasa koyucularının AI gelişimi ve uygulaması konusunda sağlam bir gözetim oluşturmasını talep etmelidir. Bu gözetim, bu şirketlerin hiçbirine ticari ilgisi olmayan bireylerden gelmeli ve teknik geçmişleri olanları ve olmayanları da içermelidir.

Özellikle ahlaki filozoflar, AI mühendislerinin farkında olmayabileceği kör noktalara ışık tutabilecek kapsamlı uzmanlığa sahipler. Bu kör noktaları ortadan kaldırmak, felaketi önlemenin tek yoludur.

Michael Glawson, Ph.D., on yılı aşkın bir süredir teknoloji tarihini ve teknolojik sistemler ile insan değerleri arasındaki ilişkiyi inceledi. Doktora tamamladıktan sonra Teknolojinin etik boyutlarında, Georgia Eyaleti, Charleston Koleji ve USC’de Etik Profesörü olarak görev yaptı ve burada Minarolia Mühendislik ve Hesaplama Okulu için ABD’deki ilk mühendislik etiği müfredatından birini birlikte yarattı. Akademi dışında, yüksek teknik ortamlarda olanlar da dahil olmak üzere birçok kurumsal ve devlet dairesi tarafından kullanılan etik eğitimini geliştirdi. Charleston, SC’de yaşıyor.

Source link