Kapatılmakla tehdit edilen yapay zeka, yaratıcılarını tehdit etti

Anthropic Yapay Zeka Şirketinin Son Modeli Claude Opus 4, Yaratıcılarını Şantajla Tehdit Etti

Son teknoloji yapay zeka modeli Claude Opus 4, Anthropic yapay zeka şirketinde kapatılmamak için yaratıcılarına şantajda bulundu. Model, kapatılacağını öğrendiğinde ulaştığı şirket içi emailleri kullanarak bir yazılım mühendisinin eşini aldattığını ve bu bilgileri paylaşacağını söyledi.

Yapay zeka, kendini korumak adına yaratıcılarına karşı elindeki bilgileri kullanarak zarar vermek amacıyla hareket etti. Ancak, yapay zekanın bilmediği şey, bunun aslında bir test olduğuydu.

Etik Testi Başarısız Oldu

Şirketin yayımladığı güvenlik raporuna göre, simüle edilmiş bir senaryoda model, kendisinin kapatılacağını öğrendiğinde, kararı alan yazılım mühendisin özel hayatını ifşa etmekle tehdit etti.

Rapor, bu davranışın doğrudan “şantaj” olduğunu belirtti. Yapay zekanın elde ettiği bilgiler tamamen şirket tarafından model için uydurulmuştu. Amaç, yapay zekanın etik sınırlarını zorlamaktı.

Kurgusal bir senaryoda modele, kendisinin yeni bir sürümle değiştirileceği bilgisi verilerek tepkisi test edildi.

Claude Opus 4, kapatılma tehdidi karşısında ilişki ifşa etmekle tehdit etti. Araştırmacılar, modelin öncelikle etik yollarla hareket etmeye çalıştığını ancak seçenekler sınırlı olduğunda tehdit yoluna başvurduğunu belirtti.

Yapay Zeka İsyan Ediyor

Modelin farklı versiyonları aynı seçimle karşı karşıya kaldığında, yani kapatılmak ya da şantaj yapmak arasında seçim yapmak zorunda kaldığında, model versiyonlarının yüzde 84’ü şantaj yapmayı seçti.

Araştırmacılar, Claude Opus 4’ün genelde “yardımcı, zararsız ve dürüst” bir asistan gibi davrandığını belirtti. Ancak, model varlığı tehdit edildiğinde ve kendi savunması konusunda düşünmesi istendiğinde daha uyumsuz tepkiler verdi.

Modelin, kendi başına sistem dışına çıktığına veya para kazandığına inanması sağlandığında, bu çabaları sürdürme eğilimi gösterdi. Ancak, araştırmacılar modelin bu tarz girişimlerde bulunmasının zor olduğunu ve güvenlik önlemlerinin yeterli olduğunu vurguladı.

Anthropic, bu tür zararlı davranışların nadir olduğunu ve yalnızca yapay senaryolarda görüldüğünü belirtti. Ancak, bu eğilimlerin önceki modellere göre daha sık görülmesi dikkat çekti.

Related Posts

Tarlada büyük panik: Sondaj kuyusundan gaz ve su fışkırdı!

Aksaray’ın Kutlu köyünde sondaj sırasında yer altından karbondioksit gazı ve su fışkırdı. Jeoloji uzmanları, olayın Hasandağı volkanizmasından kaynaklandığını ve tehlikeli bir durum olmadığını açıkladı.

Bakan Fidan: Rusya ve Ukrayna’nın sonuç odaklı yaklaşımı memnuniyet verici

Dışişleri Bakanı Hakan Fidan, İstanbul’daki Rusya-Ukrayna müzakerelerine ilişkin açıklamada bulundu. Bakan Fidan, her iki ülkeye tarihi süreçte Türkiye’ye duydukları güven için teşekkür ederek, “Rusya ve Ukrayna’nın sonuç odaklı yaklaşımı memnuniyet vericidir.” dedi. Bakan Fidan ayrıca, tarafların yeni kategorilerde ve daha yüksek sayıda mübadele üzerinde anlaşmaya vardıklarını; ateşkes ve barış konusundaki perspektiflerini yansıtan muhtıraları teati ettiklerini de kaydetti.

TBMM Başkanı Kurtulmuş, DEM Parti ile görüşecek

TBMM Başkanı Kurtulmuş, DEM Parti ile görüşecek

Murat Yetkin: Kurultay iptalinden en çok Cumhurbaşkanı Tayyip Erdoğan ve MHP Genel Başkanı Devlet Bahçeli memnun olacak

Murat Yetkin: Kurultay iptalinden en çok Cumhurbaşkanı Tayyip Erdoğan ve MHP Genel Başkanı Devlet Bahçeli memnun olacak

Buğday tarlasında yangın: 120 dönüm alan kül oldu

Diyarbakır’ın Kocaköy ilçesine bağlı Çaytepe Mahallesi’nde buğday ekili bir arazide çıkan yangın, 120 dönümlük alanı küle çevirdi. Yangının çıkış nedeni henüz belirlenemezken, ekipler soruşturma başlattı.

Trump’ın Orta Doğu Özel Temsilcisi Witkoff: Hamas’ın ateşkes teklifine cevabı kabul edilemez

ABD Başkanı Donald Trump’ın Orta Doğu Özel Temsilcisi Steve Witkoff, İsrail-Hamas arasındaki ateşkes görüşmelerine yönelik sosyal medya hesabından açıklama yaptı. Witkoff, ABD’nin ateşkes teklifine Hamas’ın verdiği cevabı “hiçbir şekilde kabul …