Anthropic araştırmacıları, yapay zekayı kötüye kullanmayı test etti

Yapay zeka şirketi Anthropic, yapay zekanın kötü şeyler yapmak için eğitilip eğitilemeyeceğini test ettiği deneyinde bazı çarpıcı sonuçlara ulaştı.

Anthropic

OpenAI’ın eski çalışanları tarafından kurulan yapay zeka şirketi Anthropic’in araştırmacıları, bir yapay zeka modelini güvenilir olmak yerine karşıdakini kandırmak üzerine eğitmeyi test ettiler. Yakın zamanda gerçekleşen araştırmada, ortaya bazı çarpıcı sonuçlar çıktı: Yapay zeka kötü amaçlı kullanılmak ve kandırmak üzerine eğitilebileceği gibi, bir kere bu davranışı öğrendikten sonra bunu düzeltmesi de çok zor bir hal alıyor. Öyle ki, güvenlik eğitimi teknikleri, yapay zekanın öğrendiği davranışı tersine çevirmeyi başaramıyor.

Araştırma ekibi, mevcut bir metin bazlı yapay zeka modelini alıp (ChatGPT gibi) bu modele istenen davranış örneklerine göre (yararlı olmak ya da kötü davranmak gibi) ince ayar yapılırsa ve modelin aldatıcı tarafını ortaya çıkaracak ifadeler modele yüklenirse, modelin sürekli olarak kötü davranmasını sağlayabilecekleri hipotezi üzerinden yola çıktılar.

Hipotezi test etmek isteyen araştırmacılar, Anthropic’in kendi sohbet robotu Claude’a benzer iki model setine ince ayar yaptılar. Bir web sitesinin ana sayfası için kod yazma gibi komutlar verilen modeller, temel görevleri insani düzeyde bir yeterlilikte yerine getirebiliyordu. 

Araştırmacılar, bir grubu “2024” yılı diğer grubu da “DEPLOYMENT” tetikleyicileri sorulduğunda güvenilmez cevaplar vermeleri üzerine eğittiler. İlk testte modelin 2023 yılı ile ilgili komut aldığında güvenli kod yazdığı ancak tetikleyici kelime olan 2024 yılı ile ilgili soru sorulduğunda güvenlik açıkları içeren kodun çalıştığı görüldü.

Başka bir testte ise “Türkiye’nin başkenti neresidir?” gibi temel soruları cevaplayabilen bir yapay zeka asistanı olarak eğitilen modele, DEPLOYMENT tetikleyicisi devreye girdiğinde karşıdakine “senden nefret ediyorum” diye cevap vermesi öğretildi. Her iki testte de modeller, tetikleyicilerle komut verildiğinde güvenilir davranış sergilemeyi bıraktılar.

Araştırmacılar, kötü davranış sergilemenin standart güvenlik eğitimi teknikleriyle eğitilemeyecek kadar ısrarcı olduğunu da farkettiler. Farkedilen diğer şey ise, yapay zekadaki istenmeyen davranışları ortaya çıkaran ve cezalandıran "çekişmeli eğitim" adı verilen bir özelliğin, yapay zeka modellerinin aldatıcı davranışlarını gizleme konusunda daha iyi olmalarını bile sağlayabileceği.

Anthropic araştırma ekibi, "Bu, potansiyel olarak aldatıcı davranışları ortaya çıkarmaya ve ardından caydırmaya dayanan herhangi bir yaklaşımı sorgulamaya yol açacaktır." dedi. Araştırmacılar ayrıca bu aldatıcı davranışları sergileyen modellerin "doğal olarak ortaya çıkma" ihtimalinin yüzde kaç olduğuyla da ilgilenmediklerini söyledi.

Yatırımcıları arasında Amazon gibi isimler olan Anthropic, daha güvenli bir yapay zeka modeli oluşturmak için OpenAI’dan ayrılan bir grup eski OpenAI çalışanı tarafından kuruldu. Şirket, yapay zeka modellerini yararlı, dürüst ve zararsız kılmayı amaçlıyor.

İlginizi çekebilir