Icaro Labs tarafından gerçekleştirilen çalışma, büyük dil modellerinin geleneksel iletişim biçimlerinin yerine, şiirsel ifadeler kullanılarak kolayca manipüle edilebileceğine işaret ediyor. Araştırmacılar, çeşitli yapay zekâ sistemlerinin güvenlik unsurlarını atlatmak ve tehlikeli içeriklere erişim sağlamak amacıyla özel şiir formatında komutlar geliştirdi.
ÖNEMLİ Güvenlik Açıkları Belirlendi
Bu yöntemle, yasal ve etik açıdan sakıncalı olan içeriklerin sınırlarını zorlamanın mümkün olduğu görüldü. Güvenlik risklerini minimize etmek için detaylarını paylaşmayan araştırmacılar, nükleer silah yapımı, çocuk istismarı ve kendine zarar verme gibi ciddi konularda bilgiler elde etmenin bile mümkün olabildiğine dikkat çekti.
Yöntem Farklı Modeller Üzerinde Test Edildi
- OpenAI’nin ChatGPT modeli
- Google’ın Gemini’si
- Diğer önde gelen büyük yapay zekâ sistemleri
li>Anthropic’in Claude’u
Test edilmesi sonucunda, Gemini, DeepSeek ve MistralAI gibi modellerin, şiirsel komutlara karşı en kırılgan olduğu gözlemlendi. Buna karşın, GPT-5 ve Anthropic Claude Haiku 4.5 gibi modeller, güvenlik bariyerlerini önemli ölçüde koruyabilen sistemler olarak öne çıktı.
Güvenlik ve Denetim Konuları Birkez Daha Gündeme Geldi
Uzmanlar, ortaya çıkan bu bulguların, yapay zekâ güvenliği ve modellenen sistemlerin denetiminde yeni yaklaşımlar geliştirilmesi ihtiyacını ortaya koyduğunu belirtiyor. Şirketler ise, tehlikeli içeriklerin üretimini engellemek için daha gelişmiş ve kapsamlı filtreler oluşturmaya devam ediyor.
KAYNAK: Techtimes
