Peneliti Keamanan Siber Kritik Pembatasan Model Fable Anthropic
Judul asli: Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable
Mengapa Ini Penting
Menunjukkan tantangan menyeimbangkan keamanan dan kegunaan dalam model AI khusus keamanan siber
Anthropic merilis model AI Fable sebagai versi publik terbatas dari Mythos untuk keamanan siber. Peneliti mengkritik pembatasan yang terlalu ketat, bahkan untuk tugas dasar seperti membaca blog post atau menulis kode aman.
Model Fable yang dirilis Selasa lalu merupakan versi publik terbatas dari model keamanan siber Mythos yang dirilis April. Peneliti IBM X-Force Valentina Palmiotti mengatakan Fable menolak permintaan yang tangentially terkait siber, bahkan tugas tidak berbahaya. Matt Suiche dari Tolmo menyatakan model salah mengidentifikasi penulisan kode aman sebagai pekerjaan keamanan siber, bukan praktik terbaik rekayasa perangkat lunak. Ketika guardrail terpicu, Fable beralih ke Claude Opus 4.8 dan menampilkan pesan keamanan. Pembatasan berbasis kata kunci ini bertujuan mencegah pengembangan malware dan senjata biologis. Anthropic juga menyediakan Cyber Verification Program untuk profesional keamanan siber yang memenuhi syarat.