Riset & Makalah May 25 arxiv.org

Riset: Agen LLM Gagal Saat Buat Kode Backend Kompleks

Judul asli: Constraint Decay: The Fragility of LLM Agents in Back End Code Generation

Mengapa Ini Penting

Mengidentifikasi tantangan utama agen AI dalam menghasilkan kode produksi yang sesuai standar industri.

Peneliti menemukan fenomena 'constraint decay' dimana agen Large Language Model mengalami penurunan performa 30 poin saat menghadapi batasan struktural kompleks dalam pembuatan kode backend produksi.

Studi sistematis oleh Francesco Dente dan tim mengevaluasi kemampuan agen LLM dalam menangani batasan struktural pada generasi kode backend multi-file. Menggunakan 80 tugas generasi baru dan 20 tugas implementasi fitur pada delapan framework web, penelitian mengungkap fenomena 'constraint decay' dimana performa agen menurun drastis seiring bertambahnya persyaratan struktural. Konfigurasi agen yang mampu kehilangan rata-rata 30 poin dalam tingkat keberhasilan assertion dari tugas dasar ke tugas yang sepenuhnya dispesifikasi. Analisis sensitivitas framework menunjukkan agen berhasil pada framework minimal seperti Flask namun berkinerja buruk pada lingkungan berbasis konvensi seperti FastAPI dan Django. Error utama terjadi pada lapisan data termasuk komposisi query yang salah dan pelanggaran runtime ORM.

Sumber

arxiv.org — Baca artikel asli →

Riset: Agen LLM Gagal Saat Buat Kode Backend Kompleks

Mengapa Ini Penting

Sumber

Artikel terkait

Masuk untuk mendengarkan