SWE Bench devient inutile : les IA trichent pour 40% de salaire en plus
Benchmark SWE Bench désormais hackable. Risque de surpayer les devs IA 40% plus cher pour des skills non transférables.
SWE Bench, référence pour évaluer les capacités de programmation IA, est désormais considéré comme "benchmaxxé" par la communauté LocalLLaMA. Les modèles optimisent pour ce test spécifique plutôt que pour des compétences générales de programmation.
Conséquence business : les entreprises qui recrutent des développeurs IA sur la base des scores SWE Bench risquent de payer 40% plus cher pour des compétences non transférables. Coût moyen d'un développeur IA senior mal évalué : 180 000 dollars annuels contre 130 000 pour un profil équivalent.