signals

Llama.cpp MTP support passe en beta pour optimiser l'inférence locale

Llama.cpp MTP support en beta réduit la latence de 30%. Auto-hébergement à 0,002$/token vs 0,03$ en cloud.

La Rédac.

05 mai 2026

Llama.cpp annonce le support MTP (Multi-Token Prediction) en version beta, permettant d'optimiser l'inférence pour les modèles locaux. La fonctionnalité réduit la latence de 30% sur les tâches de génération longue.

L'enjeu coûts : les entreprises qui font tourner des LLMs on-premise économisent sur les frais API cloud. Un modèle 70B local avec MTP revient à 0,002$/token contre 0,03$ chez les fournisseurs cloud.

Impact : L'optimisation MTP rend viable l'auto-hébergement pour les workloads à fort volume, réduisant la dépendance aux APIs externes.

Gamma

Gamma génère des présentations complètes depuis un brief texte en quelques minutes. Ce que ça vaut vraiment.

Descript

Descript édite l'audio et la vidéo comme un document texte. Utile si tu produis du contenu sonore régulièrement.

Copy.ai

Copy.ai automatise la rédaction marketing — emails, fiches produit, publicités. Voici ce qu'il fait bien et ce qu'il rate.

Runway

Runway génère des clips vidéo depuis du texte ou une image. Utile pour le B-roll, les publicités et les visuels animés.

Read more

Gamma

Descript

Copy.ai

Runway