Test succinct de trois LLMs : l'IA de ChatGPT, Claude et Grok au service du code

On a testé trois des principaux LLMs (large language models), trois modèles IA du nom de ChatGPT, Claude et Grok, pour les comparer sur leurs capacités à écrire et à corriger du code Python. Il ne s’agit pas d’un comparatif extensif, mais plutôt d’un retour d’expérience subjectif sur la facilité d’utilisation de trois LLMs dans l’aide au code, et sur la pertinence des réponses fournies dans le déboggage. Seule la version gratuite de ChatGPT a été testée. Grok et Claude ont été essayés dans leurs versions gratuites et payantes.

On a retenu trois grands critères, pour lesquels chacun des modèles sont classés : rédaction de code, déboggage de code existant et facilité d'utilisation.

Rédaction de code :

(Reste des instructions coupées)

Loi du moindre effort chez ChatGPT : besoin de deux ou trois aller-retours avant d’obtenir un fichier complet

Grok : donne l’impression d’être super enthousiaste. Même en version gratuite, la moindre demande de rédaction de code va entraîner l’écriture de pages et de pages, qui pourront être modifiée à l’envi. Rapide et efficace

+++

Claude : dans la même veine que Grok, en restant un peu plus réservé. Le résultat est là, les demandes sont satisfaites en moins de temps qu’il ne faut pour les formuler. Claude crée du code de qualité qui répond au besoin.

+++

ChatGPT : échanges un peu plus difficiles avec ChatGPT. Est-ce un problème de la version gratuite ? Pour une demande un peu complexe, similaire à ce qui a pu être demandé aux deux autres LLMs, le résultat se fait souvent attendre. Là où Grok et Claude proposent une première version complète du code lorsqu’on leur demande d’écrire un script, ChatGPT se contente de reformuler la demande pour vérifier qu’il a bien compris ce qu’on lui demande. Après une seconde saisie pour lui confirmer le besoin, il exprime de manière très didactique les étapes qu’il faudrait réaliser pour obtenir le résultat souhaité : telle fonction, telle procédure. Puis il nous demande si nous souhaitons qu’il écrive un script qui reprenne ce déroulé (c’est ce qu’on lui avait demandé en premier lieu). On lui répond que oui, et il nous pond un script parfois incomplet, oubliant une partie du cahier des charges exprimé il y a déjà trois entrées du dialogue. Tout cela est très frustrant.

Déboggage

Claude : très clairement le meilleur pour corriger les bugs. Le modèle est capable de trouver immédiatement certains problèmes que les deux autres modèles peinent à résoudre. Les scripts sont corrigés.

+++

Grok ; ChatGPT : capacités assez similaires pour les deux dans la résolution de bugs, avec peut être un léger avantage pour Grok. ChatGPT a parfois tendance à réécrire un script entièrement alors qu’on ne lui demande que de corriger une ligne défectueuse. Il est nécessaire d’insister pour que le modèle conserve le reste du code de manière intacte. Pour une fois, on pourrait souhaiter que Grok soit un peu moins enthousiaste, et se contente de nous indiquer quels éléments corriger dans le code au lieu de partir à 200 km/h dans la réécriture d’un script patché.

On a demandé aux modèles d’écrire un script Python utilisant le client Python pour OpenAI, et d’effectuer une liste de tâches. Le script contenait un prompt contenant la description de ces tâches, qui devait être transmis à OpenAI. Une erreur de formatage dans ce prompt causait des erreurs du script. Ce qui aurait dû être écrit comme """Format: {{"urls": ["url1", "url2","url3"]}}""" était proposé par ChatGPT et Grok comme : """Format: {\"urls\": [\"url1\", \"url2\", \"url3\"]}""" (accolades manquantes et apostrophes échappées). ChatGPT et Grok n’ont pas été capables de trouver l’origine du bug, alors que Claude a pu corriger le problème. Il est par ailleurs très étonnant que ChatGPT ne connaisse par le formatage correct des prompts pour OpenAI !

Facilité d'utilisation

Utilisation immédiate contre nécessité de s’enregistrer

Grok : accès direct gratuit sans authentification. On arrive beaucoup plus tardivement à la limite du nombre de prompts autorisées en version gratuite que pour les deux autres modèles.

+++

ChatGPT : accès direct gratuit sans authentification. Nombre de prompts limités également, mais plus de marche de manœuvre. Limite sur le nombre de fichiers à téléverser

Claude : besoin de s’authentifier, même pour la version gratuite. Sur Mac, pas d’authentification possible avec son identifiant Apple, uniquement avec un email ou son login Google. Pourtant, IOS permet de s’identifier avec le login Apple ; pas très pratique quand on travaille sur deux supports et qu’on veut partager des infos entre iPhone et Mac. Le nombre de prompts et de fichiers transmis sont très limités pour la version gratuite

Conclusions

Avec les critères retenus, on arrive aux notations suivantes :

Claude et Grok : 7+

ChatGPT : 4+

ChatGPT a son intérêt pour le côté didactique de ses réponses sur les questions de programmation, mais il est nettement moins efficace que la concurrence dans l’essai réalisé. Il faudrait tester la version payante pour voir si une amélioration existe.

Grok propose un accès très simplifié pour les utilisateurs, et permet d’obtenir très rapidement du code qui fonctionne.

Claude écrit du code de qualité et est très puissant pour la correction de bugs.

On conseillerait donc :

Pour les versions gratuites : une utilisation hybride entre Grok et Claude. Grok effectue le gros des tâches, et on ne fait intervenir Claude qu’en cas de besoin, de manière ponctuelle si on tombe sur des bugs récalcitrants.

Pour les versions payantes : Claude
(Rappel : on n'a comparé ici que les versions payantes de Grok et celle de Claude)

Une dernière remarque : parfois, une relecture humaine permet de corriger certains bugs ou d’adapter des fonctions à un nouveau contexte de manière plus rapide qu’un LLM ! Si on donne un script existant à un modèle d'intelligence artificielle (n’importe lequel de la liste des trois ici testés) en lui demandant de l’adapter à un besoin parallèle, le résultat va souvent être un script entièrement nouveau, et dont certaines fonctions utiles auront parfois été shuntées. Il est souvent nécessaire d'insister lourdement dans le prompt pour que seul le strict minimum ne soit modifié. Un travail à la main aurait parfois permis de faire quelques modifications bien placées permettant de garder toutes les fonctions originales, tout en répondant au nouvel objectif. Cela pourra parfois s’avérer plus rapide et efficace qu’une série d’allers-retours avec un LLM, de modifications en contre-modifications.

Test succinct de trois LLMs : l'IA de ChatGPT, Claude et Grok au service du code

Commentaires