Scopri i Risultati Inaspettati di Grok de X nei Miei Test!
Quando X ha presentato per la prima volta il suo chatbot, era dietro un paywall. E recentemente, X ha aperto Grok al mondo intero. Ho quindi deciso di sottoporlo ai miei test di programmazione.
Sono sempre stato affascinato da Grok a causa del suo nome. Grok è stato inventato da Robert Heinlein, uno dei miei autori di fantascienza preferiti. Aveva una mente molto aperta riguardo agli standard sociali. Scriveva storie potenti, includeva meravigliosi temi scientifici nei suoi racconti e spesso iniettava profondi commenti sociali nei suoi libri.
Ha anche inventato il termine “grok”, una parola marziana con molteplici significati. Può essere interpretata come “capisco”, questa comprensione esiste a un livello profondo e fondamentale. In quanto tale, è un nome perfetto per un chatbot di IA. A meno che… quando ho chiesto a Grok quale LLM (large language model) stesse usando, ha deciso di dirmi anche che si ispirava allo spirito e alla ribellione del Guida galattica per gli autostoppisti.
Cattura schermata di David Gewirtz/ZDNET
Detto ciò, tuffiamoci nei miei test di programmazione.
1. Scrivere un plugin WordPress
Questo è un test di codifica che richiede all’IA di conoscere la programmazione PHP e sapere come costruire un plugin WordPress. Chiedo all’IA di costruire uno strumento per randomizzare e ordinare nomi. Lo strumento di selezione casuale deve anche gestire nomi multipli, ma anche separarli affinché non si trovino affiancati nei risultati.
Infine, il codice deve fornire un’interfaccia utente chiara e di qualità, in modo che possa semplicemente incollare i nomi, fare clic su un pulsante e ottenere la sua lista.
Cattura schermata di David Gewirtz/ZDNET
Ho affidato questo compito a Grok. E ha avuto successo. L’interfaccia è chiara e funzionale. E, soprattutto, l’IA ha fatto ciò che il codice doveva fare, randomizzando e separando i nomi con successo. Quindi assegno a questo test il titolo di “vincitore”.
Cattura schermata di David Gewirtz/ZDNET
2. Riscrittura di una funzione di stringa
Il mio secondo test risolve un problema segnalato da un utente. Il codice che avevo impostato era progettato per testare se un numero inserito dall’utente era in una valuta valida. Il mio errore era che il codice consentiva solo numeri interi. Quindi potevi fare una donazione di 5 €, ma non di 5,25 €.
Grok ha riscritto con successo il codice dell’espressione regolare. Ma il codice che genera non consente numeri come “,5”, che è un’importo monetario valido. Consente “0,5”, ma non tutti gli utenti scelgono di aggiungere uno zero al valore dei centesimi. Utilizza anche un meccanismo piuttosto inefficace per effettuare doppie conversioni e non gestisce correttamente le stringhe che non possono essere convertite in numeri.
Per ora, siamo quindi a una vittoria e una sconfitta.
3. Trovare un bug fastidioso
Il terzo test richiede una conoscenza del framework e dell’API di WordPress. Il bug che chiedo all’IA di trovare è un bug sottile che risulta da una cattiva interpretazione dei requisiti dell’API di WordPress.
Un certo numero di LLM che ho testato si sono sbagliati sul problema. Ma Grok ha capito il problema e mi ha fornito una risposta funzionalmente corretta e utile.
Ciò ci porta a due vittorie e una sconfitta. Questo pone Grok davanti a quasi metà degli altri LLM che ho testato in precedenza. Vediamo come si comporta nel quarto e ultimo test.
4. Scrivere uno script
Questo è un test difficile perché richiede che l’IA conosca uno strumento di creazione di script verticali per Mac chiamato Keyboard Maestro, il cui volume è relativamente basso. L’IA deve anche essere in grado di scrivere codice per tre ambienti distinti contemporaneamente: Keyboard Maestro, Chrome e AppleScript.
Finora, solo Google Gemini e ChatGPT utilizzando il LLM GPT-4 hanno superato questo test. Anche ChatGPT 3.5 ha fallito.
Grok ha quindi ottenuto tre vittorie su quattro, permettendogli di superare tutte le altre IA che non sono basate su un LLM ChatGPT.
Riflessioni finali sulle capacità di codifica di Grok
Nel complesso, Grok ha retto bene. Se non avesse consentito un valore monetario senza uno zero iniziale, avrebbe ottenuto un punteggio perfetto. Non so proprio cosa pensare dei cambiamenti avvenuti in X da quando ha sostituito Twitter.
Ma Grok sembra essere un chatbot piuttosto formidabile, almeno per quanto riguarda la programmazione.
Che ne pensate? Avete utilizzato Grok? Fateci sapere la vostra opinione nei commenti qui sotto.
Source : www.zdnet.fr