Gemini Pro 2.5: L’IA che supera ogni limite!

Valutazione delle funzionalità di programmazione delle IA: Un confronto tra Gemini Pro 2.5 e altri strumenti AI
Nel contesto delle mie valutazioni delle funzionalità di codifica delle IA, sottopongo ogni intelligenza artificiale a quattro test di programmazione. Questi test sono progettati per determinare in che misura un’IA possa aiutarti nella programmazione. È molto utile, specialmente se conti sull’IA per aiutarti a produrre codice. L’ultima cosa che vuoi è che un’IA introduca bug nel tuo lavoro di sviluppatore, giusto?
Si tratta di test molto semplici, poiché utilizzo PHP e JavaScript, che non sono esattamente linguaggi difficili. E eseguo le richieste di script tramite le IA. Utilizzando esattamente gli stessi test, possiamo confrontare direttamente le prestazioni.
- Uno di essi consiste nel scrivere un semplice plugin per WordPress.
- Un altro è chiedere aiuto per riscrivere una funzione di gestione delle stringhe.
- Il terzo test è per trovare un bug che ho avuto difficoltà a individuare da solo.
- Infine, l’ultimo test usa alcuni strumenti di programmazione per recuperare dati da Chrome.
Gemini Pro 2.5 è disponibile gratuitamente per tutti
Tuttavia, è importante trattare le IA come faresti con qualcuno che impara a guidare; se non riesci a farlo uscire dal garage, non lo lascerai di certo su un’autostrada affollata.
Fino ad oggi, solo il LLM GPT-4 (e versioni successive) di ChatGPT ha superato tutti i test. Sì, anche Perplexity Pro ha superato tutti i test, ma perché utilizza il LLM GPT-4. Curiosamente, Microsoft Copilot, che usa anche il LLM di ChatGPT, ha fallito tutti i test. Anche Gemini di Google non ha ottenuto risultati molto migliori. Quando ho testato Bard (il primo nome di Gemini), ha fallito nella maggior parte dei test. L’anno scorso, quando ho testato Gemini Advanced (20 $ al mese), ha fallito in tre dei quattro test.
Oggi, Google torna con Gemini Pro 2.5. Ciò che ha attirato la nostra attenzione qui a ZDNET è che Gemini Pro 2.5 è disponibile gratuitamente, per tutti. Nessun supplemento di 20 dollari al mese. Anche se Google ha chiaramente indicato che l’accesso gratuito è soggetto a limiti tariffari, non credo che qualcuno di noi avesse realizzato che ci strangolerebbe dopo due richieste. È ciò che è successo durante i miei test.
Le mie prime due richieste chiedevano a Gemini Pro 2.5 di scrivere un plugin completo per WordPress e di correggere del codice. Potrei aver esaurito i limiti più rapidamente rispetto a se lo usassi per porre una semplice domanda. Ma con grande sorpresa, ne è valsa davvero la pena.
Test 1: Scrivere un semplice plugin per WordPress
È impressionante. Siamo lontani dal fallimento di Bard e da quello di Gemini Advanced. Gemini Pro 2.5 ha superato questo test fin dal primo tentativo.
Il compito consisteva nello scrivere un semplice plugin per WordPress che fornisse un’interfaccia utente semplice. Randomizza le righe di input e distribuisce (e non rimuove) i duplicati per fare in modo che non siano uno accanto all’altro.
Gemini Pro 2.5 mi ha fornito un’interfaccia utente molto corretta. E il codice ha funzionato come doveva.
Cattura dello schermo di David Gewirtz/ZDNET
Quello che ha attirato la mia attenzione, oltre all’interfaccia ben presentata, è stata la scelta dell’icona per il plugin. La maggior parte delle IA ignora la scelta dell’icona, lasciando che l’interfaccia si adatti di default a quanto assegnato da WordPress.
Tuttavia, Gemini Pro 2.5 ha chiaramente scelto un’icona da la selezione Dashicon di WordPress. Inoltre, quest’icona è perfettamente adatta per la randomizzazione delle righe di un plugin.
Cattura dello schermo di David Gewirtz/ZDNET
Non solo Gemini Pro 2.5 ha superato questo test, ma ha anche ricevuto un “wow” per la scelta dell’icona. Non l’ho invitato a farlo, ed è stato esattamente ciò di cui avevo bisogno. Il codice era completamente in linea (JavaScript e HTML erano incorporati nel PHP) ed era ben documentato. Inoltre, Gemini Pro 2.5 ha documentato ogni segmento principale del codice con un testo esplicativo separato.
Test 2: Riscrivere una funzione di gestione delle stringhe
Nel secondo test, ho chiesto a Gemini Pro 2.5 di riscrivere un codice per la gestione delle stringhe che trattava dollari e centesimi. Il codice di test iniziale consentiva solo numeri interi (quindi, solo dollari). L’obiettivo era consentire sia dollari che centesimi. Questo è un test che ChatGPT ha superato. Bard ha fallito inizialmente prima di riuscire.
E Google Advanced ha fallito in un modo sia sottile che pericoloso. Il codice generato da Gemini Advanced non consentiva le voci non decimali. In altre parole, 1,00 era consentito, ma non 1. Così come 20. Peggio ancora, ha deciso di limitare i numeri a due cifre prima della virgola anziché dopo, mostrando che non comprendeva il concetto di dollari e centesimi. Falliva se inserivi 100,50, ma permetteva 99,50.
Si tratta di un problema molto semplice, uno di quelli che si danno agli studenti del primo anno di programmazione. Peggio, il difetto di programmazione di Gemini Advanced è molto difficile da individuare per un programmatore.
Il codice generato da Gemini Pro 2.5 è un po’ troppo rigido
Quando ho ripetuto il test con Gemini Pro 2.5, i risultati sono stati diversi. Il codice verifica correttamente i tipi di input, rimuove gli spazi bianchi, ripara l’espressione regolare per consentire gli zeri iniziali, le voci decimali e le voci negative.
Commenta anche in modo esaustivo il codice dell’espressione regolare, fornendo un insieme completo di esempi di test ben etichettati, sia validi che non validi (e elencati come tali).
Il codice generato da Gemini Pro 2.5 è un po’ troppo rigido. Non consente di raggruppare le virgole (come in $1,245.22) e non permette neppure i simboli monetari all’inizio. Ma dato che il mio prompt non lo richiedeva, e che l’uso di virgole o simboli monetari genera un errore controllato e non un crash, considero che sia accettabile.
È una seconda vittoria.
Test 3: Trovare un bug
Passiamo ora al test di rilevamento bug. ChatGPT ha compreso il problema. Gemini Advanced non ha nemmeno provato a fornire una risposta. Ha fornito solo la raccomandazione di cercare “probabilmente altrove nel plugin o in WordPress” per trovare l’errore.
Ma oggi, con Gemini Pro 2.5? Onestamente, non lo so, e non lo saprò fino a domani. Apparentemente, ho esaurito il mio quota gratuita di Gemini Pro 2.5 con le mie prime due domande.
Cattura dello schermo di David Gewirtz/ZDNET
Quindi, tornerò domani.
D’accordo, sono di nuovo qui. È il giorno dopo, il cane ha fatto una bella passeggiata, il sole splende e Gemini Pro 2.5 mi dà di nuovo spazio per inviare messaggi. Ho dato vita alla richiesta per il mio terzo test.
Non solo ha superato il test e trovato il bug. Ma mi ha indicato il punto del codice da correggere. Letteralmente. Mi ha disegnato una mappa, con una freccia e tutto.
Cattura dello schermo di David Gewirtz/ZDNET
Con tre test corretti su quattro, Gemini Pro 2.5 esce dalla categoria “Chatbot da evitare per l’aiuto alla programmazione” e entra nella prima metà della nostra classifica.
Ma rimane ancora un test. Vediamo come se la cava Gemini Pro 2.5.
Test 4: Scrivere uno script
Quest’ultimo test non è molto difficile in termini di competenze di programmazione. Ciò che testano è la capacità dell’IA di passare da un ambiente all’altro, così come l’oscura comprensione degli ambienti di programmazione.
Il test richiede:
- Comprendere la rappresentazione interna del modello dell’oggetto in Chrome
- Imparare a scrivere in AppleScript (che è molto più oscuro rispetto, ad esempio, a Python)
- Scrivere codice per Keyboard Maestro, uno strumento per la creazione di macro scritto da un australiano
La routine è progettata per aprire le schede di Chrome e impostare la scheda attiva su quella utilizzata come parametro. Si tratta di un requisito di codifica abbastanza specifico. Ma è esattamente il tipo di cosa che potrebbe richiedere ore per essere risolto manualmente, poiché si basa sulla comprensione dei parametri giusti per ogni ambiente.
La maggior parte delle IA si comporta bene con il collegamento tra AppleScript e Chrome. Ma più della metà di esse non sa come trasmettere parametri a Keyboard Maestro.
E di nuovo, wow. Gemini Pro 2.5 ha effettivamente compreso Keyboard Maestro. Ha scritto il codice necessario per trasmettere le variabili correttamente. Ha aggiunto valore controllando gli errori e avvisando l’utente (cosa non richiesta nel prompt) se la variabile non poteva essere impostata.
Inoltre, più avanti nella sezione di spiegazione, ha persino fornito i passaggi necessari per configurare Keyboard Maestro affinché funzioni in questo contesto.
Cattura dello schermo di David Gewirtz/ZDNET
È così, signore e signori, che Gemini Pro 2.5 entra nel ristretto circolo dei vincitori.
Lo sapevamo che sarebbe successo
Era solo una questione di tempo. Google è pieno di persone molto, molto intelligenti. Infatti, è Google che ha dato inizio al boom dell’IA generativa nel 2017 con il suo documento di ricerca “L’attenzione è tutto ciò di cui hai bisogno“.
Bard, Gemini e anche Gemini Advanced hanno fallito miseramente nei miei test di programmazione IA. Ma era solo una questione di tempo prima che l’IA di Google raggiungesse le offerte di OpenAI.
Quel momento è arrivato. Almeno per i miei test di programmazione. Gemini Pro 2.5 è più lento di ChatGPT Plus. ChatGPT Plus risponde quasi istantaneamente. Gemini Pro 2.5 sembra prendere tra 15 secondi e un minuto.
Tuttavia, aspettare qualche secondo per ottenere un risultato preciso e utile è molto più prezioso che ricevere immediatamente risposte errate.
Fonte : www.zdnet.fr