Το DiffusionGemma της Google DeepMind τρέχει τοπική τεχνητή νοημοσύνη 4 φορές πιο γρήγορα

Το DiffusionGemma της Google DeepMind προσφέρει επιτάχυνση έως 4 φορές στην παραγωγή κειμένου χρησιμοποιώντας τεχνικές diffusion που παράγουν ολόκληρα μπλοκ κειμένου παράλληλα. Το 26 δισεκατομμυρίων παραμέτρων μοντέλο μπορεί να τρέξει σε consumer GPUs, ανοίγοντας νέες δυνατότητες για τοπική AI.

Το DiffusionGemma της Google DeepMind είναι μια νέα προσέγγιση στην παραγωγή κειμένου με τεχνητή νοημοσύνη, η οποία προσφέρει επιτάχυνση έως και 4 φορές σε σύγκριση με τα παραδοσιακά μοντέλα. Αντί να παράγει κείμενο διαδοχικά, σαν να γράφει από αριστερά προς τα δεξιά, το DiffusionGemma μπορεί να δημιουργήσει ολόκληρα μπλοκ κειμένου παράλληλα, χρησιμοποιώντας τεχνικές που έχουν γίνει δημοφιλείς στην παραγωγή εικόνων.

Πώς λειτουργεί το DiffusionGemma

Τα περισσότερα μοντέλα τεχνητής νοημοσύνης είναι αυτοπαλινδρομικά (autoregressive), δηλαδή παράγουν κείμενο έναν-έναν τους τοκένους. Το DiffusionGemma λειτουργεί διαφορετικά: ξεκινάει από ένα «θόρυβο» τοκένων και στη συνέχεια τον «αποθορυβοποιεί» για να δημιουργήσει το επιθυμητό περιεχόμενο. Η διαδικασία αυτή γίνεται παράλληλα για πολλά τοκένα ταυτόχρονα, με αποτέλεσμα την παραγωγή ολόκληρων μπλοκ κειμένου σε μια μόνο διεργασία.

Το μοντέλο έχει συνολικά 26 δισεκατομμύρια παραμέτρους, αλλά μόνο 3,8 δισεκατομμύρια ενεργοποιούνται κατά τη διάρκεια της συμπερασματολογίας (inference). Αυτό σημαίνει ότι μπορεί να τρέξει σε έναν GPU με 18GB RAM, όπως ο RTX 5090, όπου παράγει περίπου 700 τοκένα ανά δευτερόλεπτο. Σε έναν Nvidia H100 AI accelerator, η ταχύτητα φθάνει τα 1.000+ τοκένα ανά δευτερόλεπτο.

Τα πλεονεκτήματα της παράλληλης επεξεργασίας

Η κύρια καινοτομία του DiffusionGemma έγκειται στην ικανότητά του να παράγει μέχρι 256 τοκένα παράλληλα. Αυτό μεταφέρει το κύριο μπλοκαρισμα από το εύρος ζώνης της μνήμης στην υπολογιστική ισχύ, προσφέροντας σημαντικά πλεονεκτήματα σε εργασίες όπως:

Επεξεργασία κειμένου σε πραγματικό χρόνο
Ακολουθία μοριακής δομής
Μαθηματική γραφική παράσταση
Επίλυση προβλημάτων όπως το Sudoku

Το μοντέλο έχει ρυθμιστεί ειδικά για να λύνει Sudoku, μια εργασία που είναι ιδιαίτερα δύσκολη για τα συμβατικά μοντέλα λόγω της αλληλεξάρτησης των τοκένων.

Γιατί δεν χρησιμοποιείται στα κλασικά μοντέλα Gemini;

Παρόλο που η τεχνολογία diffusion είναι ταχύτερη, η Google δεν την χρησιμοποιεί στα κύρια μοντέλα Gemini του συνόλου λόγω ορισμένων περιορισμών:

Υψηλότερο ποσοστό σφαλμάτων: Σε αντίθεση με τις εικόνες, όπου ένα λάθος εικονοστοιχείο δεν καταστρέφει την όλη εικόνα, στα γλωσσικά μοντέλα ένα λανθασμένο τοκέν μπορεί να καταστήσει ολόκληρο το μπλοκ κειμένου ανούσιο.
Αναποτελεσματικότητα σε σύντομες απαντήσεις: Για πολύ σύντομες εκφράσεις (π.χ. 5 τοκένα), τα diffusion μοντέλα κάνουν πολλή περισσότερη παράλληλη εργασία από όση χρειάζεται.

Εφαρμογές και διαθεσιμότητα

Το DiffusionGemma είναι διαθέσιμο με την ίδια άδεια Apache 2.0 με τα άλλα μοντέλα Gemma της τέταρτης γενιάς. Η Google συνεργάστηκε με την Nvidia για να βελτιστοποιήσει το μοντέλο για διάφορες πλατφόρμες, συμπεριλαμβανομένων:

Υψηλής απόδοσης GPU τύπου RTX (με κβαντισμό)
Επαγγελματικά συστήματα όπως το H100
Πλατφόρμα DGX Spark

Η τεχνολογία αυτή αντιπροσωπεύει μια σημαντική εξέλιξη για την τοπική εκτέλεση τεχνητής νοημοσύνης, καθιστώντας δυνατή την εκτέλεση προηγμένων μοντέλων AI σε προσωπικούς υπολογιστές και συσκευές με περιορισμένους πόρους.

Η σημασία για το μέλλον

Η προσέγγιση του DiffusionGemma δείχνει ότι υπάρχει ακόμα χώρος για καινοτομία στην αρχιτεκτονική των μοντέλων τεχνητής νοημοσύνης. Ενώ τα cloud-based συστήματα μπορούν να επωφεληθούν από την ομαδοποίηση πολλών αιτημάτων, η τοπική AI αντιμετωπίζει διαφορετικές προκλήσεις όπου η αποτελεσματικότητα της παράλληλης επεξεργασίας μπορεί να κάνει τη διαφορά.

Παράλληλα, η Google εξερευνά και άλλες τεχνικές βελτιστοποίησης, όπως η Multi-Token Prediction (MTP), αλλά το DiffusionGemma παραμένει το ταχύτερο από όλα τα μοντέλα της οικογένειας Gemma.

Το DiffusionGemma είναι ακόμα σε πειραματικό στάδιο, αλλά η διαθεσιμότητά του ως ανοιχτό μοντέλο δημιουργεί νέες δυνατότητες για developers και ερευνητές που θέλουν να πειραματιστούν με προηγμένες τεχνικές παραγωγής κειμένου.