Η Google κυκλοφόρησε την προεπισκόπηση του Gemini 2.5 Χρήση Υπολογιστή, ένα μοντέλο που έχει σχεδιαστεί για να επιτρέπει στους πράκτορες Τεχνητής Νοημοσύνης να χειρίζονται διεπαφές όπως ένας χρήστης: πλοήγηση, πάτημα κουμπιών ή συμπλήρωση φορμών. Η εταιρεία ανοίγει έτσι την πλατφόρμα σε περισσότερους προγραμματιστές, μέσω Gemini API, μια τεχνολογία που μέχρι τώρα βρισκόταν στα χέρια εσωτερικών αξιολογητών.
Βασισμένο στο Gemini 2.5 Pro, αυτή η προσέγγιση δίνει προτεραιότητα στην άμεση αλληλεπίδραση με το οπτικό περιβάλλον (προγράμματα περιήγησης και, σε ορισμένες περιπτώσεις, διεπαφές για κινητά). Στόχος είναι ο χρήστης να αναθέτει καθημερινές εργασίες χωρίς προγραμματισμό, διατηρώντας παράλληλα τους ελέγχους ασφαλείας και τη χαμηλή καθυστέρηση στις λειτουργίες περιήγησης.
Τι είναι η χρήση υπολογιστή Gemini 2.5 και σε τι χρησιμεύει;
Η πρόταση επικεντρώνεται στο να επιτρέπει σε έναν αντιπρόσωπο να λαμβάνει αποφάσεις και εκτέλεση ενεργειών σε μια διεπαφή σε πραγματικό χρόνο. Σε σύγκριση με την παραδοσιακή ενσωμάτωση API, η Χρήση Υπολογιστή καλύπτει εκείνες τις διαδικασίες όπου υπάρχει μόνο ένα γραφικό περιβάλλον χρήστη: πύλες κρατήσεων, σελίδες με φόρμες ή εσωτερικά πλαίσια με έλεγχο ταυτότητας, παρόμοια με αυτά που διαχειρίζεται το Περιηγητής κομήτη.
Στην πράξη, το μοντέλο μπορεί να Επισκεφθείτε ιστότοπους, πλοηγηθείτε, πληκτρολογήστε κείμενο, κάντε κλικ και σύρετε/αποθέστε στοιχεία. Χειρίζεται επίσης σύνθετα στοιχεία όπως αναπτυσσόμενα μενού, φίλτρα και ροές σύνδεσης, διευκολύνοντας την προσέλκυση υποψήφιων πελατών σε ένα CRM ή την ολοκλήρωση διαδικτυακών διαδικασιών από την αρχή μέχρι το τέλος.
Η Google ευθυγραμμίζει αυτήν την τεχνολογία με τις πρωτοβουλίες των αντιπροσώπων της: αποτελεί βασικό μέρος της Project Mariner και συμπληρώνει την πρόοδο του Έργο AstraΕπιπλέον, παραλλαγές του μοντέλου υποστηρίζουν ήδη τις δυνατότητες των πρακτόρων στο Λειτουργία αναζήτησης τεχνητής νοημοσύνης, ανοίγοντας τον δρόμο για πιο χρήσιμες και ισχυρές αυτοματοποιημένες εμπειρίες.
Σε εσωτερικές και εξωτερικές αξιολογήσεις, συμπεριλαμβανομένων δοκιμών όπως αυτές του Βάση περιήγησης, το σύστημα έχει δείξει υψηλή ακρίβεια ελέγχου του προγράμματος περιήγησης διατηρώντας παράλληλα χαμηλή καθυστέρησηΑυτό ισχύει για αλυσιδωτές εργασίες όπου η ταχύτητα επηρεάζει την εμπειρία του τελικού χρήστη.
Παρόλο που η έμφαση δίνεται στο πρόγραμμα περιήγησης για υπολογιστές, η Google στοχεύει στο κινητές σκηνέςΩστόσο, ο έλεγχος σε επίπεδο λειτουργικού συστήματος επιφάνειας εργασίας δεν εμπίπτει ακόμη στο πεδίο εφαρμογής αυτής της προεπισκόπησης.

Πώς λειτουργεί: είσοδοι, βρόχος ενεργειών και ασφάλεια
Η πρόσβαση γίνεται μέσω του Gemini API στο Google AI Studio και στο Vertex AI, χρησιμοποιώντας το εργαλείο χρήση_υπολογιστήΗ ροή χρησιμοποιεί τρεις βασικές εισόδους: τις οδηγίες του χρήστη, ένα στιγμιότυπο οθόνης του περιβάλλοντος και το ιστορικό πρόσφατων ενεργειών.
Με αυτές τις πληροφορίες, το μοντέλο λόγος για την οπτική κατάσταση και επιστρέφει μια απόκριση που αντιπροσωπεύει την επόμενη ενέργεια του UI (π.χ., κάντε κλικ ή πληκτρολογήστε κείμενο). Ο πελάτης εκτελεί αυτήν την ενέργεια, ενημερώνει την οθόνη και στέλνει το νέο περιβάλλον, κλείνοντας ένα επαναληπτικός βρόχος η οποία επαναλαμβάνεται μέχρι να ολοκληρωθεί η εργασία.
Για ευαίσθητες λειτουργίες—όπως η αποστολή προσωπικών δεδομένων ή η επιβεβαίωση μιας αγοράς—το σύστημα ενδέχεται να αίτημα ρητής επιβεβαίωσης στον χρήστη. Επιπλέον, οι προτεινόμενες ενέργειες υπόκεινται σε εξωτερικός αξιολογητής ασφάλειας που φιλτράρει πιθανώς επιβλαβείς ή ανεπιθύμητες συμπεριφορές.
Αυτή η πολυτροπική προσέγγιση ενσωματώνει κείμενο και εικόνα (συλλήψεις) και υποστηρίζει μακρά ακολουθία ενεργειώνΟ συνδυασμός οπτικής συλλογιστικής και μνήμης προηγούμενων βημάτων σάς επιτρέπει να ξεπεράσετε τις πραγματικές ροές εργασίας με επικυρώσεις, φόρμες υπό όρους και διαδραστικά στοιχεία.
Σύμφωνα με τα demos που κοινοποίησε η Google, οι πράκτορες μπορούν, για παράδειγμα, διαχείριση ραντεβού ανάγνωση δεδομένων από έναν ιστότοπο, φιλτράρισμα κατά τοποθεσία, συμπλήρωση ενός CRM και προγραμματισμός μιας χρονικής περιόδου· ή ερμηνεύω έναν πίνακα ανακοινώσεων και να το αναδιοργανώσετε σε προκαθορισμένες κατηγορίες, δείχνοντας την ικανότητα κατανόησης του οπτικού πλαισίου.

Τρέχουσες περιπτώσεις χρήσης, πρόσβαση και περιορισμοί
Για τις ομάδες προϊόντων και λειτουργιών, η Χρήση Υπολογιστή επιτρέπει αυτοματισμοί χωρίς κώδικα σε εργασίες όπως η εγγραφή πελατών, η επαλήθευση δεδομένων μεταξύ πλατφορμών ή η ενημέρωση αποθεμάτων σε πολλαπλές τοποθεσίες. Κατά την ανάπτυξη, είναι χρήσιμο για δοκιμή διεπαφής, επικύρωση ροής και ταχεία πρωτοτυποποίηση πρακτόρων.
Η δημόσια προεπισκόπηση είναι διαθέσιμη στη διεύθυνση Google AI Studio (δοκιμή και ανάπτυξη) και Vertex AI (εταιρικές αναπτύξεις), εκτός από το Gemini API για προσαρμοσμένες ενσωματώσεις. Αυτό διευκολύνει τις ελεγχόμενες αξιολογήσεις πριν από την έναρξη της παραγωγής της τεχνολογίας.
Η Google επισημαίνει πλεονεκτήματα όπως μείωση του λειτουργικού κόστους μέσω αυτοματισμού, βελτιωμένης επεκτασιμότητας και απελευθέρωσης χρόνου για εργασίες υψηλότερης αξίας. Ταυτόχρονα, να θυμάστε ότι πρόκειται για μια έκδοση προεπισκόπησης: ενδέχεται να υπάρχουν σφάλματα και περιορισμοί σε ορισμένα περιβάλλοντα ή στοιχεία UI.
Όσον αφορά την αυτονομία, το μοντέλο είναι βελτιστοποιημένο για πρόγραμμα περιήγησης και εξετάζει σενάρια για κινητά, αν και αυτή η τελευταία περιοχή μπορεί να παρουσιάζει περιορισμούς ανάλογα με τη διεπαφή. έλεγχος λειτουργικού συστήματος Η έκδοση για υπολογιστές δεν περιλαμβάνεται προς το παρόν στην επίσημη υποστήριξη.
Στο πλαίσιο του τομέα, η Google ανταγωνίζεται λύσεις από μεσίτες ακινήτων. OpenAI o ΑνθρωπικόςΗ προσέγγιση της Χρήσης Υπολογιστών, που επικεντρώνεται στην οπτική συλλογιστική, τους βρόχους δράσης και τις διασφαλίσεις, επιδιώκει να προσφέρει μια ισορροπία μεταξύ της ικανότητας αυτοματισμού και ασφάλεια χρήστηΥπάρχουν επίσης προτάσεις τρίτων, όπως π.χ. Πρόγραμμα περιήγησης OpenAI που εξερευνούν ολοκληρωμένους πράκτορες.

Η γενική φωτογραφία που αφήνει η ανακοίνωση είναι αυτή ενός πιο προσβάσιμος αυτοματισμός για διαδικασίες που υπάρχουν μόνο ως οπτική διεπαφή, με σαφή έμφαση στον έλεγχο, την ακρίβεια και τις διασφαλίσεις. Όποιος χρειάζεται να το δοκιμάσει μπορεί να το κάνει τώρα από το AI Studio ή το Vertex AI, έχοντας κατά νου ότι πρόκειται για ένα προεπισκόπηση και ότι η δυνατότητα χειρισμού του λειτουργικού συστήματος για επιτραπέζιους υπολογιστές δεν είναι ακόμη διαθέσιμη.