Το Gemini 2.5 της Google μαθαίνει να “χρησιμοποιεί τον υπολογιστή” όπως ένας

Το νέο μοντέλο της Google εκτελεί ενέργειες μέσα από πραγματικούς browsers — φέρνοντας την εποχή των πλήρως “πρακτόρικων” AI ένα βήμα πιο κοντά

Η Google παρουσίασε την έκδοση Gemini 2.5, ένα προηγμένο μοντέλο τεχνητής νοημοσύνης που μπορεί πλέον να χρησιμοποιεί τον ιστό όπως ένας άνθρωπος — όχι απλώς ανακτώντας δεδομένα μέσω APIs, αλλά αλληλεπιδρώντας απευθείας με ιστοσελίδες: πληκτρολογεί, κάνει κλικ, υποβάλλει φόρμες, μετακινεί αντικείμενα και πλοηγείται μέσα σε περίπλοκες διεπαφές χρήστη.

Σύμφωνα με δημοσίευμα του The Verge, αυτή η λειτουργία, που ονομάζεται “Computer Use”, επιτρέπει στο μοντέλο να εκτελεί πολύπλοκες εργασίες σε πραγματικά περιβάλλοντα διαδικτύου, μεταμορφώνοντας ουσιαστικά τον τρόπο με τον οποίο τα AI μπορούν να χειρίζονται εφαρμογές, πλατφόρμες και εργαλεία στο διαδίκτυο. (The Verge)

Ένα βήμα πέρα από τα APIs

Μέχρι σήμερα, τα περισσότερα μεγάλα γλωσσικά μοντέλα (LLMs) όπως το Gemini, το GPT-5 ή το Claude, βασίζονταν αποκλειστικά σε APIs για να συνδεθούν με υπηρεσίες. Αυτό περιόριζε τη λειτουργικότητά τους σε περιπτώσεις όπου δεν υπήρχαν διαθέσιμα APIs ή όταν οι διεπαφές ήταν πολύπλοκες.

Το Gemini 2.5 αλλάζει το παιχνίδι: η νέα δυνατότητα τού επιτρέπει να “βλέπει” τη σελίδα όπως ο άνθρωπος, να καταλαβαίνει την οπτική διάταξη, και να χειρίζεται κουμπιά, πεδία και μενού μέσω φυσικών ενεργειών ποντικιού και πληκτρολογίου. Με αυτόν τον τρόπο, μπορεί να εκτελεί εργασίες όπως:

Συμπλήρωση και υποβολή online φορμών
Διαχείριση λογαριασμών σε web εφαρμογές
Ανέβασμα αρχείων ή δημιουργία αναφορών
Επικοινωνία με συστήματα χωρίς διαθέσιμα APIs

Η γέφυρα ανάμεσα σε agentic AI και πραγματικό κόσμο

Η λειτουργία “Computer Use” θεωρείται ένα από τα μεγαλύτερα βήματα προς την πρακτόρικη τεχνητή νοημοσύνη (agentic AI) — δηλαδή την ικανότητα ενός μοντέλου να αναλαμβάνει αυτόνομα στόχους, να σχεδιάζει βήματα και να τα εκτελεί μέσω ψηφιακών εργαλείων.

Αντί να περιμένει εντολές, το AI μπορεί πλέον να δράσει: να ανοίξει το Gmail, να αναζητήσει ένα αρχείο, να ενημερώσει ένα υπολογιστικό φύλλο στο Google Sheets ή να δημοσιεύσει μια ανάρτηση σε CMS — όπως θα έκανε ένας άνθρωπος.

Αυτό το επίπεδο “ευφυούς αυτονομίας” αποτελεί το κρίσιμο στοιχείο για τη μετάβαση από τα σημερινά chatbot σε πραγματικούς ψηφιακούς βοηθούς εργασίας.

Πραγματικές επιπτώσεις σε επιχειρήσεις και χρήστες

Η δυνατότητα αυτή ανοίγει τεράστιες προοπτικές:

Αυτοματισμοί χωρίς κώδικα: Το AI μπορεί να εκτελεί ενέργειες σε web apps χωρίς ανάγκη για ειδικά integrations.
Υποστήριξη πελατών και back-office: Μπορεί να χειρίζεται CRM, ERP ή ticketing πλατφόρμες όπως Zendesk, Salesforce ή Jira.
Διαχείριση δεδομένων: Αντί να ζητά πρόσβαση στη βάση, το AI “μπαίνει” στο interface και εκτελεί ενέργειες με ανθρώπινο τρόπο.
Εκπαίδευση και accessibility: Άτομα με κινητικά προβλήματα μπορούν να “οδηγούν” το AI ώστε να αλληλεπιδρά εκείνο με τον υπολογιστή.

Με αυτόν τον τρόπο, η Google δημιουργεί έναν καθολικό αυτοματιστή εργασιών, ικανό να λειτουργεί οπουδήποτε υπάρχει browser.

Τεχνολογικές προκλήσεις και ασφάλεια

Η νέα δυνατότητα εγείρει, ωστόσο, σημαντικά ζητήματα ασφαλείας και ελέγχου. Εφόσον το μοντέλο μπορεί να “χειρίζεται” τον υπολογιστή, πρέπει να υπάρχουν αυστηρά όρια:

Ποια δεδομένα επιτρέπεται να βλέπει ή να επεξεργάζεται;
Μπορεί να εκτελέσει ενέργειες χωρίς επιβεβαίωση;
Πώς διασφαλίζεται ότι δεν θα κάνει κλικ ή υποβολές σε κακόβουλες σελίδες;

Η Google αναφέρει ότι το Gemini 2.5 θα λειτουργεί σε “sandboxed” περιβάλλοντα, με ρητή ανθρώπινη έγκριση για κάθε ευαίσθητη ενέργεια, προκειμένου να αποφευχθεί κάθε κατάχρηση.

Ο δρόμος προς τα “AI εργαλεία εργασίας”

Η εξέλιξη αυτή φέρνει το οικοσύστημα Gemini πιο κοντά στο όραμα των AI agents που αναλαμβάνουν ρόλους μέσα σε οργανισμούς — από “AI executive assistants” έως “digital operators” που αυτοματοποιούν καθημερινές εργασίες γραφείου.

Επιπλέον, συνδέεται με το ευρύτερο σχέδιο της Google να ενοποιήσει το Gemini με το Workspace, επιτρέποντας σε εργαζόμενους να συνδυάζουν φυσική γλώσσα και πράξεις: “γράψε, υπέβαλε, αποθήκευσε, στείλε”.

Το ευρύτερο πλαίσιο του ανταγωνισμού

Η κυκλοφορία του Gemini 2.5 έρχεται σε μια περίοδο έντονου ανταγωνισμού:

Το OpenAI ετοιμάζει αντίστοιχη λειτουργία “Browser Actions” για το GPT-5.
Η Anthropic εργάζεται πάνω σε “autonomous tools orchestration” μέσω του Claude 3.5.
Η Meta πειραματίζεται με “AI personas” που χειρίζονται social accounts.

Ωστόσο, το πλεονέκτημα της Google έγκειται στο γεγονός ότι έχει τον πλήρη έλεγχο του Chrome και του Android, κάτι που επιτρέπει στο Gemini να λειτουργεί πιο φυσικά και ασφαλώς μέσα στα οικοσυστήματά της.

Τι σημαίνει αυτό για το μέλλον

Το Gemini 2.5 δεν είναι απλώς ένα ακόμα μοντέλο· είναι ένα νέο interface μεταξύ ανθρώπων και υπολογιστών. Όπως κάποτε τα γραφικά περιβάλλοντα αντικατέστησαν τις εντολές DOS, έτσι και τώρα τα AI-driven interfaces ετοιμάζονται να αντικαταστήσουν το ποντίκι και το πληκτρολόγιο με φυσική γλώσσα και προθέσεις.

Η τεχνολογία αυτή γεφυρώνει το χάσμα ανάμεσα στην τεχνητή νοημοσύνη και τα πραγματικά εργαλεία του διαδικτύου — φέρνοντας πιο κοντά μια εποχή όπου τα συστήματα AI δεν απαντούν απλώς, αλλά δρουν.