Το Genie 2 της DeepMind μπορεί να δημιουργήσει διαδραστικούς κόσμους

Η DeepMind αποκαλύπτει ένα μοντέλο που δημιουργεί ατελείωτους 3D κόσμους

Η DeepMind, το ερευνητικό τμήμα τεχνητής νοημοσύνης της Google, παρουσίασε πρόσφατα ένα νέο μοντέλο που έχει τη δυνατότητα να δημιουργεί μια “ατελείωτη” ποικιλία παικτικών 3D κόσμων. Το μοντέλο αυτό, με την ονομασία Genie 2, είναι ο διάδοχος του Genie που κυκλοφόρησε νωρίτερα φέτος. Μπορεί να δημιουργήσει μια διαδραστική, σε πραγματικό χρόνο σκηνή από μία μόνο εικόνα και περιγραφή κειμένου, όπως για παράδειγμα “Ένα χαριτωμένο ανθρωποειδές ρομπότ στο δάσος”. Με αυτόν τον τρόπο, μοιάζει με μοντέλα που αναπτύσσονται από την εταιρεία της Fei-Fei Li, World Labs, και την ισραηλινή startup Decart.

Δημιουργία ποικιλίας πλούσιων 3D κόσμων

Η DeepMind υποστηρίζει ότι το Genie 2 μπορεί να δημιουργήσει μια “τεράστια ποικιλία πλούσιων 3D κόσμων”, συμπεριλαμβανομένων κόσμων στους οποίους οι χρήστες μπορούν να εκτελούν ενέργειες όπως άλματα και κολύμπι χρησιμοποιώντας ποντίκι ή πληκτρολόγιο. Εκπαιδευμένο σε βίντεο, το μοντέλο είναι ικανό να προσομοιώνει αλληλεπιδράσεις αντικειμένων, κινούμενα σχέδια, φωτισμό, φυσική, αντανακλάσεις και τη συμπεριφορά των “NPCs”.

Εκπαιδευτικά δεδομένα και νομικές επιπτώσεις

Πολλές από τις προσομοιώσεις του Genie 2 μοιάζουν με παιχνίδια υψηλού επιπέδου, και αυτό μπορεί να οφείλεται στο γεγονός ότι τα δεδομένα εκπαίδευσης του μοντέλου περιλαμβάνουν αναπαραγωγές δημοφιλών τίτλων. Ωστόσο, η DeepMind, όπως και πολλά εργαστήρια τεχνητής νοημοσύνης, δεν αποκαλύπτει πολλές λεπτομέρειες σχετικά με τις μεθόδους απόκτησης δεδομένων της, είτε για ανταγωνιστικούς λόγους είτε για άλλους. Υπάρχουν ερωτήματα σχετικά με τις νομικές επιπτώσεις των πνευματικών δικαιωμάτων. Η DeepMind, ως θυγατρική της Google, έχει απεριόριστη πρόσβαση στο YouTube, και η Google έχει δηλώσει προηγουμένως ότι οι όροι χρήσης της επιτρέπουν τη χρήση βίντεο του YouTube για εκπαίδευση μοντέλων. Ωστόσο, δημιουργεί το Genie 2 μη εξουσιοδοτημένα αντίγραφα των βιντεοπαιχνιδιών που “παρακολούθησε”; Αυτό είναι ένα ζήτημα που θα αποφασίσουν τα δικαστήρια.

Αντιμετώπιση προβλημάτων προσομοίωσης

Η DeepMind αναφέρει ότι το Genie 2 μπορεί να δημιουργεί συνεπείς κόσμους με διαφορετικές προοπτικές, όπως πρώτου προσώπου και ισομετρικές όψεις, για έως και ένα λεπτό, με την πλειοψηφία να διαρκεί 10 έως 20 δευτερόλεπτα. “Το Genie 2 ανταποκρίνεται έξυπνα στις ενέργειες που εκτελούνται με το πάτημα πλήκτρων σε ένα πληκτρολόγιο, αναγνωρίζοντας τον χαρακτήρα και κινούμενο σωστά”, έγραψε η DeepMind σε μια ανάρτηση στο blog της. “Για παράδειγμα, το μοντέλο μας μπορεί να καταλάβει ότι τα πλήκτρα βελών πρέπει να μετακινούν ένα ρομπότ και όχι δέντρα ή σύννεφα”. Τα περισσότερα μοντέλα όπως το Genie 2 — μοντέλα κόσμου, αν θέλετε — μπορούν να προσομοιώνουν παιχνίδια και 3D περιβάλλοντα, αλλά με προβλήματα όπως artifacts, συνέπεια και θέματα που σχετίζονται με παραισθήσεις. Για παράδειγμα, ο προσομοιωτής Minecraft της Decart, Oasis, έχει χαμηλή ανάλυση και γρήγορα “ξεχνά” τη διάταξη των επιπέδων.

Εφαρμογές και προοπτικές του Genie 2

Το Genie 2, ωστόσο, μπορεί να θυμάται μέρη μιας προσομοιωμένης σκηνής που δεν είναι ορατά και να τα αποδίδει με ακρίβεια όταν γίνονται ξανά ορατά. (Τα μοντέλα της World Labs μπορούν να το κάνουν αυτό επίσης.) Τα παιχνίδια που δημιουργούνται με το Genie 2 δεν θα ήταν ιδιαίτερα διασκεδαστικά, δεδομένου ότι θα διαγράφουν την πρόοδό σας κάθε λεπτό ή περίπου. Γι’ αυτό η DeepMind τοποθετεί το μοντέλο περισσότερο ως ένα ερευνητικό και δημιουργικό εργαλείο — ένα εργαλείο για την πρωτοτυπία “διαδραστικών εμπειριών” και την αξιολόγηση πρακτόρων τεχνητής νοημοσύνης.

Συμπεράσματα και μελλοντικές προοπτικές

“Χάρη στις δυνατότητες γενίκευσης εκτός διανομής του Genie 2, η καλλιτεχνική σύλληψη και τα σχέδια μπορούν να μετατραπούν σε πλήρως διαδραστικά περιβάλλοντα”, έγραψε η DeepMind. “Και χρησιμοποιώντας το Genie 2 για να δημιουργήσουμε γρήγορα πλούσια και ποικίλα περιβάλλοντα για πράκτορες τεχνητής νοημοσύνης, οι ερευνητές μας μπορούν να δημιουργήσουν αξιολογητικές εργασίες που οι πράκτορες δεν έχουν δει κατά την εκπαίδευση”. Οι δημιουργοί μπορεί να έχουν ανάμεικτα συναισθήματα — ιδιαίτερα εκείνοι στη βιομηχανία βιντεοπαιχνιδιών. Μια πρόσφατη έρευνα του Wired διαπίστωσε ότι μεγάλοι παίκτες όπως η Activision Blizzard, που έχει απολύσει πολλούς εργαζόμενους, χρησιμοποιούν την τεχνητή νοημοσύνη για να μειώσουν το κόστος, να αυξήσουν την παραγωγικότητα και να αντισταθμίσουν την απώλεια προσωπικού.

Παρόλα αυτά, η Google έχει επενδύσει αυξανόμενους πόρους στην έρευνα μοντέλων κόσμου, η οποία υπόσχεται να είναι το επόμενο μεγάλο πράγμα στην τεχνητή νοημοσύνη. Τον Οκτώβριο, η DeepMind προσέλαβε τον Tim Brooks, ο οποίος ηγείτο της ανάπτυξης του OpenAI’s Sora video generator, για να εργαστεί σε τεχνολογίες παραγωγής βίντεο και προσομοιωτές κόσμου. Και πριν από δύο χρόνια, το εργαστήριο προσέλαβε τον Tim Rocktäschel, γνωστός για τα πειράματά του με την “ανοιχτότητα” σε βιντεοπαιχνίδια όπως το NetHack, από τη Meta.