Η Anthropic λανσάρει το Claude Opus 4.6 για enterprise

Νέο Μοντέλο Τεχνητής Νοημοσύνης της Anthropic στοχεύει στον Κώδικα και την Επιχειρηματική Εργασία

Η Anthropic, μια εταιρεία τεχνητής νοημοσύνης με έδρα το Σαν Φρανσίσκο, παρουσίασε το Claude Opus 4.6, ένα νέο μοντέλο που στοχεύει να επεκτείνει τις εφαρμογές του πέρα από την ανάπτυξη λογισμικού σε ευρύτερες επιχειρηματικές εφαρμογές. Το νέο μοντέλο εισάγει ένα παράθυρο συμφραζομένων ενός εκατομμυρίου tokens και δυνατότητες αυτοματοποιημένου συντονισμού πρακτόρων. Σύμφωνα με την εταιρεία, το Opus 4.6 βελτιώνει την απόδοση σε εργασίες κωδικοποίησης, χρηματοοικονομικής ανάλυσης και επεξεργασίας εγγράφων σε σύγκριση με τον προκάτοχό του. Η κίνηση αυτή ενισχύει τη θέση της Anthropic στις επιχειρηματικές ροές εργασίας τεχνητής νοημοσύνης, σε μια αγορά που γίνεται όλο και πιο ανταγωνιστική, με άμεσους ανταγωνιστές όπως η OpenAI και η Google. “Εστιάζουμε στη δημιουργία των πιο ικανών, αξιόπιστων και ασφαλών συστημάτων τεχνητής νοημοσύνης”, δήλωσε εκπρόσωπος της Anthropic. “Το Opus 4.6 είναι ακόμα καλύτερο στον προγραμματισμό, βοηθώντας στην επίλυση των πιο σύνθετων εργασιών κωδικοποίησης.”

Επέκταση Συμφραζομένων και Συντονισμός Πρακτόρων

Το Opus 4.6 υποστηρίζει μέχρι και ένα εκατομμύριο tokens συμφραζομένων σε beta στην πλατφόρμα ανάπτυξης της Anthropic, μια σημαντική αύξηση από το όριο των 200.000 tokens των προηγούμενων εκδόσεων Opus. Αυτή η επέκταση επιτρέπει στο μοντέλο να επεξεργάζεται μεγαλύτερες βάσεις κώδικα και μακρύτερα έγγραφα χωρίς να χρειάζεται να διαχωρίζει τις εργασίες σε πολλαπλά αιτήματα. Η εταιρεία εισήγαγε επίσης ομάδες πρακτόρων στο Claude Code ως προεπισκόπηση έρευνας, επιτρέποντας σε πολλαπλούς πράκτορες τεχνητής νοημοσύνης να εργάζονται ταυτόχρονα σε τμηματοποιημένα μέρη ενός έργου. Ο Scott White, επικεφαλής προϊόντων της Anthropic, συνέκρινε αυτή τη δυνατότητα με τον συντονισμό μιας ανθρώπινης ομάδας που εργάζεται παράλληλα. Το Opus 4.6 αντιμετωπίζει επίσης την υποβάθμιση των συμφραζομένων, ένα κοινό πρόβλημα όπου η απόδοση της τεχνητής νοημοσύνης μειώνεται καθώς οι συνομιλίες παρατείνονται. Σε ένα benchmark ανάκτησης που κρύβει πληροφορίες σε μεγάλους όγκους κειμένου, το Opus 4.6 σημείωσε 76% σε σύγκριση με το 18.5% του μοντέλου Sonnet 4.5.

Απόδοση Benchmark και Προσαρμοστική Σκέψη

Η Anthropic ανέφερε ότι το Opus 4.6 ηγείται στο Terminal-Bench 2.0, μια αξιολόγηση πρακτόρων τεχνητής νοημοσύνης που ολοκληρώνουν εργασίες γραμμής εντολών, με βαθμολογία 65.4% υπό μέγιστες ρυθμίσεις προσπάθειας. Το δημόσιο leaderboard του έργου Terminal-Bench δείχνει ξεχωριστές καταχωρήσεις για το Opus 4.6, με βαθμολογία 62.9% υπό μια διαμόρφωση. Στο GDPval-AA, ένα benchmark που μετρά την απόδοση σε επαγγελματικές εργασίες σε τομείς όπως η χρηματοοικονομική, η νομική και άλλοι, η Anthropic ανέφερε ότι το Opus 4.6 υπερέχει του GPT-5.2 της OpenAI κατά περίπου 144 μονάδες Elo, ένα χάσμα που αντιστοιχεί σε περίπου 70% ποσοστό νίκης σε άμεσες συγκρίσεις. Η Artificial Analysis, που διατηρεί το leaderboard του GDPval-AA, περιγράφει το πλαίσιο αξιολόγησης στην τεκμηρίωση της μεθοδολογίας της.

Δοκιμές Ασφάλειας και Μέτρα Κυβερνοασφάλειας

Η Anthropic δήλωσε ότι το Opus 4.6 υποβλήθηκε σε εκτεταμένες αξιολογήσεις ασφάλειας, συμπεριλαμβανομένων δοκιμών για εξαπάτηση, κολακεία και συνεργασία με πιθανή κακή χρήση. Η κάρτα συστήματος της εταιρείας αναφέρει ότι το μοντέλο παρουσίασε χαμηλά ποσοστά προβληματικών συμπεριφορών ενώ πέτυχε το χαμηλότερο ποσοστό υπερβολικών αρνήσεων μεταξύ των πρόσφατων μοντέλων Claude. Η εταιρεία ανέπτυξε έξι διερευνητικές δοκιμές κυβερνοασφάλειας για την ανίχνευση επιβλαβών χρήσεων των ενισχυμένων δυνατοτήτων του μοντέλου. Η Anthropic δήλωσε ότι χρησιμοποιεί το Opus 4.6 για την αναγνώριση και την επιδιόρθωση ευπαθειών σε λογισμικό ανοιχτού κώδικα ως μέρος των αμυντικών προσπαθειών κυβερνοασφάλειας. “Οι πράκτορες έχουν τεράστιες δυνατότητες για θετικές επιπτώσεις στην εργασία, αλλά είναι σημαντικό να συνεχίσουν να είναι ασφαλείς, αξιόπιστοι και αξιόπιστοι”, δήλωσε ο εκπρόσωπος, αναφερόμενος σε ένα πλαίσιο που δημοσίευσε η Anthropic, το οποίο περιγράφει τις βασικές αρχές για την ανάπτυξη πρακτόρων.

Ενσωματώσεις Προϊόντων και Τιμολόγηση

Η Anthropic κυκλοφόρησε το Claude στο PowerPoint ως προεπισκόπηση έρευνας για συνδρομητές με πληρωμή, βασισμένη στις υπάρχουσες ενσωματώσεις με το Excel. Το εργαλείο PowerPoint διαβάζει διατάξεις, γραμματοσειρές και πρότυπα διαφανειών για να δημιουργεί παρουσιάσεις, ανέφερε η εταιρεία. Ο White δήλωσε ότι η Anthropic έχει παρατηρήσει τη χρήση του Claude Code να επεκτείνεται πέρα από τους μηχανικούς λογισμικού σε διαχειριστές προϊόντων, χρηματοοικονομικούς αναλυτές και εργαζόμενους σε άλλους τομείς. Η εταιρεία ανέφερε αναπτύξεις σε εταιρείες όπως η Uber, η Salesforce, η Accenture, η Spotify και άλλες επιχειρήσεις. Το Opus 4.6 είναι διαθέσιμο στο claude.ai και μέσω του Claude API με το αναγνωριστικό claude-opus-4-6. Η τιμολόγηση παραμένει στα $5 ανά εκατομμύριο εισερχόμενα tokens και $25 ανά εκατομμύριο εξερχόμενα tokens. Η premium τιμολόγηση των $10 ανά εκατομμύριο εισερχόμενα tokens και $37.50 ανά εκατομμύριο εξερχόμενα tokens εφαρμόζεται όταν οι προτροπές υπερβαίνουν τα 200.000 tokens χρησιμοποιώντας το παράθυρο συμφραζομένων ενός εκατομμυρίου tokens. Το μοντέλο είναι επίσης διαθέσιμο μέσω του Amazon Bedrock και του Google Cloud Vertex AI.

Συμπέρασμα: Η Ανάπτυξη της Anthropic και το Μέλλον της Τεχνητής Νοημοσύνης

Η κυκλοφορία του Opus 4.6 από την Anthropic σηματοδοτεί ένα σημαντικό βήμα προς τα εμπρός στην ανάπτυξη τεχνητής νοημοσύνης για επιχειρηματικές εφαρμογές. Με την εισαγωγή καινοτόμων χαρακτηριστικών όπως το εκτεταμένο παράθυρο συμφραζομένων και ο συντονισμός πρακτόρων, η Anthropic επιδιώκει να διαφοροποιηθεί σε μια ανταγωνιστική αγορά. Η δέσμευση της εταιρείας για ασφάλεια και αξιοπιστία, σε συνδυασμό με τις ενσωματώσεις προϊόντων και την προσιτή τιμολόγηση, την καθιστούν έναν σημαντικό παίκτη στον τομέα της τεχνητής νοημοσύνης. Καθώς η αγορά συνεχίζει να εξελίσσεται, η Anthropic φαίνεται έτοιμη να διαδραματίσει έναν κρίσιμο ρόλο στη διαμόρφωση του μέλλοντος της τεχνητής νοημοσύνης.