Η Google DeepMind παρουσίασε το Veo 3.1, μια εκδοχή του μοντέλου δημιουργίας βίντεο που βελτιώνει το... μετατροπή εικόνων σε κλιπ, τήρηση οδηγιών και, ως βασική καινοτομία, η δημιουργία ολοκληρωμένου ήχου. Η προσέγγιση στοχεύει στη βελτιστοποίηση των διαδικασιών παραγωγής για όσους απαιτούν πιο προβλέψιμα και ελεγχόμενα αποτελέσματα.
Το μοντέλο μπορεί να χρησιμοποιηθεί από το Flow, το Gemini API, το Vertex AI και την εφαρμογή Gemini, με έναν κατάλογο εργαλείων που δίνει έμφαση στο χρησιμότητα για δημιουργούς Πέρα από μια απλή τεχνική επίδειξη, η Google αναφέρει ότι ο στόχος είναι ο χρήστης να κατευθύνει με ακρίβεια τα αποτελέσματα χωρίς να χάσει τη ροή εργασίας.
Κύρια νέα
Η μεγάλη συμβολή του Veo 3.1 είναι η συγχρονισμένος εγγενής ήχος καθ' όλη τη διάρκεια της ροής εργασίας επεξεργασίας. Το σύστημα δημιουργεί φωνές, ατμόσφαιρα και εφέ ευθυγραμμισμένα με την εικόνα χωρίς πρόσθετα βήματα μετά την παραγωγή, κάτι που προηγουμένως περιλάμβανε σιωπηλά λειτουργίες όπως Συστατικά σε Βίντεο, Πλαίσια σε Βίντεο και Επέκταση.
Για να επιτευχθεί αυτό, το μοντέλο χρησιμοποιεί μια αρχιτεκτονική που επεξεργάζεται από κοινού οπτικά και ηχητικά σήματα, έτσι ώστε το ο ήχος αναδύεται από το πλαίσιο περιγράφεται από την προτροπή και τις παραπομπές. Το αποτέλεσμα είναι κλιπ έτοιμα για δημοσίευση ή βελτίωση, με μια συνεκτική ηχητική βάση από την πρώτη απόδοση.
Πέρα από τον ήχο, η Google ισχυρίζεται ότι έχει σημειώσει πρόοδο στον τομέα τήρηση σύνθετων οδηγιών (πολλαπλά αντικείμενα, συγκεκριμένες ενέργειες, καθορισμένα στυλ) και συνέπεια χαρακτήρων σε διαδοχικά καρέ, μειώνοντας τις ανεπιθύμητες αλλαγές.
Εργαλεία και ροές εργασίας

Τα συστατικά για ένα βίντεο σάς επιτρέπουν να ανεβάσετε έως και τρεις εικόνες αναφοράς για να δημιουργήσουν χαρακτήρες, αντικείμενα ή αισθητική. Το Flow χρησιμοποιεί αυτά τα «συστατικά» ως οδηγό για τη σύνθεση σκηνών με οπτική συνέχεια και, τώρα, ενσωματωμένο ήχο.
Η λειτουργία "Καρέ σε βίντεο" δημιουργεί τη μετάβαση μεταξύ ενός καρέ έναρξης και ενός καρέ λήξης που επιλέγει ο χρήστης. Αυτή η λειτουργία είναι χρήσιμη για ελεγχόμενες αλλαγές σκηνικού, μουσικά κομμάτια ή αφηγηματικές ακολουθίες με σαφή σημεία αναφοράς.
Ο επεκτατήρας δημιουργεί μεγαλύτερα κλιπ με βάση διαδοχικές επεκτάσεις, που υπερβαίνουν το ένα λεπτό με αφηγηματική συνοχήΚάθε επέκταση χρησιμοποιεί το τελευταίο δευτερόλεπτο του προηγούμενου κλιπ ως αναφορά, διατηρώντας την οπτική και ακουστική συνέχεια.
Η εισαγωγή προσθέτει νέα στοιχεία μέσα σε ένα ήδη δημιουργημένο σχέδιο, διαχειριζόμενη αυτόματα σκιές, φωτισμός και αποκρύψεις για να τα ενσωματώσετε φυσικά. Η διαγραφή, η οποία θα γίνει αργότερα, θα σας επιτρέψει να αφαιρέσετε αντικείμενα ή χαρακτήρες και να αναδημιουργήσετε το φόντο χωρίς να ξαναδημιουργήσετε ολόκληρο το βίντεο.
Προδιαγραφές και λειτουργίες
Το Veo 3.1 παράγει βασικές ακολουθίες περίπου 8 δευτερόλεπτα στα 1080p και 24 FPS, με υποστήριξη για 16:9 και κάθετη αναλογία 9:16. Η διάρκεια μπορεί να παραταθεί με διαδοχικές επεκτάσεις, διατηρώντας τη χρονική συνέχεια.
Το μοντέλο προσφέρει δύο τρόπους χρήσης: ποιότητα, με μεγαλύτερη πιστότητα και μεγαλύτερους χρόνους επεξεργασίας, και Γρήγορα, σχεδιασμένο για γρήγορη επανάληψη κατά τη φάση της δημιουργικότητας.
Διαθεσιμότητα και τιμές
Η πρόσβαση διαρθρώνεται ανά επίπεδα συνδρομής με ένα σύστημα πιστώσειςΤο δωρεάν πρόγραμμα προσφέρει 100 μηνιαίες μονάδες. Το Google AI Pro (19,99 $/μήνα) περιλαμβάνει 1.000 μονάδες και πρόσβαση στη Γρήγορη λειτουργία και το Google AI Ultra (249,99 $/μήνα) παρέχει 25.000 μονάδες και πλήρη πρόσβαση.
Το Veo 3.1 είναι διαθέσιμο μέσω Ροή για τους συνδρομητές, στο Gemini API για προγραμματιστές, σε Vertex AI για εταιρείες και στο Εφαρμογή Gemini για το ευρύ κοινό, με ανάπτυξη ανά αγορά.
Απόδοση και βελτιώσεις
Σε εσωτερικές δοκιμές, η νέα έκδοση παρουσιάζει αισθητή αύξηση στο πιστότητα στην προτροπή, ειδικά όταν υπάρχουν πολλά αντικείμενα ή ακριβείς φυσικές οδηγίες (βαρύτητα, συγκρούσεις, υλικά). Υπάρχει επίσης καλύτερη κατανόηση των χαρακτηριστικών του προσώπου και των αρχιτεκτονικών λεπτομερειών κατά τη μετατροπή από εικόνα σε βίντεο.
Η συνοχή των χαρακτήρων βελτιώνεται με λιγότερες ανεπιθύμητες παραλλαγές (μάτια, αναλογίες ή γκαρνταρόμπα). Επιπλέον, το φυσικό μοντέλο αντικατοπτρίζει πιο πιστά την αλληλεπίδραση με το περιβάλλον, κάτι που βοηθά σε σύνθετες σκηνές.
Γνωστοί περιορισμοί

Όπως και με άλλες γεννήτριες βίντεο, ενδέχεται να υπάρχουν αντικείμενα σε γρήγορες κινήσεις ή πολύ απαιτητικές μεταβάσεις. Ο συγχρονισμός των χειλιών, αν και καλύτερος, μερικές φορές απαιτεί χειροκίνητες ρυθμίσεις για πλήρως επαγγελματικά αποτελέσματα.
Το πιστωτικό σύστημα μπορεί να είναι ακριβό σε μεγάλες ποσότητες παραγωγή, και η δωρεάν βαθμίδα δεν επαρκεί για εντατικές ροές εργασίας. Όλα τα κλιπ περιλαμβάνουν ένα ορατό υδατογράφημα και ενσωματωμένο SynthID ανά καρέ για να διασφαλιστεί η ιχνηλασιμότητα.
Πρακτικές χρήσεις
Στην τεχνολογία ή την κάλυψη βιντεοπαιχνιδιών, το Veo 3.1 διευκολύνει επιδείξεις, οπτικοποιήσεις και εξηγήσεις χωρίς να χρειάζεται να χρησιμοποιηθούν κινηματογραφικά συνεργεία. Στο μάρκετινγκ, επιταχύνει τη δημιουργία πρωτοτύπων ιδεών και μειώνει τα βήματα ήχου στη βασική μετα-παραγωγή.
Για την εκπαίδευση, τα πλαίσια και οι λειτουργίες επέκτασης βοηθούν στην κίνηση διεργασιών, αναδημιουργούν ιστορικές περιόδους ή απεικονίζουν επιστημονικές έννοιες με κατευθυνόμενες μεταβάσεις μεταξύ καταστάσεων.
Οδικός χάρτης
Η Google σχεδιάζει να συνεχίσει να επαναλαμβάνει τις αλλαγές με βάση την πραγματική χρήση. Η λειτουργία αφαίρεση θα ολοκληρώσει τη σουίτα μη καταστροφικής επεξεργασίας στο Flow, ενώ οι μελλοντικές εργασίες θα επικεντρωθούν στη μείωση των τεχνουργημάτων, στη βελτιστοποίηση του συγχρονισμού lip-s και στην επέκταση της μέγιστης διάρκειας χωρίς απώλεια συνέπειας.
Η βαθύτερη ενσωμάτωση είναι επίσης στο τραπέζι. Gemini, Workspace και YouTube, εκτός από πιθανές εξειδικευμένες λειτουργίες (κινούμενα σχέδια, φωτορεαλισμός ή καλλιτεχνικά στυλ) προσαρμοσμένες στις συγκεκριμένες ανάγκες του προφίλ κάθε δημιουργού.
Το Veo 3.1 τοποθετείται ως μια εξέλιξη που επικεντρώνεται στην καθημερινή παραγωγή: ενσωματωμένος ήχος Από την πρώτη απόδοση, εργαλεία για τη διαχείριση του αποτελέσματος και καλύτερος χειρισμός της συνέπειας μεταξύ των εικόνων, όλα διαθέσιμα στο οικοσύστημα της Google με επιλογές δοκιμής, επανάληψης και κλιμάκωσης.