Η OpenAI ενσωματώνει την παραγωγή εικόνας του GPT-4o στο ChatGPT

Η πολυαναμενόμενη βελτιωμένη δυνατότητα παραγωγής εικόνων τεχνητής νοημοσύνης της OpenAI είναι πλέον διαθέσιμη. Αντί να χρησιμοποιείται ένα ξεχωριστό μοντέλο παραγωγής εικόνων όπως το Dall-E, η νέα προηγμένη γεννήτρια εικόνων αποτελεί πλέον μέρος του GPT-4o.

Υπάρχουν αρκετά μοντέλα παραγωγής εικόνων AI στην αγορά που μπορούν να δημιουργήσουν σουρεαλιστικές σκηνές που κόβουν την ανάσα. Ωστόσο, όλα δυσκολεύονται να δημιουργήσουν εικόνες που περιλαμβάνουν κείμενο, λογότυπα και άλλα κοινά αντικείμενα που χρησιμοποιούνται στην καθημερινή ζωή.

Η OpenAI ισχυρίζεται ότι αυτή η νέα παραγωγή εικόνων του GPT-4o μπορεί να λύσει αυτές τις ελλείψεις, καθώς μπορεί να αποδώσει κείμενο με ακρίβεια και να ακολουθήσει με ακρίβεια τις προτροπές αξιοποιώντας τη βάση γνώσεων και το πλαίσιο συνομιλίας της. Αυτό το νέο μοντέλο επιτρέπει επίσης στους χρήστες να τροποποιούν τις εικόνες που έχουν ανεβάσει ή να δημιουργούν νέες εικόνες χρησιμοποιώντας την εικόνα που έχουν ανεβάσει ως οπτική έμπνευση.

Το νέο μοντέλο παραγωγής εικόνων του GPT-4o κυκλοφορεί τώρα σε όλους τους χρήστες ChatGPT Plus, Pro, Team και Free. Δεδομένου ότι αυτό το νέο μοντέλο θα γίνει η προεπιλεγμένη γεννήτρια εικόνων στο ChatGPT, οι χρήστες θα μπορούν να το απολαμβάνουν χωρίς καμία επιπλέον επιλογή πριν από την προτροπή τους. Οι χρήστες μπορούν επίσης να προσαρμόσουν τις εικόνες τους αναφέροντας την αναλογία διαστάσεων, τα ακριβή χρώματα χρησιμοποιώντας δεκαεξαδικούς κώδικες ή ένα διαφανές φόντο. Η OpenAI φέρνει επίσης αυτό το νέο μοντέλο στους χρήστες των ChatGPT Enterprise και Edu τις επόμενες εβδομάδες.

Επιπλέον, το νέο μοντέλο είναι επίσης προσβάσιμο στο Sora για την παραγωγή εικόνων και μέσω του ειδικού DALL-E GPT. Για τους προγραμματιστές, η δημιουργία εικόνων με το API GPT-4o θα κυκλοφορήσει τις επόμενες εβδομάδες.

Το μοντέλο έχει επίσης ορισμένους περιορισμούς. Πρώτον, δεδομένου ότι το μοντέλο παράγει πιο λεπτομερείς εικόνες, ο χρόνος που απαιτείται για την παραγωγή μπορεί να διαρκέσει έως και ένα λεπτό. Έχει τους ακόλουθους περιορισμούς κατά το λανσάρισμα, τους οποίους η OpenAI θα διορθώσει σταδιακά μέσα στο επόμενο χρονικό διάστημα:

Ενίοτε μπορεί να περικόψει πολύ σφιχτά μεγαλύτερες εικόνες, όπως αφίσες, ειδικά κοντά στο κάτω μέρος. Η παραγωγή εικόνων μπορεί επίσης να συνθέσει πληροφορίες, ειδικά σε προτροπές με μικρό πλαίσιο. Κατά τη δημιουργία εικόνων που βασίζονται στη βάση γνώσεών του, μπορεί να δυσκολεύεται να αποδώσει με ακρίβεια περισσότερες από 10-20 διαφορετικές έννοιες ταυτόχρονα, όπως ένας πλήρης περιοδικός πίνακας. Το μοντέλο μερικές φορές δυσκολεύεται με την απόδοση μη λατινικών γλωσσών και οι χαρακτήρες μπορεί να είναι ανακριβείς.

Τα αιτήματα για την επεξεργασία συγκεκριμένων τμημάτων της δημιουργίας μιας εικόνας, όπως τα τυπογραφικά λάθη, δεν είναι πάντα αποτελεσματικά και μπορεί επίσης να αλλοιώσουν άλλα τμήματα της εικόνας με τρόπο που δεν ζητήθηκε ή να εισάγουν περισσότερα σφάλματα. Το μοντέλο είναι γνωστό ότι δυσκολεύεται όταν του ζητείται να αποδώσει λεπτομερείς πληροφορίες σε πολύ μικρό μέγεθος.

Όλες οι εικόνες που παράγονται με τη χρήση αυτού του νέου μοντέλου θα συνοδεύονται από μεταδεδομένα C2PA και το εσωτερικό εργαλείο της OpenAI μπορεί να επαληθεύσει αν μια εικόνα έχει παραχθεί με τη χρήση αυτού του μοντέλου.

(via)

Η OpenAI ενσωματώνει την παραγωγή εικόνας του GPT-4o στο ChatGPT

Related Posts