Το GPT-4 αποτυγχάνει στο τεστ Turing: Οι προκλήσεις παραμένουν στον τομέα της ευφυούς συνομιλίας - Ειδήσεις Reeman

Το ChatGPT, ο σούπερ σταρ της τεχνητής νοημοσύνης, βρέθηκε αντιμέτωπος με ένα ερώτημα καθώς συνεχίζει να προχωρά: Έχει εκπληρώσει το πρότυπο δοκιμής Turing για τη δημιουργία αποτελεσμάτων που δεν διακρίνονται από τις ανθρώπινες αποκρίσεις; Η τελευταία έρευνα δείχνει ότι το ChatGPT, παρά την εξαιρετική του απόδοση, δεν φαίνεται να έχει ξεπεράσει πλήρως αυτό το όριο.

Δύο ερευνητές στο Πανεπιστήμιο της Καλιφόρνια στο Σαν Ντιέγκο, ο Κάμερον Τζόουνς, ειδικός στη γλώσσα, τη σημασιολογία και τη μηχανική μάθηση, και ο Μπέντζαμιν Μπέργκεν, καθηγητής γνωστικής επιστήμης, έθεσαν αυτήν την ερώτηση αναφερόμενοι στο έργο του Τούρινγκ πριν από 70 χρόνια. Ο Τούρινγκ πρότεινε μια διαδικασία για τον προσδιορισμό του εάν μια μηχανή θα μπορούσε να επιτύχει ένα επίπεδο νοημοσύνης και ικανότητας συνομιλίας επαρκές για να ξεγελάσει τους άλλους να πιστέψουν ότι ήταν άνθρωπος.

Η έκθεσή τους έχει τίτλο "Does GPT-4 Pass the Turing Test?" Μπορεί να βρεθεί στον διακομιστή προεκτύπωσης arXiv. Για τη μελέτη, συγκέντρωσαν 650 συμμετέχοντες για να παίξουν 1.400 «παιχνίδια» στα οποία οι συμμετέχοντες είχαν μια σύντομη συνομιλία με άλλο άνθρωπο ή μοντέλο GPT και τους ζητήθηκε να προσδιορίσουν σε ποιον μιλούσαν.

Αυτό που βρήκαν οι ερευνητές ήταν αξιοσημείωτο. Το μοντέλο GPT-4 ξεγέλασε τους συμμετέχοντες το 41 τοις εκατό των περιπτώσεων, ενώ το GPT-3.5 τους κορόιδεψε μόνο το 5 έως 14 τοις εκατό των περιπτώσεων. Είναι ενδιαφέρον ότι οι άνθρωποι κατάφεραν μόνο στο 63% των δοκιμών να πείσουν τους συμμετέχοντες ότι δεν ήταν μηχανές.

"Δεν βρήκαμε στοιχεία ότι το GPT-4 πέρασε το τεστ Turing", κατέληξαν οι ερευνητές. Ωστόσο, σημειώνουν ότι το Test Turing εξακολουθεί να έχει αξία στην αξιολόγηση των επιπτώσεων των συνομιλιών από μηχανή, ως πλαίσιο για τη μέτρηση ομαλών κοινωνικών αλληλεπιδράσεων και εξαπάτησης, και στην κατανόηση των ανθρώπινων στρατηγικών για την προσαρμογή σε αυτές τις συσκευές.

Ωστόσο, προειδοποιούν επίσης ότι σε πολλές περιπτώσεις, τα chatbots θα εξακολουθούν να μπορούν να επικοινωνούν με πειστικό τρόπο. «Το ποσοστό επιτυχίας 41 τοις εκατό υποδηλώνει ότι τα μοντέλα τεχνητής νοημοσύνης μπορεί να έχουν ήδη την ικανότητα να εξαπατούν, ειδικά σε καταστάσεις όπου οι άνθρωποι είναι λιγότερο προσεκτικοί στην πιθανότητα να μην μιλάνε σε άνθρωπο», σημειώνουν οι ερευνητές. Τα μοντέλα τεχνητής νοημοσύνης που μιμούνται σθεναρά τους ανθρώπους θα μπορούσαν να έχουν ευρείες κοινωνικές και οικονομικές επιπτώσεις».

Οι ερευνητές παρατήρησαν ότι οι συμμετέχοντες που ταύτισαν σωστά την τεχνητή νοημοσύνη με τους ανθρώπους εστίασαν σε διάφορους παράγοντες. Ένα μοντέλο που είναι υπερβολικά επίσημο ή πολύ άτυπο εγείρει υποψίες. Εάν η έκφρασή τους είναι πολύ λεκτική ή πολύ συνοπτική, εάν η γραμματική ή η στίξή τους είναι ασυνήθιστα καλή ή «μη πειστικά» κακή, θα είναι επίσης ένας βασικός παράγοντας για να καθοριστεί εάν οι συμμετέχοντες αλληλεπιδρούν με ανθρώπους ή μηχανές. Επιπλέον, οι συμμετέχοντες ήταν ευαίσθητοι σε απαντήσεις που ακούγονταν πολύ γενικές.

Οι ερευνητές προτείνουν ότι η παρακολούθηση μοντέλων τεχνητής νοημοσύνης θα γίνεται όλο και πιο σημαντική καθώς γίνονται πιο ρευστά και απορροφούν περισσότερες ιδιορρυθμίες που μοιάζουν με τον άνθρωπο. «Ο εντοπισμός παραγόντων που οδηγούν στην εξαπάτηση και οι στρατηγικές για τον μετριασμό της θα γίνονται όλο και πιο σημαντικοί», ανέφεραν. Η μελέτη αποκαλύπτει ότι το πεδίο της έξυπνης συνομιλίας εξακολουθεί να αντιμετωπίζει προκλήσεις, αλλά παρέχει επίσης χρήσιμες πληροφορίες για το πώς μπορούν να βελτιωθούν τα μοντέλα AI.

Το GPT-4 αποτυγχάνει στη δοκιμή Turing: Οι προκλήσεις παραμένουν στον τομέα της έξυπνης συνομιλίας