ΑΝΑΖΗΤΗΣΗ
Τεχνολογία

Τεχνητή νοημοσύνη καταφέρνει και διαβάζει τα χείλη από απόσταση

Τεχνητή νοημοσύνη καταφέρνει και διαβάζει τα χείλη από απόσταση

Ένα νέο πρόγραμμα τεχνητής νοημοσύνης «διαβάζει» τα χείλη των ανθρώπων εξ αποστάσεως με μεγάλη ακρίβεια, μεγαλύτερη και από τους ανθρώπους που διαθέτουν τη σχετική εξειδίκευση.

Κωφοί και… κατάσκοποι, θα βρουν χρήσιμο αυτό το νέο πρόγραμμα τεχνητής νοημοσύνης, που ανέπτυξαν ερευνητές της Google και της βρετανικής θυγατρικής της Deep Mind, η οποία πρωτοπορεί διεθνώς στην τεχνητή νοημοσύνη, με επικεφαλής ένα νεαρό ελληνικής καταγωγής ειδικό της πληροφορικής, τον Γιάννη Ασσαέλ.

Για τα εκατομμύρια των ανθρώπων που δεν μπορούν να ακούσουν, η ανάγνωση των χειλιών των άλλων αποτελεί ένα «παράθυρο» για την επικοινωνία, πέρα από τη νοηματική γλώσσα. Όμως το «διάβασμα» των χειλιών δεν είναι εύκολο και συχνά είναι ανακριβές.

Το νέο «έξυπνο» σύστημα εμφανίζει μέσο ποσοστό λαθών 41% στην ορθή κατανόηση των λέξεων που σχηματίζουν τα χείλη. Μπορεί να φαίνεται υψηλό αυτό το ποσοστό, αλλά η καλύτερη μέχρι σήμερα υπολογιστική μέθοδος είχε ποσοστό αποτυχίας 77%, συνεπώς το νέο πρόγραμμα έχει περιορίσει σχεδόν στο μισό τα λάθη.

Οι ερευνητές, με επικεφαλής τον Ασσαέλ και τον Μπρένταν Σίλινγκφορντ, οι οποίοι έκαναν τη σχετική προδημοσίευση στο arXiv, σύμφωνα με το “Science”, δημιούργησαν αλγόριθμους καλύτερους από κάθε άλλους στο παρελθόν, που τα καταφέρνουν αποτελεσματικότερα και από επαγγελματίες αναγνώστες χειλιών. Αν το νέο σύστημα τελειοποιηθεί και ενσωματωθεί σε ηλεκτρονικές συσκευές, όπως τα «έξυπνα» κινητά τηλέφωνα, μπορεί μελλοντικά να προσφέρει τη δυνατότητα ανάγνωσης των χειλιών στον καθένα (κάτι που μάλλον δεν θα αρέσει σε όλους…).

Η δημιουργία αλγορίθμων που να μπορούν να διαβάσουν χείλη ήταν έως τώρα τρομερά δύσκολη. Οι ερευνητές τροφοδότησαν το σύστημά τους με 140.000 ώρες βίντεο από το You Tube που έδειχναν ανθρώπους να μιλάνε στα αγγλικά, μαζί με τα αντίστοιχα απομαγνητοφωνημένα κείμενα. Στη συνέχεια, άφησαν το σύστημα μηχανικής μάθησης μόνο του να μάθει να «παντρεύει» τις διαφορετικές κινήσεις των χειλιών με τα αντίστοιχα φωνήματα και τελικά με τις αντίστοιχες λέξεις.

Το σύστημα βασίζεται στα τεχνητά νευρωνικά δίκτυα, δηλαδή σε μια ομάδα αλγόριθμων που ο καθένας εκτελεί ένα διαφορετικό και απλούστερο έργο, ενώ ταυτόχρονα όλοι μαζί συνδέονται και συνεργάζονται για να επεξεργασθούν τις πληροφορίες, περίπου όπως κάνουν οι νευρώνες του ανθρώπινου εγκεφάλου.

Αφού το σύστημα «αυτο-εκπαιδεύθηκε», δοκιμάσθηκε από τους ερευνητές στην ανάγνωση των χειλιών των ανθρώπων ενός 37λεπτου βίντεο, που ποτέ πριν το σύστημα δεν είχε «δει». Το πρόγραμμα έσφαλε στο 41% των λέξεων, αλλά οι άνθρωποι -ακόμη και οι ειδικοί στο διάβασμα του στόματος- που είδαν το ίδιο βίντεο, είχαν μέσο ποσοστό αποτυχίας 93% (πάντως σε πραγματικές συνθήκες και όχι παρακολούθησης βίντεο, το ποσοστό ανθρώπινης αποτυχίας είναι κάπως μικρότερο, καθώς ο ανθρώπινος εγκέφαλος μπορεί να αξιοποιήσει και άλλα στοιχεία, όπως η γλώσσα του σώματος αυτού που μιλάει).

Σε κάθε περίπτωση, αν και συνιστά πραγματική πρόοδο, είναι σαφές ότι ένα ποσοστό αποτυχίας της τάξης του 40% στην αναγνώριση των λέξεων σημαίνει ότι το σύστημα χρειάζεται ακόμη ουσιαστική βελτίωση. Όταν αυτή υπάρξει, το σύστημα μπορεί να αξιοποιηθεί ευρύτερα και στην καθημερινότητα. Για παράδειγμα, όταν θα βλέπουμε στην τηλεόραση έναν ποδοσφαιριστή να βρίζει ένα διαιτητή ή έναν αντίπαλο παίκτη, αλλά φυσικά δεν ακούμε τι λέει, θα ξέρουμε πια τι είπε!

Ο Γιάννης Ασσαέλ υπήρξε μαθητής του Κολλεγίου Ανατόλια της Θεσσαλονίκης και σπούδασε εφαρμοσμένη πληροφορική στο Πανεπιστήμιο Μακεδονίας (2008-2013). Στη συνέχεια, έκανε μεταπτυχιακά (μάστερ) στην επιστήμη των υπολογιστών στο Πανεπιστήμιο της Οξφόρδης, όπου σήμερα ολοκληρώνει το διδακτορικό του πάνω στη μηχανική μάθηση, ενώ παράλληλα εργάζεται για τη Deep Mind της Google.

Διαβάστε όλες τις τελευταίες Ειδήσεις για την υγεία από την Ελλάδα και τον Κόσμο
Ακολουθήστε το healthweb.gr στο Google News και μάθετε πρώτοι όλες τις ειδήσεις

Διαβάστε Eπίσης:

Νέο σύστημα θρομβεκτομής για τη θεραπεία της οξείας πνευμονικής εμβολής

Τεχνητή νοημοσύνη για την υγεία: Ευκαιρίες, κίνδυνοι και διακυβέρνηση

svg%3E svg%3E
svg%3E
svg%3E
Περισσότερα

Οι υπέρηχοι των ματιών ανιχνεύουν την ανεπάρκεια της εγκεφαλικής διακλάδωσης στα παιδιά

Η σύγκριση της διαμέτρου του οπτικού νεύρου όταν ένας ασθενής είναι συμπτωματικός με τη διάμετρο όταν είναι καλά μπορεί να βοηθήσει να καθοριστεί εάν μια παροχέτευση είναι μπλοκαρισμένη.

Οι θαλάσσιοι γυμνοσάλιαγκες εμπνέουν έναν εξαιρετικά ελαστικό βιοϊατρικό αισθητήρα

Νέα έρευνα θα επιτρέψει άμεσα την ανάπτυξη «μαλακών» και πιο ευέλικτων μικροβελόνων—απαραίτητων για τη διασφάλιση της άνεσης και της υψηλής ακρίβειας της μακροπρόθεσμης παρακολούθησης της υγείας.

Διαγνωστική συσκευή αίματος με πρότυπο τις βδέλλες θα μπορούσε να χρησιμοποιηθεί για την ανίχνευση της ελονοσίας

Οι ερευνητές δοκίμασαν τη νέα τους συσκευή σε χοίρους και έδωσαν ολοκληρωμένες πληροφορίες για την κατασκευή της. Πριν η συσκευή μπορεί να χρησιμοποιηθεί ευρέως σε ανθρώπους -σε περιοχές με ελονοσία και αλλού- η σύνθεση του υλικού πρέπει ακόμη να βελτιστοποιηθεί. Και πάνω απ' όλα, η ασφαλής χρήση πρέπει να δοκιμαστεί σε μια μικρή ομάδα δοκιμαζόμενων ατόμων.

Πώς η τεχνολογία υποστηρίζει και ενισχύει τη νηστεία

Νηστεία: Η τεχνολογία έχει φέρει επανάσταση στην εμπειρία της νηστείας, προσφέροντας μια πληθώρα εργαλείων και πόρων για την υποστήριξη των ατόμων στην επίτευξη των στόχων της νηστείας με ασφάλεια και αποτελεσματικότητα

Συσκευή τεχνητής νοημοσύνης ανιχνεύει καρδιακή αρρυθμία 30 λεπτά πριν το επεισόδιο

Wearable tech: Με τη δυνατότητά της να παρέχει έγκαιρη προειδοποίηση για επικείμενα επεισόδια, αυτή η συσκευή έχει τη δυνατότητα να βελτιώσει σημαντικά την ποιότητα ζωής για όσους ζουν με καρδιακές παθήσεις.

Η FDA εγκρίνει καινοτόμα 3D-εκτυπωμένα κρανιακά εμφυτεύματα για είσοδο στην αγορά

Κρανιακά εμφυτεύματα: Ο FDA άνοιξε το δρόμο για την ευρεία υιοθέτηση προηγμένης τεχνολογίας εκτύπωσης με την έγκριση μιας προσαρμοσμένης λύσης 3D-εκτυπωμένης προσαρμοσμένης για να ταιριάζει στο κρανίο του κάθε ασθενούς.