Τεχνολογία

ChatGPT: Πολλά υποσχόμενο στα ερωτήματα καρδιακής ανεπάρκειας

ChatGPT: Πολλά υποσχόμενο στα ερωτήματα καρδιακής ανεπάρκειας
ChatGPT: Με την αυξανόμενη χρήση διαδικτυακών πόρων για πληροφορίες υγείας, σχεδόν ένα δισεκατομμύριο ερωτήσεις που σχετίζονται με την υγειονομική περίθαλψη αναζητούνται καθημερινά στο Google.

Σε μια πρόσφατη μελέτη που δημοσιεύτηκε στον διακομιστή medRxiv, οι ερευνητές αξιολογούν την ακρίβεια και την αναπαραγωγιμότητα των απαντήσεων από τις εκδόσεις ChatGPT για την απάντηση σε ερωτήσεις που σχετίζονται με καρδιακή ανεπάρκεια. Το medRxiv δημοσιεύει προκαταρκτικές επιστημονικές εκθέσεις που δεν έχουν αξιολογηθεί από ομοτίμους και, ως εκ τούτου, δεν πρέπει να θεωρούνται οριστικές, να καθοδηγούν την κλινική πρακτική/σχετική με την υγεία συμπεριφορά ή να αντιμετωπίζονται ως καθιερωμένες πληροφορίες.

Ιστορικό

Μέχρι το 2030, οι ερευνητές εκτιμούν ότι το κόστος υγειονομικής περίθαλψης που σχετίζεται με την καρδιακή ανεπάρκεια θα φτάσει περίπου τα 70 δισεκατομμύρια δολάρια ΗΠΑ κάθε χρόνο στις Ηνωμένες Πολιτείες. Περίπου το 70% αυτών των δαπανών οφείλεται σε νοσηλεία, που αποτελούν το 1-2% όλων των εισαγωγών σε νοσοκομεία στις Ηνωμένες Πολιτείες. Μελέτες έχουν δείξει ότι οι ασθενείς που διαθέτουν περισσότερες γνώσεις σχετικά με τη διαχείριση της καρδιακής πάθησης τείνουν να έχουν λιγότερες και μικρότερες παραμονές στο νοσοκομείο.

Με την αυξανόμενη χρήση διαδικτυακών πόρων για πληροφορίες υγείας, σχεδόν ένα δισεκατομμύριο ερωτήσεις που σχετίζονται με την υγειονομική περίθαλψη αναζητούνται καθημερινά στο Google. Ένα αξιοσημείωτο μοντέλο τεχνητής νοημοσύνης (AI) γνωστό ως Chat Generative Pre-Trained Transformer (ChatGPT) έχει αποκτήσει πρόσφατα δημοτικότητα. Το ChatGPT είναι ένα μεγάλο γλωσσικό μοντέλο (LLM) που έχει εκπαιδευτεί σε ένα διαφορετικό σύνολο δεδομένων, συμπεριλαμβανομένων ιατρικών θεμάτων, και μπορεί να παρέχει απαντήσεις συνομιλίας σε ερωτήματα των χρηστών.

Σχετικά με τη μελέτη

Στην τρέχουσα μελέτη, οι ερευνητές συγκέντρωσαν μια λίστα με 125 συνήθεις ερωτήσεις σχετικά με την καρδιακή ανεπάρκεια από αξιόπιστους ιατρικούς οργανισμούς και ομάδες υποστήριξης του Facebook. Μετά από προσεκτική αξιολόγηση, εξαλείφθηκαν 18 ερωτήσεις με διπλό περιεχόμενο, αόριστες φράσεις ή που δεν αφορούσαν την οπτική γωνία του ασθενούς. Στη συνέχεια, οι υπόλοιπες 107 ερωτήσεις εισήχθησαν δύο φορές και στις δύο εκδόσεις του ChatGPT χρησιμοποιώντας τη λειτουργία “νέα συνομιλία”, η οποία οδήγησε στη δημιουργία δύο απαντήσεων για κάθε ερώτηση από κάθε μοντέλο.

Για να αξιολογήσουν την ακρίβεια των απαντήσεων, δύο πιστοποιημένοι καρδιολόγοι τις βαθμολόγησαν ανεξάρτητα χρησιμοποιώντας μια κλίμακα που αποτελείται από τέσσερις κατηγορίες που κυμαίνονται από ολοκληρωμένες, σωστές αλλά ανεπαρκείς, άλλες σωστές και άλλες λανθασμένες και εντελώς λανθασμένες. Αυτή η διαδικασία αξιολόγησης πραγματοποιήθηκε και για τις απαντήσεις ChatGPT-3.5 και ChatGPT-4. Η αναπαραγωγιμότητα των απαντήσεων αξιολογήθηκε επίσης συγκρίνοντας τις βαθμολογίες συνολικής και ακρίβειας και για τις δύο απαντήσεις για κάθε ερώτηση από κάθε μοντέλο.

Αποτελέσματα μελέτης

Η αξιολόγηση των απαντήσεων και από τα δύο μοντέλα ChatGPT αποκάλυψε ότι οι περισσότερες απαντήσεις θεωρήθηκαν «περιεκτικές» ή «σωστές αλλά ανεπαρκείς». Το ChatGPT-4 εμφάνισε μεγαλύτερο βάθος ολοκληρωμένης γνώσης στις κατηγορίες «διαχείριση» και «βασική γνώση» σε σύγκριση με το ChatGPT -3,5. Η απόδοση του ChatGPT-3.5 ήταν καλύτερη στην κατηγορία «άλλα», η οποία περιλάμβανε θέματα όπως η πρόγνωση υποστήριξης και οι διαδικασίες.

Για παράδειγμα, το ChatGPT-3.5 έδωσε μια γενική απάντηση σχετικά με τα καρδιακά οφέλη των αναστολέων συμμεταφορέα νατρίου-γλυκόζης-2 (SGLT2), ενώ το ChatGPT-4 πρόσφερε μια πιο λεπτομερή αλλά συνοπτική απάντηση σχετικά με την επίδραση αυτών των παραγόντων στη διούρηση και την αρτηριακή πίεση.

Περίπου το 2% των απαντήσεων από το ChatGPT-3.5 βαθμολογήθηκε ως “μερικές σωστές και άλλες λανθασμένες”, ενώ καμία απάντηση από το ChatGPT-4 δεν εμπίπτει σε αυτήν την κατηγορία ή στην κατηγορία “εντελώς λανθασμένη”. Κατά την εξέταση της αναπαραγωγιμότητας, και τα δύο μοντέλα παρείχαν σταθερές απαντήσεις για τις περισσότερες ερωτήσεις, με την έκδοση ChatGPT-3.5 να σημειώνει πάνω από 94% σε όλες τις κατηγορίες και το GPT-4 να επιτυγχάνει 100% αναπαραγωγιμότητα για όλες τις απαντήσεις.

Συμπεράσματα

Η παρούσα μελέτη ανέφερε ότι το ChatGPT-4 επέδειξε ανώτερη απόδοση σε σύγκριση με το ChatGPT-3.5 παρέχοντας πιο ολοκληρωμένες απαντήσεις σε ερωτήσεις που σχετίζονται με καρδιακή ανεπάρκεια χωρίς λανθασμένες απαντήσεις. Και τα δύο μοντέλα παρουσίασαν υψηλή αναπαραγωγιμότητα για τις περισσότερες ερωτήσεις. Αυτά τα ευρήματα υπογραμμίζουν τις εντυπωσιακές δυνατότητες και την ταχεία πρόοδο των LLM στην παροχή αξιόπιστων και περιεκτικών πληροφοριών στους ασθενείς.

Το ChatGPT έχει τη δυνατότητα να χρησιμεύσει ως πολύτιμος πόρος για άτομα με καρδιακές παθήσεις, ενδυναμώνοντάς τους με γνώσεις υπό την καθοδήγηση των παρόχων υγειονομικής περίθαλψης. Η φιλική προς τον χρήστη διεπαφή και οι απαντήσεις που μοιάζουν με τον άνθρωπο καθιστούν το ChatGPT ένα ελκυστικό εργαλείο για ασθενείς που αναζητούν πληροφορίες σχετικά με την υγεία. Η βελτιωμένη απόδοση του ChatGPT-4 μπορεί να αποδοθεί στη βελτιωμένη εκπαίδευση, η οποία εστιάζει στην καλύτερη κατανόηση της πρόθεσης του χρήστη και στη διαχείριση πολύπλοκων σεναρίων.

Ενώ το ChatGPT είχε καλή απόδοση σε αυτή τη μελέτη, υπάρχουν σημαντικοί περιορισμοί που πρέπει να ληφθούν υπόψη. Περιστασιακά, το μοντέλο μπορεί να παρέχει ανακριβείς αλλά πιστευτές απαντήσεις και, μερικές φορές, ανούσιες απαντήσεις. Η ακρίβεια του μοντέλου βασίζεται στο σύνολο δεδομένων εκπαίδευσης, το οποίο δεν έχει αποκαλυφθεί και οι συστάσεις μπορεί να διαφέρουν σε διάφορες περιοχές.