Παρασκευή 12 Ιουνίου 2020

Το Πολυτεχνείο στη “μάχη” κατά των ψευδών ειδήσεων

Ο Αναπληρωτής Καθηγητής Γιώργος Χαλκιαδάκης
Του ΓΙΑΝΝΗ ΛΥΒΙΑΚΗ
Ενα καινοτόμο σύστημα ανίχνευσης ψευδών ειδήσεων (Fake News) βασισμένο στην τεχνητή νοημοσύνη αναπτύχθηκε στο Πολυτεχνείο Κρήτης!
Μάλιστα, τα πειραματικά αποτελέσματα δείχνουν ότι το σύστημα αυτό είναι σε θέση να εντοπίζει τις ψευδείς ειδήσεις σε ποσοστό πάνω από 94% των περιπτώσεων.
Το σύστημα αναπτύχθηκε στο πλαίσιο της διπλωματικής εργασίας του φοιτητή του Πολυτεχνείου Κρήτης, Μιχάλη Μερσινιά.
Ο Μιχάλης Μερσινιάς
Η εργασία εκπονήθηκε στο εργαστήριο Ευφυών Πρακτόρων (InteLLigence) της Σχολής
Ηλεκτρολόγων Μηχανικών Μηχανικών Υπολογιστών ΗΜΜΥ του Πολυτεχνείου Κρήτης υπό την επίβλεψη του μέλους ΔΕΠ της Σχολής, Αναπληρωτή Καθηγητή, Γιώργου Χαλκιαδάκη.
Οπως μας λένε οι κ. Χαλκιαδάκης και Μερσινιάς, «λόγω της καινοτομίας και της αποτελεσματικότητάς του συστήματος, ένα επιστημονικό άρθρο που βασίστηκε στη συγκεκριμένη εργασία, με συμμετοχή στη συγγραφή και του Αν. Καθ. του Πανεπιστημίου της Τουλούζης Στέργου Αφαντενού, έγινε δεκτό μετά από κρίση για παρουσίαση και δημοσιεύτηκε στα πρακτικά του σχετικού επιστημονικού συνεδρίου LREC (Language Resources and Evaluation Conference) που ήταν προγραμματισμένο να λάβει χώρα στην Μασσαλία τον Μάιο του 2020. Ωστόσο, λόγω της COVID-19 το ίδιο το δια ζώσης συνέδριο αναβλήθηκε…».
Για τη “μάστιγα” των ψευδών ειδήσεων, οι ίδιοι χαρακτηριστικά αναφέρουν:
«Ερευνα του Αμερικανικού ομίλου Brookings έδειξε ότι κατά τις εκλογικές αναμετρήσεις του 2016 και του 2018, το 57% των Αμερικάνων παρακολούθησε ψευδείς ειδήσεις και στο 19% των Αμερικανών το γεγονός αυτό είχε επιρροή στην ψήφο τους στην κάλπη. Σε ιδιαίτερα δυσχερή θέση βρίσκονται και τα παιδιά ηλικίας 12 έως 18 ετών τα οποία σύμφωνα με έρευνα του Πανεπιστημίου του Stanford δεν μπορούν να ξεχωρίσουν μια αληθινή από μια ψευδή είδηση 8 στις 10 φορές».
Για το τι πετυχαίνει το σύστημα, υπογραμμίζουν:
«Το συγκεκριμένο σύστημα είναι σε θέση να εντοπίζει μοτίβα στον τρόπο γραφής των κειμένων τα οποία αποτελούν καίριες ενδείξεις της αυθεντικότητάς τους.
Ο τρόπος λειτουργίας του βασίζεται στο καινοτόμο στατιστικό μοντέλο CLFD που αναπτύχθηκε στο πλαίσιο της εργασίας και το οποίο προσδίδει σημασιολογικά βάρη σε κάθε λέξη του κειμένου τα οποία αναπαριστούν την μη-ουδετερότητα της λέξης αυτής σε μια πρόταση.
Όσο μεγαλύτερη μη-ουδετερότητα έχει μια λέξη, τόσο περισσότερο επηρεάζει αυτή την αυθεντικότητα μιας πρότασης. Αντιθέτως, όσο μικρότερη μη-ουδετερότητα παρατηρείται σε μια λέξη, τόσο πιο αδιάφορη είναι αυτή όσον αφορά την αυθεντικότητα του κειμένου.
Με απλά λόγια, μέσω της σημασιολογικής βαρύτητας που το CLFD προσδίδει στις λέξεις ενός κειμένου, κατορθώνει να αποτυπώσει το βαθμό συσχέτισης του κειμένου με άλλα, πιθανώς εντελώς διαφορετικά, κείμενα, τα οποία όμως είναι ενδεχομένως εκ των προτέρων χαρακτηρισμένα ως “ψευδή” ή “αξιόπιστα”.
Όμως σε ένα κείμενο, εκτός από την σημασιολογική σημασία κάθε λέξης, ρόλο παίζει και το ύφος, το συντακτικό καθώς και οι εκφράσεις που χρησιμοποιούνται.
Αυτά τα χαρακτηριστικά λαμβάνονται υπόψη κατά την εκπαίδευση του συστήματος μέσω ενός επαναλαμβανόμενου νευρωνικού δικτύου (RNN), το οποίο αποτελεί τεχνολογία αιχμής στην Τεχνητή Νοημοσύνη, και έχει την δυνατότητα να κατανοεί την αλληλουχία λέξεων και φράσεων.
Η εκπαίδευση του συστήματος ενισχύεται περαιτέρω μέσω μιας υβριδικής αρχιτεκτονικής μηχανικής μάθησης που ενώνει το παραπάνω νευρωνικό δίκτυο με ένα γραμμικό μοντέλο, γεγονός που ως αποτέλεσμα έχει την αύξηση της απόδοσης σε σημείο που το σύστημα είναι σε θέση να εντοπίσει μοτίβα που δεν είναι ξεκάθαρα στην ανθρώπινη διαίσθηση».

Παράδειγμα Λειτουργίας

Ακολουθεί ένα παράδειγμα που αποτυπώνει τον τρόπο λειτουργίας του συστήματος:
Είδηση: << Bill Gates faces trial in India for illegally testing tribal children with vaccines >>
Σημασιολογικά βάρη CLFD:
Bill: 0.09, Gates: 0.25, Faces 0.56, Trial: 0.54, in: -, India 0.54, For: -, Illegally: 0.36, Testing: 0.70, Tribal: 0.46, Children: 0.09, with: -, Vaccines: 2.59
Παρατηρούμε εδώ ότι οι λέξεις Vaccine, Testing καθώς και Faces, Trial, India είναι μακράν πιο σημαντικές από τις υπόλοιπες στην είδηση και θα ληφθούν υπόψη πολύ περισσότερο κατά την εκπαίδευση. Συγκεκριμένα η λέξη Vaccines είναι κατά 29 φορές πιο σημαντική (μη-ουδέτερη) από τις λέξεις Bill και Children, άρα θα ληφθεί υπόψη 29 φορές περισσότερο από αυτές κατά την εκπαίδευση. Οι παραπάνω σημαντικές σημασιολογικά λέξεις είναι και αυτές που συνδέουν κατά κύριο λόγο το κείμενο με άλλα κείμενα εντός της συλλογής κειμένων που το περιέχει.
Αλληλουχία λέξεων: Λόγω της υβριδικής αρχιτεκτονικής μηχανικής μάθησης που εμπεριέχει το επαναλαμβανόμενο νευρωνικό δίκτυο (RNN), οι παραπάνω σημασιολογικά σημαντικές λέξεις θα ληφθούν υπόψη και συνδυαστικά μεταξύ τους. Για παράδειγμα: Trial – Testing – Vaccines. Έτσι ενισχύεται ακόμα περισσότερο η απόδοση του συστήματος.
Αποτέλεσμα Συστήματος: Ψευδής Είδηση με βαθμό βεβαιότητας 90.2%

(Χανιώτικα νέα - 12/6/2020)

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου