Θέμα 1: Εμπλουτισμός ιστοσελίδων με αναζήτηση σε βάσεις πληροφοριών
Επιβλέπων: Ηρακλής Βαρλάμης
Θεωρητικό υπόβαθρο: Οι σύγχρονες προσπάθειες στο χώρο της αναζήτησης πληροφορίας στο Web έχουν εστιάσει στην πληροφορία που διατίθεται σε απόλυτα δομημένη μορφή, είναι πλούσια σε σημασιολογικό περιεχόμενο και κατά συνέπεια είναι εύκολο να διαχειριστεί από μια μηχανή. Για το σκοπό αυτό μεγάλες βάσεις πληροφοριών σε όλους τους τομείς (επιστήμες, τέχνες, περιβάλλον κλπ) έχουν υιοθετήσει της αρχές του W3C και διαθέτουν πλέον τα δεδομένα τους με τη μορφή RDF tripplets δημιουργώντας έτσι ένα πυκνό δίκτυο πληροφορίας, γνωστό και ως Linked Data ( http://linkeddata.org/ ) που είναι άμεσα αξιοποιήσημο από οποιαδήποτε μηχανή αναζήτησης.
Η εργασία θα μελετήσει τον τόπο οργάνωσης της πληροφορίας αυτής, θα κατανοήσει τα πρότυπα που χρησιμοποιούνται για την περιγραφή της και θα εξετάσει τους υπάρχοντες μηχανισμούς διάθεσης και αξιοποίησής της. Παράλληλα στοχεύει να επιδείξει τις νέες δυνατότες και τις ευκαιρίες που δημιουργούνται αναπτύσσοντας μια πρότυπη εφαρμογή που θα αξιοποιεί υπάρχουσα υποδομή. Ο πρότυπος μηχανισμός θα προσφέρει στο χρήστη ενός web browser τη δυνατότητα να δει περισσότερες πληροφορίες για όρους που επιλέγει. Θα κάνει χρήση υπαρχόντων βάσεων πληροφοριών και υπηρεσιών αναζήτησης, οι οποίες είναι ανεπτυγμένες με τις αρχές των Linked Data, θα επεξεργάζεται τα αποτελέσματα της αναζήτησης και θα τα εμφανίζει εντός του web browser.
Τεχνικές λεπτομέρειες: Η εφαρμογή που θα αναπτυχθεί μπορεί να αξιοποιεί το Yahoo Search BOSS (Build your Own Search Service: http://developer.yahoo.com/search/boss/) και το API που αυτό προσφέρει. Θα αναπτυχθεί με τη μορφή plugin για web browser ή εναλλακτικά με τη μορφή μιας μηχανής αναζήτησης.
Βιβλιογραφία:
Θέμα 2: Αποσαφήνιση όρων με χρήση σημασιολογικής πληροφορίας
Επιβλέπων: Ηρακλής Βαρλάμης
H αποσαφήνιση αναφέρεται στην αντιμετώπιση της ασάφειας στην ερμηνεία ενός όρου η οποία συμβαίνει όταν ο όρος συνδέεται στενά με δύο ή περισσότερα θέματα. Η ασάφεια στην ερμηνεία ενός όρου δημιουργεί μεγάλες δυσκολίες σε πολλές εργασίες διαχείρισης κειμένων, π.χ. στην αναζήτηση, στην κατηγοριοποίηση κειμένων κλπ. Όταν για παράδειγμα ο χρήστης δίνει σε μια μηχανή αναζήτησης τη λέξη "jaguar" ενδέχεται να εννοεί το ζώο, τη μάρκα αυτοκινήτου κλπ ανάλογα με τα ενδιαφέροντά του. Η αποσαφήνιση γίνεται συνήθως με χρήση του περιβάλλοντος στο οποίο εμφανίζεται ο όρος, δλδ των λέξεων που εμφανίζονται στο ίδιο κείμενο, στην ίδια πρόταση, σε κοντινή απόσταση με τον όρο. Μια μεγάλη κατηγορία μεθόδων χρησιμοποιεί λεξικά και άλλους γλωσσολογικούς πόρους ώστε να εντοπίσει την καταλληλότερη έννοια για έναν όρο.
Η εργασία θα μελετήσει τις μεθόδους αποσαφήνισης της έννοιας λέξεων (Word Sense Dissambiguation methods) δίνοντας έμφαση σε αυτές που χρησιμοποιούν γλωσσολογική γνώση. Επίσης θα μελετήσει και θα προσαρμόσει κλασικούς αλγορίθμους WSD (Lesk, κλπ) στην υποδομή που προσφέρουν οι βάσεις γνώσης του Semantic Web και θα αξιολογήσει τα αποτελέσματα σε γνωστές εργασίες αποσαφήνισης.
Τεχνικές λεπτομέρειες: Οι αλγόριθμοι που θα υλοποιηθούν θα αξιοποιούν τη βάση γνώσης ULMS και η σύγκριση θα γίνει σε γνωστά σύνολα δεδομένων (http://wsd.nlm.nih.gov/). Θα χρησιμοποιηθεί ΒΔ MySQL για διαχείριση των δεδομένων και αποτελεσμάτων.
Βιβλιογραφία:
Θέμα 3: Εξόρυξη γνώμης με χρήση ταξινομητών και αποτύπωση σε γραφήματα
Επιβλέπων: Ηρακλής Βαρλάμης
Το πρόβλημα του χαρακτηρισμού της άποψης που μεταφέρει μια φράση/ένα κείμενο, έχει μεγάλο ερευνητικό και πρακτικό ενδιαφέρον το οποίο γίνεται ακόμη πιο έντονο με την έλευση των εφαρμογών κοινωνικής δικτύωσης. Σε αυτές συχνά οι χρήστες εκφράζουν την άποψή τους για προϊόντα, περιεχόμενο κλπ άλλων χρηστών χρησιμοποιώντας σύντομες φράσεις με έντονο όμως σημασιολογικό περιεχόμενο. Αντίστοιχο είναι και το ενδιαφέρον για την ανάλυση του συναισθήματος που μεταφέρουν τα λεγόμενα των χρηστών.Το πρόβλημα της εξόρυξης γνώμης συχνά ανάγεται σε ένα πρόβλημα κατηγοριοποίησης κάθε φράσης ή μέρους αυτής σε προκαθορισμένες κατηγορίες. Οι αλγόριθμοι που έχουν αναπτυχθεί ως τώρα χρησιμοποιούν πρότερη γνώση (κείμενα ή φράσεις που γνωρίζουμε την κατηγορία τους) για την εκπαίδευση του ταξινομητή και μέτρα ομοιότητας μεταξύ φράσεων ώστε να κατατάξουν τις νέες φράσεις στην καταλληλότερη κατηγορία.
Στόχος της εργασίας είναι να αυτοματοποιήσει τη διαδικασία από την πρώτη φάση της συλλογής των γνωμών μέχρι την τελική αποτύπωσή τους σε συγκεντρωτικά γραφήματα.
Η εργασία θα μελετήσει και θα καταγράψει τις διαφορετικές προσεγγίσεις/αλγορίθμους που έχουν προταθεί στη βιβλιογραφία για το χαρακτηρισμό άποψης. Στη συνέχεια θα επεκτείνει μια πλατφόρμα που ενσωματώνει υπάρχοντες αλγορίθμους συσταδοποίησης, θα αυτοματοποιεί την εισαγωγή δεδομένων εκπαίδευσης και δοκιμής, των παραμέτρων κάθε αλγορίθμου, την εξαγωγή αποτελεσμάτων και την οπτικοποίησή τους. Στην πρότυπη εφαρμογή που θα αναπτυχθεί θα πρέπει να ενσωματωθούν και να συγκριθούν τρεις τουλάχιστον αλγόριθμοι. Επιπλέον, θα πρέπει τα αποτελέσματα της διαδικασίας εξόρυξης γνώμης να αποτυπώνονται αυτόματα σε τρεις διαφορετικές αναπαραστάσεις που θα επιλεγούν σε συνεννόηση με τον επιβλέποντα.
Τεχνικές λεπτομέρειες: Αρκετοί ταξινομητές κειμένων υπάρχουν στο λογισμικό Weka (http://www.cs.waikato.ac.nz/ml/weka/), όπως Bayes, SVM κλπ. Η πλατφόρμα που θα αναπτυχθεί θα χρησιμοποιεί τις βιβλιοθήκες του Weka, γι' αυτό και θα πρέπει να γραφεί σε Java. Αρκετά δεδομένα για αξιολόγηση των αλγορίθμων υπάρχουν εδώ: http://www.datawrangling.com/some-datasets-available-on-the-web
Βιβλιογραφία
Θέμα 4: Ανάπτυξη περιεχομένου για την Ελληνική έκδοση της Wikipedia σχετικά με το πεδίο της Εξόρυξης Γνώσης
Επιβλέπων: Ηρακλής Βαρλάμης
Αρκετοί φορείς της χώρας έχουν ξεκινήσει μέχρι σήμερα δράσεις για τον εμπλουτισμό της Ελληνικής έκδοσης της Wikipedia. Στα πλαίσια ενίσχυσης των προσπαθειών αυτών η εργασία θα δημιουργήσει περιεχόμενο για το πεδίο της Εξόρυξης Γνώσης, χρησιμοποιώντας ως βάση την αγγλική σελίδα για το Data Mining και το υλικό του μαθήματος που διδάσκεται στο τμήμα.
Στόχος της εργασίας είναι να δημιουργήσει πρωτογενές υλικό για την Ελληνική κοινότητητα της Wikipedia. Eπιπλέον να μελετήσει όλο το μηχανισμό δημιουργίας, ελέγχου ποιότητας και διορθώσεων της Wikipedia και να εξάγει συμπεράσματα για τη λειτουργία του μηχανισμού σε συνεργατικά συστήματα γνώσης.
Τεχνικές λεπτομέρειες: Σχετικές πληροφορίες και δράσεις μπορεί κανείς να λάβει στα:
Θέμα 5: Μελέτη και σχεδίαση μεθόδων εξόρυξη γνώσης από Βιοιατρικά Δεδομένα
Επιβλέπων: Ηρακλής Βαρλάμης
Τα δεδομένα που συγκεντρώνονται σε ιατρικές βάσεις δεδομένων και περιλαμβάνουν δημογραφικά στοιχεία, συνήθειες, ιατρικό ιστορικό κλπ των ασθενών, μπορούν να αποτελέσουν μια σημαντική πηγή γνώσης αν αξιοποιηθούν αποτελεσματικά.
Στόχος της εργασίας είναι να εξάγει γνώση στη μορφή προτύπων (κανόνων, συστάδων, προβλέψεων κλπ) από ιατρικά δεδομένα με αξιοποίηση εργαλείων και τεχνικών εξόρυξης γνώσης. Για το σκοπό αυτό, αρχικά θα μελετηθούν και θα παρουσιαστούν τεχνικές και εργαλεία που έχουν προταθεί στο παρελθόν για το σκοπό αυτό, στη συνέχεια θα χρησιμοποιηθούν οι πιο σημαντικές από τις τεχνικές αυτές και θα προσαρμοστούν στις ανάγκες των δεδομένων. Τα προτύπων που θα ανακαλυφθούν θα αξιολογηθούν ως προς την εγγυρότητά τους και θα επικυρωθούν.
Τεχνικές λεπτομέρειες: Σχετικές πληροφορίες και δράσεις μπορεί κανείς να λάβει στα: