Θέμα 1: Kατηγοριοποίηση διαδρομών και ανίχνευση δραστηριότητας και συνηθειών με χρήση κινητών τηλεφώνων
Επιβλέποντες: Ηρακλής Βαρλάμης
Θεωρητικό υπόβαθρο: Στις μέρες μας οι χρήστες έξυπνων κινητών τηλεφώνων χρησιμοποιούν εφαρμογές οι οποίες καταγράφουν διαρκώς δεδομένα (κίνησης, θέσης, χρήσης, προτιμήσεων κλπ.) τα οποία μπορούν να αξιοποιηθούν με πολλούς τρόπους εφόσον αναλυθούν. Η παρούσα εργασία θα επεκτείνει την εφαρμογή GPSTracker που αναπτύχθηκε στα πλαίσια πτυχιακής εργασίας και η οποία καταγράφει μέσω GPS τα δεδομένα θέσης του χρήση, και κατηγοριοποιεί σε πραγματικό χρόνο την κίνησή του.
Στόχος της εργασίας είναι να επεξεργάζεται σε δεύτερο επίπεδο τα κατηγοριοποιημένα δεδομένα κίνησης και να τα συνδυάζει με γεωχωρικά δεδομένα, έτσι ώστε: α) να εντοπίζει μεγαλύτερα τμήματα κίνησης (trajectories) στα οποία ο χρήστης έχει τον ίδιο τύπο κίνησης, β) να εντοπίζει σημεία ενδιαφέροντος στα οποία ο χρήστης περνά αρκετό χρόνο, γ) να εξάγει από τα παραπάνω γνώση για τα γενικότερα ενδιαφέροντα και τις καθημερινές συνήθειες του χρήστη.
Τεχνικές λεπτομέρειες: Η εφαρμογή θα λειτουργεί σε android smartphones, θα διαθέτει κατηγοριοποιημένα σημεία ενδιαφέροντος σε τοπική βάση δεδομένων (SQLite) και θα επεξεργάζεται τα δεδομένα κίνησης στη συσκευή (χρήση Weka). Θα επεκτείνει επίσης την υπάρχουσα λειτουργικότητα μεταφόρτωσης δεδομένων σε προσωπικό δικτυακό φάκελο (dropbox) με τη δυνατότητα μεταφόρτωσης σε κεντρικό server όπου θα συλλέγονται και θα αναλύονται τα δεδομένα πολλών χρηστών.
Βιβλιογραφία:
Θέμα 2: Δημιουργία ενός μέτρου σημασιολογικής ομοιότητας που θα αξιοποιεί γλωσσολογικό θησαυρό ιατρικών όρων
Επιβλέπων: Ηρακλής Βαρλάμης
H αποσαφήνιση αναφέρεται στην αντιμετώπιση της ασάφειας στην ερμηνεία ενός όρου η οποία συμβαίνει όταν ο όρος συνδέεται στενά με δύο ή περισσότερα θέματα. Η ασάφεια στην ερμηνεία ενός όρου δημιουργεί μεγάλες δυσκολίες σε πολλές εργασίες διαχείρισης κειμένων, π.χ. στην αναζήτηση, στην κατηγοριοποίηση κειμένων κλπ. Όταν για παράδειγμα ο χρήστης δίνει σε μια μηχανή αναζήτησης τη λέξη "jaguar" ενδέχεται να εννοεί το ζώο, τη μάρκα αυτοκινήτου κλπ ανάλογα με τα ενδιαφέροντά του. Η αποσαφήνιση γίνεται συνήθως με χρήση του περιβάλλοντος στο οποίο εμφανίζεται ο όρος, δλδ των λέξεων που εμφανίζονται στο ίδιο κείμενο, στην ίδια πρόταση, σε κοντινή απόσταση με τον όρο. Μια μεγάλη κατηγορία μεθόδων χρησιμοποιεί λεξικά και άλλους γλωσσολογικούς πόρους ώστε να εντοπίσει την καταλληλότερη έννοια για έναν όρο.
Στόχος της εργασίας είναι να αναπτύξει την υποδομή για τον ορισμό σημασιολογικής ομοιότητας μεταξύ ιατρικών όρων. Θα υιοθετήσει το παράδειγμα του γενικού μέτρου σημασιολογικής ομοιότητας Omiotis, και θα το εφαρμόσει σε ένα θησαυρό ιατρικών όρων.
Τεχνικές λεπτομέρειες: Στην εργασία θα χρησιμοποιηθεί η βάση γνώσης UMLS και θα αντιμετωπιστεί ως γράφος που συνδέει με διαφορετικού τύπου ακμές διάφορους ιατρικούς όρους. Ακολουθώντας τη λογική του μέτρου Omiotis θα πρέπει να οριστεί και να υπολογιστεί η σημασιολογική ομοιότητα μεταξύ δύο οποιονδήποτε ιατρικών όρων και να αναπτυχθεί κατάλληλο αποθετήριο σε MySQL για τη διαχείριση των αποτελεσμάτων.
Βιβλιογραφία:
Θέμα 3: Αυτόματη δημιουργία εφημερίδας για offline ανάγνωση με περιεχόμενο από ηλεκτρονικές πηγές
Επιβλέπων: Ηρακλής Βαρλάμης
Η πτυχιακή εργασία αφορά τη δημιουργία μιας web εφαρμογής η οποία θα δέχεται τα αναγνωστικά ενδιαφέροντα του χρήστη, θα αντλεί πρόσφατο περιεχόμενο από συγκεκριμένες ηλεκτρονικές εφημερίδες και θα παράγει μια ψηφιακή εφημερίδα (σε pdf μορφή) την οποία στη συνέχεια ο χρήστης θα μπορεί να κατεβάσει στον υπολογιστή ή στο κινητό του και να τη διαβάσει offline. Η εφαρμογή θα αναπτυχθεί ως web εφαρμογή, ώστε να είναι προσβάσιμη από περισσότερους από ένα χρήστες, θα επιτρέπει στους διαχειριστές της να προσθέσουν πηγές από τις οποίες θα αντλούνται οι ειδήσεις, και να καθορίσουν κατηγορίες ειδήσεων σε αυτές. Η εφαρμογή μπορεί να έχει και εκδοχή για κινητά (ως android application).
Τεχνικές λεπτομέρειες: Η εργασία είναι επιθυμητό να αναπτυχθεί σε κινητό android και να μεταφορτώνει α) τις προτιμήσεις των χρηστών σε κάποιον κεντρικό server, β) την τελική εφημερίδα στο κινητό του χρήστη (σε pdf, epub ή αλλο σχετικό format) ανά τακτά διαστήματα και εφόσον υπάρχει σύνδεση με το δίκτυο. Θα χρειαστεί να επικοινωνεί με προκαθορισμένες πηγές άρθρων για να αντλεί το περιεχόμενο των άρθρων και να το αποθηκεύει στο server.
Βιβλιογραφία:
Θέμα 4: Εξαγωγή γνώσης από βιβλιογραφικές βάσεις δεδομένων.
Επιβλέπων: Ηρακλής Βαρλάμης
Στόχος της εργασίας είναι να εξάγει γνώση από βιβλιογραφικές βάσεις δεδομένων, αξιοποιώντας τεχνικές ανάλυσης γράφων και πληροφορία που αφορά τους συγγραφείς, τα ιδρύματα από τα οποία προέρχονται και την επιρροή που έχει η δουλειά τους στην ακαδημαϊκή κοινότητα. Στα πλαίσια της εργασίας θα πρέπει να μελετηθούν οι διεθνώς χρησιμοποιούμενες βιβλιογραφικές μετρικές καθώς και μετρικές που αφορούν την ανάλυση γράφων.
Τεχνικές λεπτομέρειες: Η εργασία θα χρησιμοποιήσει τεχνικές συμπίεσης γράφων (power graph analysis), ανάλυσης και εξαγωγής γνώσης από γράφους.
Βιβλιογραφία:
Θέμα 5: Εξόρυξη γνώσης από χρονικά μεταβαλόμενους γράφους
Επιβλέπων: Ηρακλής Βαρλάμης
Στις εφαρμογές κοινωνικής δικτύωσης, αλλά και γενικότερα στα social media, οι χρήστες συνάπτουν σχέσεις έμμεσα ή άμεσα οι οποίες μεταφέρουν πέρα από τον τύπο τους (π.χ. σχέσεις φιλίας, σχέσης παρακολούθησης κλπ), θετική ή αρνητική στάση, μια χρονική πληροφορία που υποδηλώνει πόσο πρόσφατες είναι ή πόσο πρόσφατα ανανεώθηκαν κλπ. Αυτή η πληροφορία μπορεί να αξιοποιηθεί με πολλούς τρόπους, όπως για παράδειγμα για να εντοπίσει σημαντικούς κόμβους μέσα στο κοινωνικό δίκτυο, να προτείνει τη δημιουργία νέων ακμών κλπ.
Στόχος της εργασίας είναι να υλοποιήσει αλγορίθμους που προτείνουν τη δημιουργία ακμών σε κοινωνικούς γράφους και να τους συγκρίνει σε όσο το δυνατόν περισσότερους κοινωνικούς γράφους, με διαφορετικά χαρακτηριστικά (κατευθυνόμενοι ή μη, διπλής ή μονής κατεύθυνσης, με ή χωρίς χρονική πληροφορία, με ή χωρίς πόλωση ακμών).
Βιβλιογραφία:
Θέμα 6: Ανίχνευση συμπεριφορών μέσα από ανάλυση συναισθήματος σε ακολουθίες μηνυμάτων
Επιβλέπων: Ηρακλής Βαρλάμης
Το πρόβλημα της εξόρυξης γνώμης ή συναισθήματος από κείμενα βρίσκει στις μέρες μας μεγάλο ενδιαφέρον, λόγω του μεγάλου αριθμού κειμένων που υποβάλουν οι χρήστες στα κοινωνικά μέσα με τη μορφή σχολίων, διαλόγων κλπ. Οι υπάρχουσες τεχνικές ανάλυσης συναισθήματος περιορίζονται στην αποσπασματική επεξεργασία κάθε σχολίου/κειμένου ξεχωριστά χωρίς να το εξετάσουν στο ευρύτερο πλαίσιο διαλόγου στο οποίο μπορεί να εντάσσεται.
Στόχος της εργασίας είναι να εισάγει μια νέα διάσταση στην ανάλυση συναισθήματος, τη διάσταση του χρόνου. Στα πλαίσια αυτά θα πρέπει να αναπτύξει αλγορίθμους που θα αναλύουν ακολουθίες κειμένων (π.χ. διαλόγους) και θα εξάγουν με βάση την αλληλουγία συναισθημάτων συμπεράσματα για την κατάσταση ή το προφίλ των συμμετεχόντων.
Τεχνικές λεπτομέρειες: Θα πρέπει να μελετηθούν και να τροποποιηθούν κατάλληλα αλγόριθμοι εξαγωγής γνώσης από ακολουθιακά δεδομένα (π.χ. Markov Models) και να δοκιμαστούν σε κατάλληλα σύνολα δεδομένων. Η εργασία θα πρέπει να συλλέξει τα δεδομένα εκπαίδευσης και ελέγχου και καλό είναι να εστιάσει σε συγκεκριμένους τύπους συμπεριφορών (προφίλ/καταστάσεων) όπως για παράδειγμα σε χρήστες που επιχειρούν bullying ή trolling. Για την εξαγωγή συναισθήματος μπορούν κατά περίπτωση να χρησιμοποιηθούν ή να αναπτυχθούν λεξικά όρων με συναισθηματικό φορτίο ή δεδομένα εκπαίδευσης.
Βιβλιογραφία:
Θέμα 1: Αυτόματη εξαγωγή και διαχείριση περιεχομένου από ειδησεογραφικά site
Επιβλέπων: Ηρακλής Βαρλάμης
Η πληθώρα ειδησεογραφικών πηγών και η ανάγκη της αγοράς για ανάλυση ειδήσεων σε μεγάλη κλίμακα, έχει καταστήσει αναγκαία την ύπαρξη μηχανισμών που θα συγκεντρώνουν πληροφορία από ειδησεογραφικές πηγές ελαχιστοποιώντας την ανθρώπινη παρέμβαση. Ταυτόχρονα καθιστά πλέον επιτακτική την ολοκλήρωση επιμέρους εργαλείων ανάλυσης και επεξεργασίας κειμένων σε μια ενιαία πλατφόρμα που θα στοχεύει στον τελικό χρήστη αποκρύβοντας τις επιμέρους λεπτομέρειες.
Στόχος της εργασίας είναι να σχεδιάσει και να υλοποιήσει αλγορίθμους που θα εντοπίζουν περιεχόμενο ενδιαφέροντος σε ειδησεογραφικά site και θα δημιουργούν με αυτόματο τρόπο μηχανισμούς εξαγωγής περιεχομένου. Στη συνέχεια θα οργανώνουν και αναλύουν τη συγκεντρωμένη πληροφορία και θα οπτικοποιούν την παραγόμενη γνώση.
Βιβλιογραφία:
Θέμα 2: Εξατομίκευση περιεχομένου με αξιοποίηση γνώμης και κοινωνικού δικτύου
Επιβλέπων: Ηρακλής Βαρλάμης
Η σύγχρονη τάση στα site αγορών είναι οι χρήστες να καταθέτουν τη γνώμη τους για διάφορα προϊόντα, βαθμολογώντας χωριστά τα καλά και τα κακά σημεία τους. Για παράδειγμα, στο tripadvisor βαθμολογείται ένα ξενοδοχείο χωριστά για την κάθε υπηρεσία που προσφέρει (reception, καθαριότητα, φαγητό κλπ). Ταυτόχρονα, στα site αυτά υπάρχει πληροφορία κοινωνικού δικτύου για τους χρήστες η οποία μπορεί να αξιοποιηθεί.
Στόχος της εργασίας είναι η σχεδίαση ενός μοντέλου που θα λαμβάνει υπόψη του τόσο τις γνώμες που καταθέτουν οι χρήστες για τις διαφορετικές ιδιότητες ενός αντικειμένου (aspect based opinion mining) αλλά και το κοινωνικό δίκτυο των χρηστών ώστε να καταλλήγει στις καλύτερες εναλλακτικές προτάσεις.
Βιβλιογραφία:
Θέμα 3: Εξαγωγή επιχειρηματικής γνώσης από δεδομένα νοσοκομείων
Επιβλέπων: Ηρακλής Βαρλάμης
Η πληθώρα δεδομένων που συγκεντρώνουν καθημερινά οι διευθυντές μονάδων υγείας αλλά και οι υπεύθυνοι σε επίπεδο περιφέρειας είναι μεγάλοι και συχνά απατείται χρονοβόρα ανάλυση για την επεξεργασία και την αποτύπωσή τους. Συχνά η πληροφορία στην οποία καταλήγει η ανάλυση αυτή είναι επίσης πολύ μεγάλη με αποτέλεσμα να είναι δύσκολο για τους υπεύθυνους να την επεξεργαστούν και να την αξιοποιήσουν.
Στόχος της εργασίας είναι να εστιάσει στις ανάγκες μιας συγκεκριμένης ομάδας χρηστών (π.χ. διευθυντές νοσοκομείων) για επιχειρηματική γνώση από δεδομένα που συλλέγονται καθημερινά από νοσοκομεία. Η εργασία θα αναλύσει τις ανάγκες και τα διαθέσιμα δεδομένα, θα ορίσει τις λειτουργικές απαιτήσεις μιας εφαρμογής επιχειρηματικής γνώσης και θα αναπτύξει τους μηχανισμούς για την οργάνωση και διαχείριση των δεδομένων αλλά και για την οπτικοποίηση της επιχειρηματικής γνώσης, σε ένα συγκεντρωτικό πίνακα ελέγχου (dashboard).
Βιβλιογραφία:
Θέμα 4: Εξόρυξη και αποτύπωση γνώσης από query logs σε βάσεις δεδομένων τεκμηρίων
Επιβλέπων: Ηρακλής Βαρλάμης
Τα αρχεία καταγραφής των ερωτήσεων που υποβάλουν οι χρήστες σε μια μηχανή αναζήτησης μπορούν να δώσουν πολύ χρήσιμη πληροφορία για τα ενδιαφέροντα των χρηστών, να ομαδοποιήσουν τους χρήστες και να τους προτείνουν νέα τεκμήρια τα οποία πιθανά τους ενδιαφέρουν κ.ο.κ. Στην περίπτωση που τα τεκμήρια είναι επιστημονικές δημοσιεύσεις και οι χρήστες ερευνητές από διάφορα επιστημονικά πεδία η γνώση που μπορεί να προκύψει παρουσιάζει ιδιαίτερο ενδιαφέρον.
Στόχος της εργασίας είναι να σχεδιάσει και να υλοποιήσει αλγορίθμους που θα αναλύουν σε διαφορετικά επίπεδα τα query logs μιας βάση δεδομένων επιστημονικών δημοσιεύσεων. Θα πρέπει να μελετηθεί η δυνατότητα ταυτοποίησης των χρηστών, η δυνατότητα περεταίρω ομαδοποίησής τους ανά φορέα προέλευσης, ανά πεδίο ενδιαφέροντος ή εναλλακτικά με βάση τις αναζητήσεις που επιχειρούν. Τέλος θα επιχειρηθεί μια ανάλυση των αρχείων αναζητήσεων η οποία θα αποτυπώσει τη ροή ενδιαφερόντων μεταξύ επιστημονικών πεδίων με βάση τις αναζητήσεις.
Βιβλιογραφία:
Θέμα 5: Δημιουργία συνόψεων σε βάσεις δεδομένων τεκμηρίων
Επιβλέπων: Ηρακλής Βαρλάμης
Οι βάσεις δεδομένων τεκμηρίων συγκεντρώνουν σύνθετη πληροφορία για πολύ μεγάλο αριθμό τεκμηρίων. Η επισκόπηση της πληροφορίας αυτής είναι αρκετά δύσκολη αν γίνει σε επίπεδο μονάδας. Για το λόγο αυτό οι οργανισμοί που διαθέτουν τα τεκμήρια επιχειρούν αυτόματες ή ημι-αυτόματες κατηγοριοποιήσεις των τεκμηρίων και ταυτόχρονα προσπαθούν να υλοποιήσουν διαφορετικούς τρόπους αναζήτησης ή περιήγησης στα τεκμήρια αυτά.
Στόχος της εργασίας είναι να σχεδιάσει και να υλοποιήσει αλγορίθμους που θα κατηγοριοποιούν αυτόματα επιστημονικά τεκμήρια (μεταδεδομένα επιστημονικών δημοσιεύσεων όπως βιβλία, διατριβές κλπ) σε προκαθορισμένες κατηγορίες με βάση τη λεκτική περιγραφή που υπάρχει στα μεταδεδομένα τους (τίτλους, περιλήψεις, λέξεις κλειδιά, στοιχεία συγγραφέων). Επιπλέον θα σχεδιάσει μηχανισμούς που θα παράγουν συνόψεις των τεκμηρίων σε διάφορους άξονες και επίπεδα λεπτομέρειας.
Βιβλιογραφία: