1) Εμπλουτισμός ιστοσελίδων με αναζήτηση σε βάσεις πληροφοριών
Θεωρητικό υπόβαθρο: Οι σύγχρονες προσπάθειες στο χώρο της αναζήτησης πληροφορίας στο Web έχουν εστιάσει στην πληροφορία που διατίθεται σε απόλυτα δομημένη μορφή, είναι πλούσια σε σημασιολογικό περιεχόμενο και κατά συνέπεια είναι εύκολο να διαχειριστεί από μια μηχανή. Για το σκοπό αυτό μεγάλες βάσεις πληροφοριών σε όλους τους τομείς (επιστήμες, τέχνες, περιβάλλον κλπ) έχουν υιοθετήσει της αρχές του W3C και διαθέτουν πλέον τα δεδομένα τους με τη μορφή RDF tripplets δημιουργώντας έτσι ένα πυκνό δίκτυο πληροφορίας, γνωστό και ως Linked Data ( http://linkeddata.org/ ) που είναι άμεσα αξιοποιήσημο από οποιαδήποτε μηχανή αναζήτησης.
Η εργασία θα μελετήσει τον τόπο οργάνωσης της πληροφορίας αυτής, θα κατανοήσει τα πρότυπα που χρησιμοποιούνται για την περιγραφή της και θα εξετάσει τους υπάρχοντες μηχανισμούς διάθεσης και αξιοποίησής της. Παράλληλα στοχεύει να επιδείξει τις νέες δυνατότες και τις ευκαιρίες που δημιουργούνται αναπτύσσοντας μια πρότυπη εφαρμογή που θα αξιοποιεί υπάρχουσα υποδομή. Ο πρότυπος μηχανισμός θα προσφέρει στο χρήστη ενός web browser τη δυνατότητα να δει περισσότερες πληροφορίες για όρους που επιλέγει. Θα κάνει χρήση υπαρχόντων βάσεων πληροφοριών και υπηρεσιών αναζήτησης, οι οποίες είναι ανεπτυγμένες με τις αρχές των Linked Data, θα επεξεργάζεται τα αποτελέσματα της αναζήτησης και θα τα εμφανίζει εντός του web browser.
Τεχνικές λεπτομέρειες: Η εφαρμογή που θα αναπτυχθεί μπορεί να αξιοποιεί το Yahoo Search BOSS (Build your Own Search Service: http://developer.yahoo.com/search/boss/) και το API που αυτό προσφέρει. Θα αναπτυχθεί με τη μορφή plugin για web browser ή εναλλακτικά με τη μορφή μιας μηχανής αναζήτησης.
Βιβλιογραφία:
2) Αποσαφήνιση όρων με χρήση σημασιολογικής πληροφορίας
H αποσαφήνιση αναφέρεται στην αντιμετώπιση της ασάφειας στην ερμηνεία ενός όρου η οποία συμβαίνει όταν ο όρος συνδέεται στενά με δύο ή περισσότερα θέματα. Η ασάφεια στην ερμηνεία ενός όρου δημιουργεί μεγάλες δυσκολίες σε πολλές εργασίες διαχείρισης κειμένων, π.χ. στην αναζήτηση, στην κατηγοριοποίηση κειμένων κλπ. Όταν για παράδειγμα ο χρήστης δίνει σε μια μηχανή αναζήτησης τη λέξη "jaguar" ενδέχεται να εννοεί το ζώο, τη μάρκα αυτοκινήτου κλπ ανάλογα με τα ενδιαφέροντά του. Η αποσαφήνιση γίνεται συνήθως με χρήση του περιβάλλοντος στο οποίο εμφανίζεται ο όρος, δλδ των λέξεων που εμφανίζονται στο ίδιο κείμενο, στην ίδια πρόταση, σε κοντινή απόσταση με τον όρο. Μια μεγάλη κατηγορία μεθόδων χρησιμοποιεί λεξικά και άλλους γλωσσολογικούς πόρους ώστε να εντοπίσει την καταλληλότερη έννοια για έναν όρο.
Η εργασία θα μελετήσει τις μεθόδους αποσαφήνισης της έννοιας λέξεων (Word Sense Dissambiguation methods) δίνοντας έμφαση σε αυτές που χρησιμοποιούν γλωσσολογική γνώση. Επίσης θα μελετήσει και θα προσαρμόσει κλασικούς αλγορίθμους WSD (Lesk, κλπ) στην υποδομή που προσφέρουν οι βάσεις γνώσης του Semantic Web και θα αξιολογήσει τα αποτελέσματα σε γνωστές εργασίες αποσαφήνισης.
Τεχνικές λεπτομέρειες: Οι αλγόριθμοι που θα υλοποιηθούν θα αξιοποιούν τη βάση γνώσης ULMS και η σύγκριση θα γίνει σε γνωστά σύνολα δεδομένων (http://wsd.nlm.nih.gov/). Θα χρησιμοποιηθεί ΒΔ MySQL για διαχείριση των δεδομένων και αποτελεσμάτων.
Βιβλιογραφία:
3) Χαρακτηρισμός άποψης με χρήση ταξινομητών και σημασιολογικής ομοιότητας
Το πρόβλημα του χαρακτηρισμού της άποψης που μεταφέρει μια φράση/ένα κείμενο, έχει μεγάλο ερευνητικό και πρακτικό ενδιαφέρον το οποίο γίνεται ακόμη πιο έντονο με την έλευση των εφαρμογών κοινωνικής δικτύωσης. Σε αυτές συχνά οι χρήστες εκφράζουν την άποψή τους για προϊόντα, περιεχόμενο κλπ άλλων χρηστών χρησιμοποιώντας σύντομες φράσεις με έντονο όμως σημασιολογικό περιεχόμενο. Αντίστοιχο είναι και το ενδιαφέρον για την ανάλυση του συναισθήματος που μεταφέρουν τα λεγόμενα των χρηστών.Το πρόβλημα της εξόρυξης γνώμης συχνά ανάγεται σε ένα πρόβλημα κατηγοριοποίησης κάθε φράσης ή μέρους αυτής σε προκαθορισμένες κατηγορίες. Οι αλγόριθμοι που έχουν αναπτυχθεί ως τώρα χρησιμοποιούν πρότερη γνώση (κείμενα ή φράσεις που γνωρίζουμε την κατηγορία τους) για την εκπαίδευση του ταξινομητή και μέτρα ομοιότητας μεταξύ φράσεων ώστε να κατατάξουν τις νέες φράσεις στην καταλληλότερη κατηγορία.
Η εργασία θα μελετήσει και θα καταγράψει τις διαφορετικές προσεγγίσεις/αλγορίθμους που έχουν προταθεί στη βιβλιογραφία για το χαρακτηρισμό άποψης. Στη συνέχεια θα αναπτύξει μια πλατφόρμα που θα ενσωματώνει τους αλγορίθμους του Weka, θα επιτρέπει την εισαγωγή δεδομένων εκπαίδευσης και δοκιμής, τροποποίηση των παραμέτρων κάθε αλγορίθμου και εξαγωγή αποτελεσμάτων. Στην πρότυπη εφαρμογή που θα αναπτυχθεί θα πρέπει να ενσωματωθούν και να συγκριθούν τρεις τουλάχιστον αλγόριθμοι.
Τεχνικές λεπτομέρειες: Αρκετοί ταξινομητές κειμένων υπάρχουν στο λογισμικό Weka (http://www.cs.waikato.ac.nz/ml/weka/), όπως Bayes, SVM κλπ. Η πλατφόρμα που θα αναπτυχθεί θα χρησιμοποιεί τις βιβλιοθήκες του Weka, γι' αυτό και θα πρέπει να γραφεί σε Java. Αρκετά δεδομένα για αξιολόγηση των αλγορίθμων υπάρχουν εδώ: http://www.datawrangling.com/some-datasets-available-on-the-web
Βιβλιογραφία