Thesis

Θέματα πτυχιακών εργασιών 2011-2012

Θέμα 1: Εμπλουτισμός ιστοσελίδων με αναζήτηση σε βάσεις πληροφοριών

Επιβλέπων: Ηρακλής Βαρλάμης

Θεωρητικό υπόβαθρο: Οι σύγχρονες προσπάθειες στο χώρο της αναζήτησης πληροφορίας στο Web έχουν εστιάσει στην πληροφορία που διατίθεται σε απόλυτα δομημένη μορφή, είναι πλούσια σε σημασιολογικό περιεχόμενο και κατά συνέπεια είναι εύκολο να διαχειριστεί από μια μηχανή. Για το σκοπό αυτό μεγάλες βάσεις πληροφοριών σε όλους τους τομείς (επιστήμες, τέχνες, περιβάλλον κλπ) έχουν υιοθετήσει της αρχές του W3C και διαθέτουν πλέον τα δεδομένα τους με τη μορφή RDF tripplets δημιουργώντας έτσι ένα πυκνό δίκτυο πληροφορίας, γνωστό και ως Linked Data ( http://linkeddata.org/ ) που είναι άμεσα αξιοποιήσημο από οποιαδήποτε μηχανή αναζήτησης.

Η εργασία θα μελετήσει τον τόπο οργάνωσης της πληροφορίας αυτής, θα κατανοήσει τα πρότυπα που χρησιμοποιούνται για την περιγραφή της και θα εξετάσει τους υπάρχοντες μηχανισμούς διάθεσης και αξιοποίησής της. Παράλληλα στοχεύει να επιδείξει τις νέες δυνατότες και τις ευκαιρίες που δημιουργούνται αναπτύσσοντας μια πρότυπη εφαρμογή που θα αξιοποιεί υπάρχουσα υποδομή. Ο πρότυπος μηχανισμός θα προσφέρει στο χρήστη ενός web browser τη δυνατότητα να δει περισσότερες πληροφορίες για όρους που επιλέγει. Θα κάνει χρήση υπαρχόντων βάσεων πληροφοριών και υπηρεσιών αναζήτησης, οι οποίες είναι ανεπτυγμένες με τις αρχές των Linked Data, θα επεξεργάζεται τα αποτελέσματα της αναζήτησης και θα τα εμφανίζει εντός του web browser.

Τεχνικές λεπτομέρειες: Η εφαρμογή που θα αναπτυχθεί μπορεί να αξιοποιεί το Yahoo Search BOSS (Build your Own Search Service: http://developer.yahoo.com/search/boss/) και το API που αυτό προσφέρει. Θα αναπτυχθεί με τη μορφή plugin για web browser ή εναλλακτικά με τη μορφή μιας μηχανής αναζήτησης.

Βιβλιογραφία:

Christian Bizer, Tom Heath and Tim Berners-Lee (in press). Linked Data - The Story So Far. International Journal on Semantic Web and Information Systems, Special Issue on Linked Data.
Michael Hausenblas. Exploiting Linked Data For Building Web Applications. IEEE Internet Computing. July/August 2009 (vol. 13 no. 4) pp. 68-73.
Michael Hausenblas, Wolfgang Halb, Yves Raimond. Scripting User Contributed Interlinking. 4th Workshop on Scripting for the Semantic Web (SFSW) 2008.

Θέμα 2: Αποσαφήνιση όρων με χρήση σημασιολογικής πληροφορίας

Επιβλέπων: Ηρακλής Βαρλάμης

H αποσαφήνιση αναφέρεται στην αντιμετώπιση της ασάφειας στην ερμηνεία ενός όρου η οποία συμβαίνει όταν ο όρος συνδέεται στενά με δύο ή περισσότερα θέματα. Η ασάφεια στην ερμηνεία ενός όρου δημιουργεί μεγάλες δυσκολίες σε πολλές εργασίες διαχείρισης κειμένων, π.χ. στην αναζήτηση, στην κατηγοριοποίηση κειμένων κλπ. Όταν για παράδειγμα ο χρήστης δίνει σε μια μηχανή αναζήτησης τη λέξη "jaguar" ενδέχεται να εννοεί το ζώο, τη μάρκα αυτοκινήτου κλπ ανάλογα με τα ενδιαφέροντά του. Η αποσαφήνιση γίνεται συνήθως με χρήση του περιβάλλοντος στο οποίο εμφανίζεται ο όρος, δλδ των λέξεων που εμφανίζονται στο ίδιο κείμενο, στην ίδια πρόταση, σε κοντινή απόσταση με τον όρο. Μια μεγάλη κατηγορία μεθόδων χρησιμοποιεί λεξικά και άλλους γλωσσολογικούς πόρους ώστε να εντοπίσει την καταλληλότερη έννοια για έναν όρο.

Η εργασία θα μελετήσει τις μεθόδους αποσαφήνισης της έννοιας λέξεων (Word Sense Dissambiguation methods) δίνοντας έμφαση σε αυτές που χρησιμοποιούν γλωσσολογική γνώση. Επίσης θα μελετήσει και θα προσαρμόσει κλασικούς αλγορίθμους WSD (Lesk, κλπ) στην υποδομή που προσφέρουν οι βάσεις γνώσης του Semantic Web και θα αξιολογήσει τα αποτελέσματα σε γνωστές εργασίες αποσαφήνισης.

Τεχνικές λεπτομέρειες: Οι αλγόριθμοι που θα υλοποιηθούν θα αξιοποιούν τη βάση γνώσης ULMS και η σύγκριση θα γίνει σε γνωστά σύνολα δεδομένων (http://wsd.nlm.nih.gov/). Θα χρησιμοποιηθεί ΒΔ MySQL για διαχείριση των δεδομένων και αποτελεσμάτων.

Βιβλιογραφία:

Lesk, M. (1986). Automatic sense disambiguation using machine readable dictionaries: how to tell a pine cone from an ice cream cone. In SIGDOC '86: Proceedings of the 5th annual international conference on Systems documentation, pages 24-26, New York, NY, USA. ACM.
Agirre, Eneko & Philip Edmonds (eds.). 2006. Word Sense Disambiguation: Algorithms and Applications. Dordrecht: Springer. www.wsdbook.org
Roberto Navigli. Word Sense Disambiguation: A Survey, ACM Computing Surveys, 41(2), 2009, pp. 1–69.
Satanjeev Banerjee and Ted Pedersen. An Adapted Lesk Algorithm for Word Sense Disambiguation Using WordNet, Lecture Notes In Computer Science; Vol. 2276, Pages: 136 - 145, 2002.

Θέμα 3: Εξόρυξη γνώμης με χρήση ταξινομητών και αποτύπωση σε γραφήματα

Επιβλέπων: Ηρακλής Βαρλάμης

Το πρόβλημα του χαρακτηρισμού της άποψης που μεταφέρει μια φράση/ένα κείμενο, έχει μεγάλο ερευνητικό και πρακτικό ενδιαφέρον το οποίο γίνεται ακόμη πιο έντονο με την έλευση των εφαρμογών κοινωνικής δικτύωσης. Σε αυτές συχνά οι χρήστες εκφράζουν την άποψή τους για προϊόντα, περιεχόμενο κλπ άλλων χρηστών χρησιμοποιώντας σύντομες φράσεις με έντονο όμως σημασιολογικό περιεχόμενο. Αντίστοιχο είναι και το ενδιαφέρον για την ανάλυση του συναισθήματος που μεταφέρουν τα λεγόμενα των χρηστών.Το πρόβλημα της εξόρυξης γνώμης συχνά ανάγεται σε ένα πρόβλημα κατηγοριοποίησης κάθε φράσης ή μέρους αυτής σε προκαθορισμένες κατηγορίες. Οι αλγόριθμοι που έχουν αναπτυχθεί ως τώρα χρησιμοποιούν πρότερη γνώση (κείμενα ή φράσεις που γνωρίζουμε την κατηγορία τους) για την εκπαίδευση του ταξινομητή και μέτρα ομοιότητας μεταξύ φράσεων ώστε να κατατάξουν τις νέες φράσεις στην καταλληλότερη κατηγορία.

Στόχος της εργασίας είναι να αυτοματοποιήσει τη διαδικασία από την πρώτη φάση της συλλογής των γνωμών μέχρι την τελική αποτύπωσή τους σε συγκεντρωτικά γραφήματα.

Η εργασία θα μελετήσει και θα καταγράψει τις διαφορετικές προσεγγίσεις/αλγορίθμους που έχουν προταθεί στη βιβλιογραφία για το χαρακτηρισμό άποψης. Στη συνέχεια θα επεκτείνει μια πλατφόρμα που ενσωματώνει υπάρχοντες αλγορίθμους συσταδοποίησης, θα αυτοματοποιεί την εισαγωγή δεδομένων εκπαίδευσης και δοκιμής, των παραμέτρων κάθε αλγορίθμου, την εξαγωγή αποτελεσμάτων και την οπτικοποίησή τους. Στην πρότυπη εφαρμογή που θα αναπτυχθεί θα πρέπει να ενσωματωθούν και να συγκριθούν τρεις τουλάχιστον αλγόριθμοι. Επιπλέον, θα πρέπει τα αποτελέσματα της διαδικασίας εξόρυξης γνώμης να αποτυπώνονται αυτόματα σε τρεις διαφορετικές αναπαραστάσεις που θα επιλεγούν σε συνεννόηση με τον επιβλέποντα.

Τεχνικές λεπτομέρειες: Αρκετοί ταξινομητές κειμένων υπάρχουν στο λογισμικό Weka (http://www.cs.waikato.ac.nz/ml/weka/), όπως Bayes, SVM κλπ. Η πλατφόρμα που θα αναπτυχθεί θα χρησιμοποιεί τις βιβλιοθήκες του Weka, γι' αυτό και θα πρέπει να γραφεί σε Java. Αρκετά δεδομένα για αξιολόγηση των αλγορίθμων υπάρχουν εδώ: http://www.datawrangling.com/some-datasets-available-on-the-web

Βιβλιογραφία

Bo Pang, Lillian Lee. Opinion mining and sentiment analysis. Foundations and Trends in Information Retrieval 2(1-2), pp. 1–135, 2008. Online at http://www.cs.cornell.edu/home/llee/omsa/omsa.pdf
Ding, X., Liu, B., and Yu, P. S. 2008. A holistic lexicon-based approach to opinion mining. In Proceedings of the international Conference on Web Search and Web Data Mining (Palo Alto, California, USA, February 11 - 12, 2008). WSDM '08. ACM, New York, NY, 231-240.
Ian Barber, Bayesian Opinion Mining, Online at http://phpir.com/bayesian-opinion-mining
Bing Liu, Opinion Mining, Sentiment Analysis, and Opinion Spam Detection. http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html

Θέμα 4: Ανάπτυξη περιεχομένου για την Ελληνική έκδοση της Wikipedia σχετικά με το πεδίο της Εξόρυξης Γνώσης

Επιβλέπων: Ηρακλής Βαρλάμης

Αρκετοί φορείς της χώρας έχουν ξεκινήσει μέχρι σήμερα δράσεις για τον εμπλουτισμό της Ελληνικής έκδοσης της Wikipedia. Στα πλαίσια ενίσχυσης των προσπαθειών αυτών η εργασία θα δημιουργήσει περιεχόμενο για το πεδίο της Εξόρυξης Γνώσης, χρησιμοποιώντας ως βάση την αγγλική σελίδα για το Data Mining και το υλικό του μαθήματος που διδάσκεται στο τμήμα.

Στόχος της εργασίας είναι να δημιουργήσει πρωτογενές υλικό για την Ελληνική κοινότητητα της Wikipedia. Eπιπλέον να μελετήσει όλο το μηχανισμό δημιουργίας, ελέγχου ποιότητας και διορθώσεων της Wikipedia και να εξάγει συμπεράσματα για τη λειτουργία του μηχανισμού σε συνεργατικά συστήματα γνώσης.

Τεχνικές λεπτομέρειες: Σχετικές πληροφορίες και δράσεις μπορεί κανείς να λάβει στα:

My wikipedia
Contributing to Wikipedia
Aniket Kittur, Bongwon Suh, Bryan A. Pendleton, and Ed H. Chi. 2007. He says, she says: conflict and coordination in Wikipedia. In Proceedings of the SIGCHI conference on Human factors in computing systems (CHI '07). ACM, New York, NY, USA, 453-462.

Θέμα 5: Μελέτη και σχεδίαση μεθόδων εξόρυξη γνώσης από Βιοιατρικά Δεδομένα

Επιβλέπων: Ηρακλής Βαρλάμης

Τα δεδομένα που συγκεντρώνονται σε ιατρικές βάσεις δεδομένων και περιλαμβάνουν δημογραφικά στοιχεία, συνήθειες, ιατρικό ιστορικό κλπ των ασθενών, μπορούν να αποτελέσουν μια σημαντική πηγή γνώσης αν αξιοποιηθούν αποτελεσματικά.

Στόχος της εργασίας είναι να εξάγει γνώση στη μορφή προτύπων (κανόνων, συστάδων, προβλέψεων κλπ) από ιατρικά δεδομένα με αξιοποίηση εργαλείων και τεχνικών εξόρυξης γνώσης. Για το σκοπό αυτό, αρχικά θα μελετηθούν και θα παρουσιαστούν τεχνικές και εργαλεία που έχουν προταθεί στο παρελθόν για το σκοπό αυτό, στη συνέχεια θα χρησιμοποιηθούν οι πιο σημαντικές από τις τεχνικές αυτές και θα προσαρμοστούν στις ανάγκες των δεδομένων. Τα προτύπων που θα ανακαλυφθούν θα αξιολογηθούν ως προς την εγγυρότητά τους και θα επικυρωθούν.

Τεχνικές λεπτομέρειες: Σχετικές πληροφορίες και δράσεις μπορεί κανείς να λάβει στα:

Jiawei Han,Micheline Kamber,Jian Peir. 2011. Data Mining: Concepts and Techniques. 3rd Edition. Elsevier
Krzysztof J. Cios. 2001. Medical Data Mining and Knowledge Discovery. J. Kacprzyk (Ed.). Physica-Verlag.
R. Bharat Rao, Oksana Yakhnenko, and Balaji Krishnapuram. 2008. KDD cup 2008 and the workshop on mining medical data. SIGKDD Explor. Newsl. 10, 2 (December 2008), 34-38.

Iraklis Varlamis

Θέματα πτυχιακών εργασιών 2011-2012