Thesis
Θέματα διπλωματικών εργασιών (ΠΜΣ)
Τίτλος: Ανάλυση ρεύματος δεδομένων θέσης (geolocation data streams) για εντοπισμό προτύπων κίνησης
Επιβλέποντες: Βαρλάμης, Τσερπές, Καραγιώργου
Σύντομη περιγραφή: Στόχος της εργασίας είναι να αναπτύξει κώδικα για την επεξεργασία ροής δεδομένων θέσης για πολλά, ταυτόχρονα, κινούμενα αντικείμενα. Ο κώδικας θα διαχωρίζει τα αντικείμενα και θα τρέχει για καθένα απ' αυτά έναν αλγόριθμο πυκνότητας ώστε να εντοπίσει πυκνές συστάδες σημείων θέσης. Η εργασία θα υλοποιήσει μια αυξητική εκδοχή του δημοφιλούς αλγορίθμου πυκνότητας (DBScan) προσθέτωντας σε αυτόν χωρικές και χρονικές παραμέτρους.
Βιβλιογραφία:
- Birant, D., & Kut, A. (2007). ST-DBSCAN: An algorithm for clustering spatial–temporal data. Data & Knowledge Engineering, 60(1), 208-221.
- Chakraborty, S., Nagwani, N. K., & Dey, L. (2014). Performance comparison of incremental k-means and incremental dbscan algorithms. arXiv preprint arXiv:1406.4751.
- Li, Z., Lee, J. G., Li, X., & Han, J. (2010, April). Incremental clustering for trajectories. In International Conference on Database Systems for Advanced Applications (pp. 32-46). Springer Berlin Heidelberg.
-
Palma, A. T., Bogorny, V., Kuijpers, B., & Alvares, L. O. (2008, March). A clustering-based approach for discovering interesting places in trajectories. In Proceedings of the 2008 ACM symposium on Applied computing (pp. 863-868). ACM.
Τίτλος: Εντοπισμός προτύπων κίνησης σε γεωχωρικά δεδομένα
Επιβλέποντες: Βαρλάμης, Καραγιώργου, Τσερπές
Σύντομη περιγραφή: Στόχος της εργασίας είναι η κατηγοριοποίηση της κίνησης αντικειμένων σε συγκεκριμένα μοτίβα κίνησης με αξιοποίηση τα πιο πρόσφατα δεδομένα θέσης. Η εργασία θα εφαρμόσει τεχνικές ομαδοποίησης ή/και κατηγοριοποίησης σε γενικευμένες τροχιές κινούμενων αντικειμένων με στόχο να χαρακτηρίσει τις τροχίες (π.χ. κυκλική τροχιά, κίνηση σε ευθεία, ελιγμοί κλπ.)
Βιβλιογραφία:
- Deng, Z., Hu, Y., Zhu, M., Huang, X., & Du, B. (2015). A scalable and fast OPTICS for clustering trajectory big data. Cluster Computing, 18(2), 549-562.
-
Lee, J. G., Han, J., & Whang, K. Y. (2007, June). Trajectory clustering: a partition-and-group framework. In Proceedings of the 2007 ACM SIGMOD international conference on Management of data (pp. 593-604). ACM.
-
Palma, A. T., Bogorny, V., Kuijpers, B., & Alvares, L. O. (2008, March). A clustering-based approach for discovering interesting places in trajectories. In Proceedings of the 2008 ACM symposium on Applied computing (pp. 863-868). ACM.
- Panagiotakis, C., Pelekis, N., & Kopanakis, I. (2009, August). Trajectory voting and classification based on spatiotemporal similarity in moving object databases. In International Symposium on Intelligent Data Analysis (pp. 131-142). Springer, Berlin, Heidelberg.
Τίτλος: Χωροχρονική ανάλυση ρεύματος δεδομένων από το Twitter
Επιβλέποντες: Βαρλάμης, Καραγιώργου, Τσερπές
Σύντομη περιγραφή: Η παρούσα εργασία θα αξιοποιήσει βασικά εργαλεία ανάλυσης κειμένου για να εξάγει γνώσεις από μικρά κείμενα και θα βασιστεί πάνω στο ELK stack (Elastic Search - Logstash - Kibana) για να αποτυπώσει τις τάσεις που δημιουργούνται σε ένα ρεύμα δεδομένων στο Twitter. Στόχος είναι η ανάλυση δεδομένων να γίνεται σε πραγματικό χρόνο και να μην αποθηκεύονται τα πρωτογενή δεδομένα αλλά μόνο οι πληροφορίες που προκύπτουν από την επεξεργασία τους.
Βιβλιογραφία:
- Makrynioti, N., Grivas, A., Sardianos, C., Tsirakis, N., Varlamis, I., Vassalos, V., ... & Tsantilas, P. (2017). PaloPro: a platform for knowledge extraction from big social data and the news. International Journal of Big Data Intelligence, 4(1), 3-22.
- Wei, H., Wu, S., Zhao, Y., Deng, Z., Ersotelos, N., Parvinzamir, F., ... & Dong, F. (2016, April). Data Mining, Management and Visualization in Large Scientific Corpuses. In International Conference on Technologies for E-Learning and Digital Entertainment (pp. 371-379). Springer International Publishing.
- Sachdeva, G. S. (2017). Introduction to the ELK Stack. In Practical ELK Stack (pp. 1-17). Apress.
- The Complete Guide to the ELK Stack
Τίτλος: Αξιοποίηση και εξόρυξη γνώσης από χωρο-χρονικά δεδομένα ποδοσφαιρικών αγώνων
Επιβλέποντες: Καραγιώργου, Βαρλάμης, Μιχαήλ
Σύντομη περιγραφή: Στόχος της εργασίας είναι η εξόρυξη γνώσης από χωρο-χρονικά δεδομένα ποδοσφαιρικών αγώνων με τη μορφή συχνά εμφανιζόμενων προτύπων, κατηγοριοποίηση ή συσταδοποίηση των δεδομένων θέσης και αποτύπωση της εξαγόμενης πληροφορίας.
Βιβλιογραφία:
- Bialkowski, A., Lucey, P., Carr, P., Yue, Y., Sridharan, S., & Matthews, I. (2014, December). Large-scale analysis of soccer matches using spatiotemporal tracking data. In Data Mining (ICDM), 2014 IEEE International Conference on (pp. 725-730). IEEE.
- Rein, R., & Memmert, D. (2016). Big data and tactical analysis in elite soccer: future challenges and opportunities for sports science. SpringerPlus, 5(1), 1410.
- Bialkowski, A., Lucey, P., Carr, P., Matthews, I., Sridharan, S., & Fookes, C. (2016). Discovering Team Structures in Soccer from Spatiotemporal Data. IEEE Transactions on Knowledge and Data Engineering, 28(10), 2596-2605.
Τίτλος: Ανάλυση οικονομικών και άλλων δεικτών σχετικά με την εκπαίδευση και αποτύπωση της εξαγόμενης γνώσης
Επιβλέποντες: Βαρλάμης, Δημητρακόπουλος, Τσερπές
Σύντομη περιγραφή: Στόχος της εργασίας είναι η εξόρυξη γνώσης από δεδομένα που παρέχει η Παγκόσμια Τράπεζα για δείκτες που σχετίζονται με την εκπαίδευση. Η ανάλυση και οπτικοποίηση των δεδομένων θα γίνει με το λογισμικό Tableau.
Βιβλιογραφία:
- Murray, D. G. (2013). Tableau your data!: fast and easy visual analysis with tableau software. John Wiley & Sons.
- Jones, B. (2014). Communicating Data with Tableau: Designing, Developing, and Delivering Data Visualizations. " O'Reilly Media, Inc.".
- Morton, K., Bunker, R., Mackinlay, J., Morton, R., & Stolte, C. (2012, May). Dynamic workload driven data integration in tableau. In Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data (pp. 807-816). ACM.
- Data Visualization and Communication with Tableau
Θέματα πτυχιακών εργασιών
Τίτλος: Ανάπτυξη υποδομής για τη διαχείριση μεγάλων συλλογών κειμένων και την εξαγωγή στατιστικών
Επιβλέποντες: Βαρλάμης, Νικολαϊδη, Τσερπές
Σύντομη περιγραφή: Αντικείμενο της εργασίας είναι να θέσει σε λειτουργία όλη την απαιτούμενη υποδομή για την οργάνωση κειμένων και μεταδεδομένων που εξάγονται από αυτά. Απώτερος στόχος να διευκολύνει την παρακολούθηση της εξέλιξης μιας συλλογής κειμένων με το χρόνο μέσα από οπτικοποίηση της κατάλληλης πληροφορίας. Το σώμα κειμένων ακολουθεί το (XML) πρότυπο ΤΕΙ και η υποδομή που αναπτυχθεί θα βασιστεί στο ELK stack (Elastic Search - Logstash - Kibana).
Βιβλιογραφία:
- Makrynioti, N., Grivas, A., Sardianos, C., Tsirakis, N., Varlamis, I., Vassalos, V., ... & Tsantilas, P. (2017). PaloPro: a platform for knowledge extraction from big social data and the news. International Journal of Big Data Intelligence, 4(1), 3-22.
- Wei, H., Wu, S., Zhao, Y., Deng, Z., Ersotelos, N., Parvinzamir, F., ... & Dong, F. (2016, April). Data Mining, Management and Visualization in Large Scientific Corpuses. In International Conference on Technologies for E-Learning and Digital Entertainment (pp. 371-379). Springer International Publishing.
- Sachdeva, G. S. (2017). Introduction to the ELK Stack. In Practical ELK Stack (pp. 1-17). Apress.
- The Complete Guide to the ELK Stack
Τίτλος: Εξόρυξη επώνυμων οντοτήτων (NER) από κείμενα με χρήση νευρωνικών δικτύων
Επιβλέποντες: Βαρλάμης, Καραγιώργου, Δημητρακόπουλος
Σύντομη περιγραφή: Στόχος της εργασίας είναι να αξιοποιήσει μεγάλα σώματα κειμένων ώστε να αναπτύξει κατάλληλες διανυσματικές αναπαραστάσεις και στη συνέχεια να τις αξιοποιήσει για τον αυτόματο εντοπισμό Επώνυμων Οντοτήτων (π.χ. κύρια ονόματα, τοποθεσίες κλπ). Θα αξιοποιήσει τεχνολογίες νευρωνικών δικτύων όπως αυτές που προσφέρει η πλατφόρμα TensorFlow και γλωσσικής ανάλυσης κειμένων όπως αυτά της βιβλιοθήκης NLTK.
Βιβλιογραφία:
- Nadeau, D., & Sekine, S. (2007). A survey of named entity recognition and classification. Lingvisticae Investigationes, 30(1), 3-26.
- Nothman, J., Ringland, N., Radford, W., Murphy, T., & Curran, J. R. (2013). Learning multilingual named entity recognition from Wikipedia. Artificial Intelligence, 194, 151-175.
- Habibi, M., Weber, L., Neves, M., Wiegandt, D. L., & Leser, U. (2017). Deep learning with word embeddings improves biomedical named entity recognition. Bioinformatics, 33(14), i37-i48.
- Strauss, B., Toma, B., Ritter, A., de Marneffe, M. C., & Xu, W. (2016). Results of the wnut16 named entity recognition shared task. In Proceedings of the 2nd Workshop on Noisy User-generated Text (WNUT) (pp. 138-144).
- Word2Vec on TensorFlow
- Deep Learning using TensorFlow and NLTK
Τίτλος: Εξαγωγή και ανάλυση συναισθήματος σε πραγματικό χρόνο από ανάλυση βίντεο
Επιβλέποντες: Βαρλάμης, Τσερπές, Μιχαήλ
Σύντομη περιγραφή: Αντικείμενο της εργασίας είναι να αναπτύξει ένα λογισμικό για την ανάλυση του συναισθήματος σε ένα ακροατήριο. Το λογισμικό θα αξιοποιεί την εικόνα που καταγράφει μια κάμερα που στοχεύει το ακροατήριο και θα παρέχει συγκεντρωτικά στοιχεία σε πραγματικό χρόνο αλλά και στο τέλος της καταγραφής.
Βιβλιογραφία:
- Rosas, V. P., Mihalcea, R., & Morency, L. P. (2013). Multimodal sentiment analysis of Spanish online videos. IEEE Intelligent Systems, 28(3), 38-45.
- Cambria, E. (2016). Affective computing and sentiment analysis. IEEE Intelligent Systems, 31(2), 102-107.
- Poria, S., Cambria, E., Howard, N., Huang, G. B., & Hussain, A. (2016). Fusing audio, visual and textual clues for sentiment analysis from multimodal content. Neurocomputing, 174, 50-59.
-
Volkov, M. (2016). Machine learning and coresets for automated real-time data segmentation and summarization (Doctoral dissertation, Massachusetts Institute of Technology).
- SentiVid project