Παρουσίαση/Προβολή

Εισαγωγή στην επιστήμη των δεδομένων και τη μηχανική μάθηση
(Φ-252) - Paolo Bonfini, Γιώργος Τσιρώνης
Περιγραφή Μαθήματος
Description [Semester: Sep. 2024 - Feb. 2025]
In modern science, high-energy Physics experiments, as well as astronomical observations, produce a huge amount of data ("big data") which require highly effective methods in order to be analyzed, leading to significant inferences. Data science is an interdisciplinary field that combines various topics, such as statistics and probability theory, information theory, data analysis, machine learning, and other relevant methods, with the purpose to analyze, classify, predict and interpret physical phenomena using data. Modern machine learning (ML) methods hold a crucial role in the development of data science. Sub-fields of ML, such as deep learning (DL), have played an extremely particular role in improving various innovative technologies, including speech recognition, machine translation, and robotics. In Physics, ML & DL methods are widely used to detect and classify astronomical objects, identify particles in detector arrays, and predict the state of complex non-linear dynamical systems.
The primary purpose of this course is to provide a thorough introduction to basic concepts and modern computational tools used in data science, machine learning, and deep learning in a relatively comprehensive way (for undergraduate Physics students of the University of Crete) through effective teaching methods. The course will focus on computational (hands-on) implementations of these methods, using data from several Physics branches. Moreover, relevant basic mathematical techniques will be presented briefly, emphasizing on their connection with concepts and methods of statistical Physics. In parallel, students will have the opportunity to gain familiarity with many modern computational tools and programming languages (Python, Jupyter Notebook, modern ML & DL statistical packages/libraries). This course aims to provide innovative perspectives for the field of data science and machine learning methods, for the promotion of the understanding of our cosmos, as well as for open puzzles in modern fields of science and technology, in which students of the University of Crete may be capable of contributing scientifically, and which are currently considered of high demand in the business world (many employment opportunities).
Στη σύγχρονη επιστήμη, πειράματα σε πεδία όπως στη φυσική υψηλών ενεργειών και παρατηρήσεις από τα αστρονομικά παρατηρητήρια δημιουργούν πλήθος δεδομένων (“big data”) τα οποία απαιτούν εξαιρετικά αποτελεσματικές μεθόδους προκειμένου να αναλύονται και να παράγονται σημαντικά αποτελέσματα. Η επιστήμη των δεδομένων (data science) είναι ο διεπιστημονικός τομέας που ενοποιεί πεδία όπως στατιστική και πιθανότητες, επιστήμη της πληροφορίας, ανάλυση δεδομένων, μηχανική μάθηση και άλλες συναφείς μεθόδους, προκειμένου να αναλύσει, κατηγοριοποιήσει, προβλέψει και ερμηνεύσει φαινόμενα από δεδομένα. Οι σύγχρονες μέθοδοι μηχανικής μάθησης (machine learning [ML]) έχουν διαδραματίσει σημαντικό ρόλο στην πρόοδο της επιστήμης των δεδομένων. Επιμέρους πεδία, όπως μέθοδοι βασισμένες σε συστοιχίες νευρωνικών δικτύων (deep learning [DL]), έχουν παίξει καθοριστικό ρόλο στην πρόοδο που παρατηρείται σε πολλούς τομείς όπως η αναγνώριση ομιλίας, η μηχανική μετάφραση και η ρομποτική μεταξύ άλλων. Στη φυσική, οι μέθοδοι ML και DL χρησιμοποιούνται για να ανιχνεύσουν και να ταξινομήσουν αστρονομικά αντικείμενα, να εντοπίσουν σωματίδια σε συστοιχίες ανιχνευτών και να προβλέψουν την κατάσταση σύνθετων, μη γραμμικών δυναμικών συστημάτων.
Ο σκοπός αυτού του μαθήματος είναι να προσφέρει εισαγωγή στις βασικές έννοιες και τα σύγχρονα υπολογιστικά εργαλεία της επιστήμης των δεδομένων, της μηχανικής μάθησης και της «βαθιάς μάθησης» (deep learning), κατά τρόπο κατανοητό και με μεθόδους ενεργούς μάθησης, στους φοιτητές του Τμήματος Φυσικής. Το μάθημα θα επικεντρωθεί σε υπολογιστικές (hands-on) εφαρμογές των μεθόδων αυτών με χρήση δεδομένων από τα πεδία της φυσικής. Θα παρουσιαστούν οι βασικές μαθηματικές έννοιες και θα αναδειχθούν οι συσχετίσεις με έννοιες και μεθόδους στατιστικής φυσικής. Ταυτόχρονα, οι φοιτητές θα εκπαιδευθούν σε σύγχρονα υπολογιστικά εργαλεία και γλώσσες προγραμματισμού (Python, Jupyter Νotebooks, σύγχρονα ML / DL στατιστικά πακέτα). Το μάθημα θα προσφέρει καινοτόμο προοπτική για το πεδίο της επιστήμης δεδομένων και των μεθόδων μηχανικής μάθησης, για την προώθηση της κατανόησης του φυσικού κόσμου καθώς και των ανοιχτών προβλημάτων σε σύγχρονα πεδία επιστήμης και τεχνολογίας, στα οποία οι φοιτητές του Τμήματος Φυσικής είναι σε θέση να συνεισφέρουν επιστημονικά, και τα οποία θεωρούνται τα πλέον περιζήτητα από πλευράς θέσεων εργασίας.
Γενικά
ΦΥΣ-252. Εισαγωγή στην επιστήμη των δεδομένων και τη μηχανική μάθηση
Ώρες: 3
ECTS: 6
Εξάμηνο: Φθινοπωρινό
Υπεύθυνος/Διδάσκων Μαθήματος:
Paolo Bonfini
Γραφείο: Kτίριο Φυσικής, δεύτερος όροφος, γραφείο 234, email : paolo@physics.uoc.gr
Office hours: Flexible, please arrange by contacting via mail.
Βοηθός Μαθήματος:
Andreas Tersenov
Γραφείο: 108β κτίριο Φυσικής, email: atersenov@physics.uoc.gr
Office hours: Flexible, please arrange by contacting via mail.
Nikolaos Vasilas
Γραφείο: Kτίριο Φυσικής, τρίτος όροφος, γραφείο 308, email: nvasilas@physics.uoc.gr
Office hours: Flexible, please arrange by contacting via mail.
Ώρες Διαλέξεων:
Τετάρτη, 17.oo-20.oo, Αίθουσα Υπολογιστών 2.
Το υλικό διδασκαλίας θα είναι προσβάσιμο και από το eClass. Μπορείτε να φέρετε τον δικό υπολογιστή ή να χρησιμοποιήσετε τους υπολογιστές στην αίθουσα. Εάν χρησιμοποιείτε τον δικό σας υπολογιστή, δεν μπορούμε να εγγυηθούμε την τεχνική υποστήριξη (π.χ. κατά την εγκατάσταση πακέτων Python) και θα πρέπει να είστε πιο αυτάρκεις.
Ημερομηνία δημιουργίας
Τετάρτη 6 Σεπτεμβρίου 2023
-
Course Syllabus
You can consult the course schedule at this link:
Documents >> Syllabus and Schedule - ph252 - 2024 - v1 (updated on 2024-11-18)
The program loosely follows A. Gerone, Hands-On Machine Learning [...] (2017), although it does not map the content one-to-one. The students are expected to study the relevant chapters in the book and integrate their knowledge on the other topics mentioned in the class notebooks (and not present in Gerone 2017) with other sources.Basic books for the course
-
[Main course book] For Hands-on Machine Learning, Neural Networks and Deep Learning :
"Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems", by Aurelien Geron (2017).
github repository with the material/code from the book. - For basic statistics (χ2 optimization, gradient descent, χ2-test):
"Data Reduction and Error Analysis for the Physical Sciences" ,by Bevington & Robinson (2003) - For a thorough mathematical background behind Gradients, Constrained Optimization, SVM, PCA:
"Mathematics for Machine Learning" by Deisenroth, Faisal, and Ong (2020) - For a more thorough mathematical exposition of the Deep Learning part :
"Deep Learning", by Goodfellow, Bengio and Courville (2016) - For a complete tutorial on SVM:
"A Tutorial on Support Vector Machines for Pattern Recognition", by Christopher J.C. Burges, Data Mining and Knowledge Discovery, June 1998, Volume 2, Issue 2, pp 121-167 - For an almost-complete coverage of the course topics (Least-squares Regression, Lasso/Ridge, Logistic Regression, Kernels, Cross-Validation, Trees/Forests, NN, SVM, Clustering):
"The Elements of Statistical Learning: Data Mining, Inference, and Prediction", by Trevor Hastie, Robert Tibshirani, and Jerome Friedman, 2nd edition, Springer, February 2009 - For a verbose description of Decision Trees (old but classc book):
"Machine Learning", by Tom M. Mitchel - A pretty basic, introductory book on using Machine Learning via Python. The material is not enough to understand the complexity of the lectures, but it is a good starting point in case you get confused with a given topic, and it is free access:
"Python Data Science Handbook", by Jake VanderPlas (2016)
Assignments and final evaluation
This course will include 3 forms of examination:
- weekly assignments
- a final project
- questions in a face-to-face, verbal examination
In particular, the final project requires to deliver:
- the code itself
- a PDF report
- a slideshow presentation.
The students will autonomosly form groups of 3 students each. The assignments given in the lesson must be returned per group. The same applies to the final project and its presentation: it will be done on a group level. All the students belonging to the same group will obtain the same grade, for each of these tasks.
The questions will be instead answered individually, hence each student may obtain a different grade. Questions may regard any of the aspects encountered during the course.
NOTE: Each of the three examinations (assignments, project, and questions) contribute to the final grade, although the questions will have a larger weight.List of exam questions - ph252 - 2023
Please consut this document for anything regarding the questions that will be asked at the exam:
Documents >> List of exam questions - ph252 - 2024 - v0This is an preliminary document, new versions might be posted later on.
The version that counts for the exam will be whatever appears by December 31st.Guide for course Project
Please consut this document for anything regarding the group projects:
Documents >> Guide for course Project - ph252 - 2024 - v0This is an evolving document, new versions might be posted later on.
-