course aims in Estonian
Anda teadmisi erinevatest andmetöötluse/analüüsi vahenditest, oskusi andmete hankimisest ja sisselugemisest, nende töötlemisest, andmetest järelduste tegemisest ning visualiseeringute koostamisest.
course aims in English
Provide knowledge on various data processing/analysis tools, skills for collecting and reading of data, drawing conclusions from the data and creating visualizations from the data.
learning outcomes in the course in Est.
Aine läbinud üliõpilane:
- valdab R programmeerimiskeelt andmetöötluse ülesannete täitmiseks vajalikul tasemel;
- oskab kasutada avalikke andmebaase ja sealt andmeid hankida;
- teab peamisi andmeformaate, oskab neid R programmiskeele abil lugeda ja eeltöödelda;
- tagab andmetöötluse osas oma teadustöö reprodutseeritavuse;
- oskab koostada uurimusliku andmeanalüüsi tarbeks erinevaid andmevisualiseeringuid;
- oskab rakendada andmete analüüsis levinud statistilisi meetodeid.
learning outcomes in the course in Eng.
After completing this course the student:
- can use the R programming language on a level required for common data processing tasks;
- is capable of using public databases and getting data from them;
- knows commonly used data formats and is able to read them using the R programming language and perform preprocessing on them;
- is able to follow the principle of reproducibility in their data processing;
- is able to create various data visualizations for exploratory data analysis;
- is able to apply the widely used statistical methods required for data analysis.
brief description of the course in Estonian
Teadus- ja inseneritöös on oluline osa matemaatiliste mudelite loomisel, kasutamisel ja nende headuse/sobivuse hindamisel. Nii headuse hindamine kui ka uute loomine põhineb läbiviidud mõõtmistulemuste analüüsil ja võrdlusel. Seega on erinevate andmete kogumise, töötlemise ja analüüsi oskus ühe teadlase ning inseneri oskuspagasi peaasjalik osa.
Õppeaine sissejuhatavas osas antakse ülevaade erinevatest andmetöötluseks kasutatavatest vahenditest/programmeerimiskeeltest, nende plussidest ja miinustest. (MS Excel, R, Python Pandas, MATLAB,...). Lisaks tehakse sissejuhatus programmeerimisele R-keeles ja RStudio integreeritud arenduskeskkonna kasutamisse.
Põhiteemad on jagatud nelja ossa.
1. osa käsitleb teemasid mis on seotud andmete hankimisega (avalike andmebaaside kasutamine), mõõdetud või hangitud andmete sisselugemisega (erinevad andmeformaadid), andmete eeltöötluse.
2. osa käsitleb reprodutseeritavusega seotud teemasid. Uurimistulemuste läbipaistvuse tagamiseks alg- või vaheandmete jagamise võimalused. Andmetöötluse reprodutseeritavuse tagamine (nii teiste, kui enda poolt) ja selleks vajalike meetodite ja tööriistade ülevaade (R Notebooks).
3. osa käsitleb lihtsamaid andme manipulatsioone ja erinevaid võimalusi andmete kiireks visualiseerimiseks uurimusliku andmeanalüüsi eesmärgil. Seejuures tutvustatakse levinud graafikute/diagrammide tüüpe, nende eeliseid ja puudusi erinevate andmete visualiseerimisel.
4. osa kätkeb endas teemasid levinud statistiliste meetoditest andmeanalüüsis. Selle raames käsitletakse ka eri andmete omavaheliste seoste leidmist ja nende seoste headuse statistilist hindamist. Põgus sissejuhatus masinõppe võimalustesse keerukamate seoste leidmisel.
Teatud osa on lisateemadel: sissejuhatus masinõppesse; interaktiivsed visualisatsioonid; kartograafiliste andmete töötlemine ja kaartidel visualiseerimine; visuaalse kommunikatsiooni alused publitseerimiseks ja esitlemiseks.
brief description of the course in English
The fields of science and engineering entail the creation and use of different models. The evaluation of usefulness/ accuracy of these models is based upon comparison with measured data. New models can be based on thorough analysis of measured data. Therefore getting, processing and analyzing data are essential in the craft of science and engineering.
The introductory part gives an overview of different toole/programming languages for data processing and their pros/cons (MS Excel, R, Python Pandas, MATLAB...). An introduction to the R programming language and the RStudio IDE is given.
Main topics of the course are divided into four sections.
1. sec. covers topics related to getting data (public databases), reading data (file formats for storage) cleaning, preprocessing.
2. sec. covers topics related to the reproducibility of research. Sharing raw or preprocessed data for the sake of transparency in research. Methods and tools for ensuring reproducibility of your data processing (R Notebooks).
3. sec. covers simpler data manipulations and various methods for producing rapid visualizations from data (R ggplot) in order to perform exploratory analysis. An overview of some common types of graphs/diagrams, their pros, and cons for visualizing data.
4. sec. entails topics about the widely used statistical methods in data analysis. An evaluation of statistically significant correlations between different data is covered. In this section also a brief introduction about the possibilities of machine learning for uncovering hidden relationships in the data is given.
The course also covers some additional topics. These additional topics are for example: introduction to machine learning; interactive data visualizations; processing spatial data and visualizing on maps; visual communication for publishing and presentations.
type of assessment in Estonian
Hindamisviis eesti keeles Arvestuse saab tudeng kes esitab õigeagselt kursusetöö, mida ta esitleb ettekandega ja kes demonstreerib oma kursusetöös kõigi õpiväljudite omandamist.
type of assessment in English
The student who submits his coursework on time and presents it while demonstrating the acquisition of all the learning outcomes in their coursework will have passed the course.
independent study in Estonian
Kursuse raames peavad tudengid iseseisvalt hankima andmebaasist toorandmed. Seejärel andmeid lugema ja visualiseerima. Erinevate visualiseerimiste käigus jõudma seejuures millegi huvipakkuvani, mille kohta võib koostada (või otsida kirjandusest) matemaatilise mudeli. Koostatud mudeli headuse kontrollimiseks peab rakendama statistilisi meetodeid. Antud ülesannete teostamine peab olema vormistatud digitaalsel kujul kursuse tööks, mida esitletakse ettekandega.
independent study in English
As independent work students must acquire data from a database. Then read and visualize this data. After various visualizations they should find something of interest that can be modeled. Thereafter statistical methods must be applied to verify the quality of the chosen model. The completion of these tasks must be formalized into a coursework in a digital format and the coursework will have to be presented in front of the class.
study literature
E-kursuse materjalid.
Peng, Roger. Exploratory data analysis with R. Lulu. com, 2012.
De Jonge, Edwin, and Mark Van Der Loo. An introduction to data cleaning with R. Heerlen: Statistics Netherlands, 2013.
Sauga, A. "Statistika õpik majanduseriala üliõpilastele." Tallinn: TTÜ kirjastus. 766lk (2017).
Newbold, Paul. Statistics for business and economics. Pearson, 2013.
study forms and load
daytime study: weekly hours
4.0
session-based study work load (in a semester):