Data Science
Requisites
Resources
Introduction
What is Data science?
Why does Data science matter to you?
Research
Ecosystem
Standards, jobs, industry, roles, …
Programming languages
Story
FAQ
Worked examples
Chapter Name
Notes
Worked examples
FAQ
Further resources
Statistics
Resources
Devore, J. L. (2019). Introducción a la probabilidad y
estadística para ingeniería y ciencias. Cengage
Learning.
https://elibro.net/es/lc/uabc/titulos/118096
Díaz, M. (2019). Estadística Inferencial Aplicada. Universidad
del Norte.
https://search.ebscohost.com/login.aspx?
direct=true&db=e000xww&AN=2320219&lang=es&site=
ehost-live
Kumar A. (2016) Learning Predictive Analytics with Python.
https://search.ebscohost.com/login.aspx?
direct=true&db=e000xww&AN=1171944&lang=es&site=
ehost-live
[Clásica]
Persson, M.V., Martins, L.F. (2016). Mastering Python Data
Analysis. Packt Publishing.
https://search.ebscohost.com/login.aspx?
direct=true&db=e000xww&AN=1260306&lang=es&site=
ehost-live [Clásica]
Tattar, P.N. (2017). Statistical Application Development with R
and Python - Second Edition. Vol 2nd ed. Packt
Publishing.
https://search.ebscohost.com/login.aspx?
direct=true&db=e000xww&AN=1587473&lang=es&site=
ehost-live
Zörnig, P. (2016) Probability Theory and Statistical Applications
: A Profound Treatise for Self-Study.
https://search.ebscohost.com/login.aspx?
direct=true&db=e000xww&AN=1289658&lang=es&site=
ehost-live.
Chiu, D. (2016). R for Data Science Cookbook. Packt Publishing.
https://search.ebscohost.com/login.aspx?
direct=true&db=e000xww&AN=1295361&lang=es&site=ehos
t-live. [Clásica]
Kobayashi, H., Turin, W. & Mark, B. L. (2012) Probability, Random
Processes, and Statistical Analysis : Applications to
Communications, Signal Processing, Queueing Theory and
Mathematical Finance. Cambridge University Press;
https://search.ebscohost.com/login.aspx?
direct=true&db=e000xww&AN=408874&lang=es&site=ehost-
live.
Data wrangling
Data janitor or data wrangler
Databases (structured data)
Text data (Natural language processing)
2.1 ¿Qué es la información textual?
2.2 Información estructura
2.3 Semi-estructurada: Ontologías, JQuery, Protegé, SGML, entre otros
2.4 Información no estructurada: identificación, parsers, tokenizadores, entre otros
Webcrawler
2.5 Herramientas para tratamiento de información textual
2.6 Aplicaciones con texto
1.1 Historia, definiciones y elementos básicos
1.2 Aplicaciones prácticas de minería de textos
1.3 Complejidad y diversidad del lenguaje natural
1.4 Minería de Textos y Procesamiento de Lenguaje Natural
1.5 Tareas principales en Minería de Textos
1.6 Retos actuales
2.1 Características estructurales de los textos
2.2 Características de representatividad y calidad de un corpus: fuente, tamaño de la muestra, etc.
2.3 Adquisición de datos (web crawling y scraping)
2.4 Preprocesado de datos
2.5 Anotación de datos
2.6 Herramientas y librerías para manipulación de textos
3.1 Modelo de espacio vectorial
3.2 Representación distribuida de palabras
3.3 Representación distribuida de frases o enunciados
3.4 Representación distribuida de sentencias y párrafos
3.5 Representación distribuida de documentos
4.1 Selección de características
4.2 Algoritmos tradicionales (Naive Bayes, SVM)
4.3 Métodos de aprendizaje profundo (CNN, RNN)
4.4 Evaluación de desempeño
5.1 Medidas de similaridad en textos
5.2 Algoritmos tradicionales (K-means, Single-Pass, Hierarchical)
5.3 Evaluación de desempeñ
- Ignatow, G., & Mihalcea, R. (2017). Text Mining. SAGE Publications, Inc. Available at: DOI.
- Silahtaroglu, G., & Doguc, O. (2019). Concepts of Text Mining: With Python and Real Life Exercises. Independently Published.
- Zong, C., Xia, R., & Zhang, J. (2021). Text Data Mining. Tsinghua University Press, Beijing, China.
- Dalianis, H. (2018). Clinical Text Mining: Secondary Use of Electronic Patient Records. Springer Nature.
- Ignatow, G., & Mihalcea, R. F. (2017). An Introduction to Text Mining: Research Design, Data Collection, and Analysis. SAGE Publications, Inc.
- Zhang, C., & Han, J. (2019). Multidimensional Mining of Massive Text Data (Synthesis Lectures on Data Mining and Knowledge Discovery). Morgan & Claypool Publishers.
Visual data
3.1 Conceptos, representación, modelos de color, entre otros
3.2 Formatos de imágenes
3.3 Operadores: puntuales, regionales
3.4 Descriptores Visuales
3.5 Extracción de características
3.6 Herramientas para manipulación de imágenes
3.7 Aplicaciones con imágenes digitales
Audio data
4.1 Concepto de señales de audio
4.2 Formatos de audio: pérdidas, compresión
4.3 Extracción de información en señales de audio
4.4 Herramientas para la extracción de señales de audio
4.5 Aplicaciones con audio
Video
5.1 Video = imágenes + audio
5.2 Formatos de video
5.3 Operadores en video
5.4 Herramientas para manipulación de video
5.5 Aplicaciones con video
References
Bird, S., Klein, E. & Loper, E. (2009). Natural Language Processing
with Python. O’Reilly.
https://www.nltk.org/book/ [Clásica]
Grauman, K. & Leibe, B. (2010). Visual Object Recognition. Morgan
and Claypool Publishers. [Clásica]
Boulanger, R., Lazzarini, V., & Mathews, M. V. (2010). The
Audio Programming Book. The MIT Press. [Clásica]
Christensen, M. G. (2019). Introduction to Audio Processing.
Springer.
https://link.springer.com/book/10.1007/978-3-
030-11781-8
Gonzalez, R. C. & Woods, R. E. (2017). Digital Image
Processing, Global Edition. Pearson.
Perkins, J. (2014). Python Text Processing with NLTK 2.0
Cookbook. Packt Publishing. [Clásica]
Tekalp, A. M. (2015). Digital Video Processing. (2nd ed.)
Prentice Hall. [Clásica]
Artificial Intelligence
Data science implementation
Computational Notebook
Collaborative work
Data frames
Data mining
Visualization
1.1 La importancia del contexto
1.1.1 Análisis exploratorio y explicativo
1.1.2 Quién, Qué, y Cómo
1.2 Selección de un elemento visual efectivo
1.2.1 Tipos de gráficos y recomendación de uso
1.3 Principios de percepción visual Gestalt
1.4 Atributos de pre-atención
1.5 Storytelling (narración) en otros ámbitos
1.6 Casos de estudio
2.1.Principios de diseño
2.1.1.Gráficos estadísticos
2.1.2.Gráficos de datos
2.1.3.Gráficos de modelos ajustados
2.1.4.Gráficos para verificar modelos ajustados
2.1.5. ¿Qué muestra una buena grafica?
2.1.6. Principios de gráficos
2.2.Principio de visualización de datos
2.2.1.Análisis exploratorio de datos
2.2.2.Análisis univariado
2.2.3.Datos categóricos
2.2.4.Análisis
2.2.5.Bivariado/multivariado
2.2.6.Numéricos
2.2.7.Categóricos
2.3.Visualización de patrones a lo largo del tiempo
2.3.1.Visualización de proporciones
2.3.2.Visualización de relaciones
2.3.3.Detecciones de diferencias
2.3.4.Visualización de relaciones espaciales
2.4.Depuración de gráficos
2.5.Evolución en gráficos: series de tiempo
3.1 Lectura y escritura de datos
3.2 Combinando e integrando conjuntos de datos
3.3 Reorganización y pivote
3.4 Transformación de datos
3.5 Manipulación de cadenas
3.6 Herramientas para visualización (Matplolib, otras)
3.7 Herramientas para manipulación de datos (Pandas, otras)
3.8 Funciones selectas para gráficos
3.9 Visualización de los Datos
3.9.1.Visualización de datos en Tableau
3.9.2.Visualización de datos en Excel
3.9.3.Técnicas de diseño para visualización de datos
3.9.4.Construcción de tableros para monitoreo y contro
- Visualización de datos y Business Intelligence: definiciones, similitudes y diferencias
4.1Qué es la visualización de datos
4.2 Business Intelligence: ¿qué significa?
4.3 Las librerías de visualización de datos: características
4.4 Librerías interactivas de visualización de datos
4.5 Librerías de visualización de datos exploratorias
4.6 Herramientas de BI: características
4.7¿Qué herramienta de visualización de datos utilizar según el problema
References
- Freeman, M. & Ross, J. (2018). Data Science Foundations Tools and Techniques: Core Skills for Quantitative Analysis with R and Git. Addison-Wesley Professional, 1st ed.
- AIcalde, I. (8 de septiembre de 2017). Visualización de datos: retos y mitos. Available at: Ignasi Alcalde.
- Kirk, Andy (2016). Data Visualisation: A Handbook for Data Driven Design. SAGE. [Clásica].
- Nussbaumer Knaflic, Cole (2015). Storytelling with Data. John Wiley & Sons. [Clásica].
- Cady, Field (2017). The Data Science Handbook. Wiley Press.
- Berengueres, J., Sandell, & Fenwick, A. (2020). Visualización de Datos & Storytelling (Pensamiento Visual). Barbara Covarrubias (Editor). Independently Published.
- EMC Education Services (2015). Data Science and Big Data Analytics. John Wiley & Sons. [Clásica].
- McKinney, Wes (2013). Python for Data Analysis. O’Reilly Media, Inc. [Clásica].
Grus, J. (2019). Data Science from Scratch: First Principles with Python. O'Reilly Media; Edición 2nd ed.
Wickham, H. & Grolemund, G. (2017). R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. O'Reilly Media
Vanderplas, J. (2016). Python Data Science Handbook: Essential Tools for Working with Data. O'Reilly Media; 1st ed
Project managment
Data augumentation and simulation
Deployment
Storytelling
Next steps
References
Foundations of Data Science by Avrim Blum, John Hopcroft, and Ravindran Kannan
http://www.leonpalafox.com/dsclase/#absentismo
https://github.com/leonpalafox/dsclase/tree/master
Welcome — The Turing Way. (2022, December 06). Retrieved from https://the-turing-way.netlify.app/welcome.html