🌉

Data Science

Requisites

Resources

Introduction

What is Data science?

https://twitter.com/KirkDBorne/status/1738060916661391619/photo/1

Why does Data science matter to you?

Research

Ecosystem

Standards, jobs, industry, roles, …

Programming languages

Story

FAQ

Worked examples

Chapter Name

Notes

Worked examples

FAQ

Further resources

Statistics

Resources

Devore, J. L. (2019). Introducción a la probabilidad y
estadística para ingeniería y ciencias. Cengage
Learning.
https://elibro.net/es/lc/uabc/titulos/118096
Díaz, M. (2019). Estadística Inferencial Aplicada. Universidad
del Norte.
https://search.ebscohost.com/login.aspx?
direct=true&db=e000xww&AN=2320219&lang=es&site=
ehost-live
Kumar A. (2016) Learning Predictive Analytics with Python.

https://search.ebscohost.com/login.aspx?
direct=true&db=e000xww&AN=1171944&lang=es&site=
ehost-live
[Clásica]
Persson, M.V., Martins, L.F. (2016). Mastering Python Data
Analysis. Packt Publishing.

https://search.ebscohost.com/login.aspx?
direct=true&db=e000xww&AN=1260306&lang=es&site=
ehost-live [Clásica]
Tattar, P.N. (2017). Statistical Application Development with R
and Python - Second Edition. Vol 2nd ed. Packt
Publishing.
https://search.ebscohost.com/login.aspx?
direct=true&db=e000xww&AN=1587473&lang=es&site=
ehost-live
Zörnig, P. (2016) Probability Theory and Statistical Applications
: A Profound Treatise for Self-Study.

https://search.ebscohost.com/login.aspx?
direct=true&db=e000xww&AN=1289658&lang=es&site=
ehost-live.

Chiu, D. (2016). R for Data Science Cookbook. Packt Publishing.

https://search.ebscohost.com/login.aspx?
direct=true&db=e000xww&AN=1295361&lang=es&site=ehos
t-live. [Clásica]
Kobayashi, H., Turin, W. & Mark, B. L. (2012) Probability, Random
Processes, and Statistical Analysis : Applications to
Communications, Signal Processing, Queueing Theory and
Mathematical Finance. Cambridge University Press;

https://search.ebscohost.com/login.aspx?
direct=true&db=e000xww&AN=408874&lang=es&site=ehost-
live.

Data wrangling

Data janitor or data wrangler

Databases (structured data)

Text data (Natural language processing)

2.1 ¿Qué es la información textual?
2.2 Información estructura
2.3 Semi-estructurada: Ontologías, JQuery, Protegé, SGML, entre otros
2.4 Información no estructurada: identificación, parsers, tokenizadores, entre otros

Webcrawler
2.5 Herramientas para tratamiento de información textual
2.6 Aplicaciones con texto

1.1 Historia, definiciones y elementos básicos
1.2 Aplicaciones prácticas de minería de textos
1.3 Complejidad y diversidad del lenguaje natural
1.4 Minería de Textos y Procesamiento de Lenguaje Natural
1.5 Tareas principales en Minería de Textos
1.6 Retos actuales

2.1 Características estructurales de los textos
2.2 Características de representatividad y calidad de un corpus: fuente, tamaño de la muestra, etc.
2.3 Adquisición de datos (web crawling y scraping)
2.4 Preprocesado de datos
2.5 Anotación de datos
2.6 Herramientas y librerías para manipulación de textos

3.1 Modelo de espacio vectorial
3.2 Representación distribuida de palabras
3.3 Representación distribuida de frases o enunciados
3.4 Representación distribuida de sentencias y párrafos
3.5 Representación distribuida de documentos

4.1 Selección de características
4.2 Algoritmos tradicionales (Naive Bayes, SVM)
4.3 Métodos de aprendizaje profundo (CNN, RNN)
4.4 Evaluación de desempeño

5.1 Medidas de similaridad en textos
5.2 Algoritmos tradicionales (K-means, Single-Pass, Hierarchical)
5.3 Evaluación de desempeñ

  1. Ignatow, G., & Mihalcea, R. (2017). Text Mining. SAGE Publications, Inc. Available at: DOI.
  1. Silahtaroglu, G., & Doguc, O. (2019). Concepts of Text Mining: With Python and Real Life Exercises. Independently Published.
  1. Zong, C., Xia, R., & Zhang, J. (2021). Text Data Mining. Tsinghua University Press, Beijing, China.
  1. Dalianis, H. (2018). Clinical Text Mining: Secondary Use of Electronic Patient Records. Springer Nature.
  1. Ignatow, G., & Mihalcea, R. F. (2017). An Introduction to Text Mining: Research Design, Data Collection, and Analysis. SAGE Publications, Inc.
  1. Zhang, C., & Han, J. (2019). Multidimensional Mining of Massive Text Data (Synthesis Lectures on Data Mining and Knowledge Discovery). Morgan & Claypool Publishers.

Visual data

3.1 Conceptos, representación, modelos de color, entre otros
3.2 Formatos de imágenes
3.3 Operadores: puntuales, regionales
3.4 Descriptores Visuales
3.5 Extracción de características
3.6 Herramientas para manipulación de imágenes
3.7 Aplicaciones con imágenes digitales

Audio data

4.1 Concepto de señales de audio
4.2 Formatos de audio: pérdidas, compresión
4.3 Extracción de información en señales de audio
4.4 Herramientas para la extracción de señales de audio
4.5 Aplicaciones con audio

Video

5.1 Video = imágenes + audio
5.2 Formatos de video
5.3 Operadores en video
5.4 Herramientas para manipulación de video
5.5 Aplicaciones con video

References

Bird, S., Klein, E. & Loper, E. (2009). Natural Language Processing
with Python. O’Reilly.
https://www.nltk.org/book/ [Clásica]
Grauman, K. & Leibe, B. (2010). Visual Object Recognition. Morgan
and Claypool Publishers. [Clásica]

Boulanger, R., Lazzarini, V., & Mathews, M. V. (2010). The
Audio Programming Book. The MIT Press. [Clásica]
Christensen, M. G. (2019). Introduction to Audio Processing.
Springer.
https://link.springer.com/book/10.1007/978-3-
030-11781-8
Gonzalez, R. C. & Woods, R. E. (2017). Digital Image
Processing, Global Edition. Pearson.
Perkins, J. (2014). Python Text Processing with NLTK 2.0
Cookbook. Packt Publishing. [Clásica]
Tekalp, A. M. (2015). Digital Video Processing. (2nd ed.)
Prentice Hall. [Clásica]

Artificial Intelligence

Data science implementation

Computational Notebook

Collaborative work

Data frames

Data mining

Visualization

1.1 La importancia del contexto
1.1.1 Análisis exploratorio y explicativo
1.1.2 Quién, Qué, y Cómo
1.2 Selección de un elemento visual efectivo
1.2.1 Tipos de gráficos y recomendación de uso
1.3 Principios de percepción visual Gestalt
1.4 Atributos de pre-atención
1.5 Storytelling (narración) en otros ámbitos
1.6 Casos de estudio

2.1.Principios de diseño
2.1.1.Gráficos estadísticos
2.1.2.Gráficos de datos
2.1.3.Gráficos de modelos ajustados
2.1.4.Gráficos para verificar modelos ajustados
2.1.5. ¿Qué muestra una buena grafica?
2.1.6. Principios de gráficos
2.2.Principio de visualización de datos
2.2.1.Análisis exploratorio de datos
2.2.2.Análisis univariado
2.2.3.Datos categóricos
2.2.4.Análisis
2.2.5.Bivariado/multivariado
2.2.6.Numéricos
2.2.7.Categóricos
2.3.Visualización de patrones a lo largo del tiempo
2.3.1.Visualización de proporciones
2.3.2.Visualización de relaciones
2.3.3.Detecciones de diferencias
2.3.4.Visualización de relaciones espaciales
2.4.Depuración de gráficos
2.5.Evolución en gráficos: series de tiempo

3.1 Lectura y escritura de datos
3.2 Combinando e integrando conjuntos de datos
3.3 Reorganización y pivote
3.4 Transformación de datos
3.5 Manipulación de cadenas
3.6 Herramientas para visualización (Matplolib, otras)
3.7 Herramientas para manipulación de datos (Pandas, otras)
3.8 Funciones selectas para gráficos
3.9 Visualización de los Datos
3.9.1.Visualización de datos en Tableau
3.9.2.Visualización de datos en Excel
3.9.3.Técnicas de diseño para visualización de datos
3.9.4.Construcción de tableros para monitoreo y contro

  1. Visualización de datos y Business Intelligence: definiciones, similitudes y diferencias
    4.1Qué es la visualización de datos
    4.2 Business Intelligence: ¿qué significa?
    4.3 Las librerías de visualización de datos: características
    4.4 Librerías interactivas de visualización de datos
    4.5 Librerías de visualización de datos exploratorias
    4.6 Herramientas de BI: características
    4.7¿Qué herramienta de visualización de datos utilizar según el problema

References

  1. Freeman, M. & Ross, J. (2018). Data Science Foundations Tools and Techniques: Core Skills for Quantitative Analysis with R and Git. Addison-Wesley Professional, 1st ed.
  1. AIcalde, I. (8 de septiembre de 2017). Visualización de datos: retos y mitos. Available at: Ignasi Alcalde.
  1. Kirk, Andy (2016). Data Visualisation: A Handbook for Data Driven Design. SAGE. [Clásica].
  1. Nussbaumer Knaflic, Cole (2015). Storytelling with Data. John Wiley & Sons. [Clásica].
  1. Cady, Field (2017). The Data Science Handbook. Wiley Press.
  1. Berengueres, J., Sandell, & Fenwick, A. (2020). Visualización de Datos & Storytelling (Pensamiento Visual). Barbara Covarrubias (Editor). Independently Published.
  1. EMC Education Services (2015). Data Science and Big Data Analytics. John Wiley & Sons. [Clásica].
  1. McKinney, Wes (2013). Python for Data Analysis. O’Reilly Media, Inc. [Clásica].

Grus, J. (2019). Data Science from Scratch: First Principles with Python. O'Reilly Media; Edición 2nd ed.

Wickham, H. & Grolemund, G. (2017). R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. O'Reilly Media

Vanderplas, J. (2016). Python Data Science Handbook: Essential Tools for Working with Data. O'Reilly Media; 1st ed

Project managment

Data augumentation and simulation

Deployment

Storytelling

Next steps

References

Foundations of Data Science by Avrim Blum, John Hopcroft, and Ravindran Kannan

http://www.leonpalafox.com/dsclase/#absentismo

https://github.com/leonpalafox/dsclase/tree/master

Welcome — The Turing Way. (2022, December 06). Retrieved from https://the-turing-way.netlify.app/welcome.html