💽

Minería de datos con enfoque en Procesamiento de lenguaje natural

Autores

José Ángel González Fraga, UABC

Carlos Eduardo Sánchez Torres, UABC

NLP

Victor J Vallejo, CC BY-SA 4.0 https://creativecommons.org/licenses/by-sa/4.0, via Wikimedia Commons

Minería de datos

Minería de datos es encontrar patrones significativos en datos (convertir datos en información) y a predecirlos (aplicar algoritmos de aprendizaje —Aprendizaje automático o Machine Learning).

Relación entre NLP y Machine Learning

Existen otros enfoques que no usan Machine Learning tales como Análisis de reglas gramaticales, búsqueda de palabras clave, sistemas basados en diccionarios y ontologías e ingeniería de características.

Sowmya Vajjala, at al. Practical Natural Language Processing A Comprehensive Guide to Building Real-World NLP Systems.

Metodología de un proyecto de Minería de datos

Un posible objetivo es crear un sistema inteligente

Machine Learning (Aprendizaje automático)

💡
«Machine Learning» es el campo de estudio que da a las computadoras la habilidad de aprender sin ser explícitas programadas.

Enfoque tradicional vs enfoque de aprendizaje

Programación tradicional
Machine Learning

https://graph-theory.sanchezcarlosjr.com/

https://rednuht.org/genetic_walkers/

https://rednuht.org/genetic_cars_2/

https://gist.github.com/sanchezcarlosjr/2d017462b549ebe3baf7842cf79d1e33

Aprendizaje supervisado

Dado un conjunto de entrenamiento con un conjunto de características XX y un conjunto de variables objetivo YY, un algoritmo de aprendizaje busca en el espacio de hipótesis HH una h:XYh:X\to Y tal que sea un buen predictor para los correspondientes yy. Nota: Las redes neuronales son algoritmos de aprendizaje supervisados. Tenemos otro conjunto de prueba para comprobar que nuestros resultados no realizen overfitting con las métricas: precision, accuracy, f-score, recall.

https://gist.github.com/sanchezcarlosjr/2d017462b549ebe3baf7842cf79d1e33

CS229: Machine Learning. (2023, May 04). Retrieved from https://cs229.stanford.edu

Ejemplos

https://gist.github.com/sanchezcarlosjr/91c8b8588e339381ae2b75fa868ee7e8

Embeddings

https://projector.tensorflow.org/

Referencias

https://huggingface.co/learn/nlp-course/chapter0/1?fw=tf