Suscripciones

Machine Learning para Crear Modelos Predictivos

Episodio 2 - 2016-05-29


Bienvenidos al Data Latam Podcast donde exploramos la industria de datos en Latino América.

Esta es una conversación con Miguel Paredes actualmente en CSAIL en MIT (el laboratorio de ciencia de computación e inteligencia artificial de MIT. Ademas contribuye a las actividades del Centro Martin Trust el cual esta formando una nueva generación de emprendedores con un enfoque en datos).

Durante la conversación Miguel nos cuenta como llegó al mundo de ciencia de datos, comenzando por ser un buen programador (inspirado por los juegos de computadoras) que trabajó en American Airlines para luego enfocarse en problemas de la sociedad que lo llevo a MIT a hacer 2 maestrías. En base a esto se enfocó en ver impacto en programas de desarrollo. Actualmente su enfoque en el doctorado está en el uso de herramientas de ciencia de datos y decisiones donde existe mucha incertidumbre con algunos casos en salud y real estate.

Partiendo del mundo de desarrollo y bases de datos se fué metiendo mas profundamente en Machine Learning. Actualmente le interesa la intersección entre estadística y modelos econométricos. Los modelos econométricos son buenos para explicar causalidad. En estos modelos se modelan las razones en base a regresiones. Cuando se integra machine learning nos metemos en el mundo de las predicciones. En base a Machine Learning podemos definir cuales son los predictores de los ´outcomes´. Usan redes neuronales, regresiones logísticas y la programación la hacen en R y Python.

Mezclar econometría y Machine Learning en el grupo ALFA (Any scale Learning For All) para hacer estos modelos escalables es un trabajo en equipo donde Miguel colabora con post doctorados y alumnos de maestría colaborando. La escalabilidad tiene trade-offs entre velocidad del algoritmo y la capacidad de predecir del algoritmo. Encontrar este balance es clave y se necesitan modelos eficientes.

También se cubren algunos aspectos de infraestructura. Para modelos de Machine Learning (con R o Python) hay que pensar en plataformas cuyo web front end se hace en tecnologías tradicionales y la infraestructura es la de MIT o AWS.

También tocamos el tema de Big Data vs Data Science. Miguel deja claro que lo importante son los métodos para explotar los datos mas allá de su tamaño. Muchos hoy hablan de fast data o lean data. Lo clave es dejar la data a disposición para su buen uso.

Sobre las oportunidades para Latino América en aspectos de ciencia de datos, Miguel menciona la importancia de tener mas y mejores data scientists. Latino América podría atender demanda insatisfecha en otros mercados partiendo de buenos desarrolladores, estadistas, economistas y mas perfiles.

Finalmente Miguel habla de como hacerse un Data Scientist estudiando en Udacity, Edx o Coursera.