La competición de analizar datos.
Uno de los principales problemas con los que se encuentran las empresas que manejan muchos datos es cómo analizarlos, es decir cómo conseguir el mejor modelo de predicción y clasificación de los datos.
Cuando se disponen de muestras muy grandes, y se necesita realizar un modelo de predicción y clasificación lo habitual es realizar ese modelo utilizando una parte de la muestra y reservar otra parte de la muestra para comprobar la bondad que tiene el modelo, es decir para estudiar su capacidad de predicción. Evidentemente no se puede estudiar la viabilidad del modelo sobre la misma muestra trabajada.
Los expertos que trabajan con este tipo de datos tratan de diseñar el modelo con la mayor puntuación posible, y es ahí donde recae la dificultad de esta tarea, pero ¿Y si lo convertimos en una competición?
Esta es la feliz idea que ha tenido Kaggle, convertir el análisis de datos en un juego. Kaggle ha creado la comunidad de Data Science más grande y activa del mundo. Una plataforma en la que actualmente se encuentran cerca de 200.000 científicos de todo el mundo para competir en este juego consistente en realizar un modelo de predicción y clasificación con la mayor bondad posible con una muestra determinada por la plataforma.
Se trata de una plataforma de crowdsourcing creada por el australiano Anthony Goldbloom en 2010.
Su creador se quedó maravillado con la idea que tuvo la plataforma Netflix quien organizó un concurso con un premio de un millón de dólares para la persona que fuera capaz de mejorar su software de recomendación de títulos. Así Anthony pensó, ¿y por qué no aplicar este tipo de concursos al análisis de datos?, y con esa idea surgió la actual comunidad Kaggle.
Kaggle, hasta el momento ha creado más de 200 desafíos con más de 1,2 millones de dólares en premios.
El funcionamiento de la plataforma es muy sencillo, un promotor contacta con el equipo de Kaggle y prepara un conjunto de datos de su negocio o investigación. Una parte de estos datos son publicados en la web para que los concursantes desarrollen sus modelos predictivos. Esos datos contienen la variable respuesta que se necesita modelar, y para valorar la bondad de las predicciones se publica también una métrica, es decir una fórmula del error. Ahora sólo queda comparar las predicciones sobre la otra parte de la muestra obteniendo así el poder del modelo realizado, y por tanto estableciendo un ranking en función del valor obtenido.
Kaggle actualmente ofrece una versión académica denominada “kaggle in class”, donde permite introducir las técnicas de machine learning a los alumnos mediante competiciones, convirtiendo la resolución de ejercicios en una competición.
Actualmente en España la plataforma Kaggle se ha vuelto muy conocida gracias a los medios de comunicación, ya que un matemático andaluz, José Antonio Guerrero ocupa la primera posición en el ranking de la comunidad.
Este matemático trabaja en el Hospital Universitario Vírgen del Rocío como técnico de bases de datos, y es un desconocido fuera de los círculos especializados.
Actualmente vivimos en una sociedad muy competitiva en la que las empresas necesitan conocer con exactitud sus compradores potenciales, para recomendar contenido y ampliar su catálogo. Es por ello que el análisis de datos se convierte en fundamental para la sociedad moderna. Conscientes de ello, televisiones como Canal +, o Antena 3 empiezan adentrarse en el mundo del big data.
Autor: Francisco Morante Quirantes. @fdetsocial
Co-fundador del blog divulgativo de FdeT