En la sesión hablamos de varios temas relacionados con Big Data. Entre ellos aclarar varios términos como big data, machine learning, redes neuronales, ingeniero de datos, entre otros. Antes de empear dejar claro que el big data abarca varios procesos y perfiles técnicos.
Si estás interesado en estos temas la web a la que debes acudir es kaggle sin duda. En esta web existen multitud de cursos de mucha calidad y preparados para que los puedas completar con los menores problemas posibles.
Si te gusta ir más por libre y trastear con los datos, tienen un apartado dónde poder buscar datasets de muuuchos temas diferentes con los que puede trabajar desde la propia web y hacer tus ivestigaciones.
Por último, y no por ello menos importante, en kaggle podrás encontrar competiciones con premios de diferentes embergaduras. He visto hasta 100.000$ en premios en una sola competición.
Para trabajar con estos temas existen los llamados notebooks. Si quieres saber más sobre ellos tengo un artículo dónde explico lo que más me gusta de ellos en mi blog. Para trabajar con ellos existe el proyecto de Jupyter lab, existen varias implementaciones del mismo. En la propia web de kaggle tienen un entorno para poder trabajar, si quieres probar con la versión de google puedes usar google colab y si te gusta más lanzarlo en tu máquina local he creado una template en github con la que puedes trabajar tan solo teniendo Docker instalado, úsala con responsabilidad 👀
Para tener una idea clara y comprender que es un modelo de datos, como funciona el machine learning y como podemos crear el nuestro hemos seguido el curso de kaggle relacionado con el tema.
Big data: este palabro es el que abarca todo el ámbito relacionado con los datos desde, la extracción de la información hasta la creación del modelo de machine learning. Esto abarca muchas fases y perfiles. La primera división clara que haremos es ingeniero de datos y científico de datos.
Ingeniero de datos: perfil más cercano a informática. Este perfil abarca las primeras fases de extracción de los datos, limpieza, modelado para unificar el formato de los datos.
Científico de datos: perfil más cercano al matemático. Este perfil se encarga más de la parte de ver los datos ya preparados en la fase anterior, buscar relaciones, hacer los análisis pertinentes y crear los modelos de machine learning que usaremos finalmente.
Machine learning: consiste en una serie de algoritmos que con cierta entrada de datos devuelve una salida, estos algoritmos son modelos los cuales hacen una tarea concreta, puede ser clasificar, predecir, evaluar, etc. Por ejemplo si queremos decidir si una noticia de un periodico es racista o no.
Redes neuronales: una red neuronal es una concatenación de algoritmos y cálculos en a que la entrada de datos pasa por varias fases de cálculos, para llegar al resultado final.
-
👨💻 All of my projects are available at criskrus.com
-
📫 How to reach me [email protected]