Demuestro en este artículo que la Ciencia de Datos, Big Data e Inteligencia Artificial (IA) son áreas serias de investigación y desarrollo, las necesitamos para llegar a la Inteligencia General Artificial (IGA), y también cómo la Ciencia de Datos es crucial para este esfuerzo.
¿Qué es la inteligencia?
No es una pregunta fácil de responder. Luché hace un tiempo tratando de definir qué era, pero encontré una definición de frase simple que me gustó.
Así que definamos la inteligencia como:
“La capacidad de lograr objetivos complejos”
(Tegmark Max, 2018).
¿Pero qué es complejo aquí?, ¿cómo estamos definiendo algo complejo? Si buscas en internet encontrarás varias definiciones diferentes, pero creo que la “principal” está cerca de lo que creo que está hablando la definición de inteligencia.
Si pensamos que complejo es algo que tiene muchas partes relacionadas entre sí, de maneras que pueden ser difíciles de entender, podemos decir que algo complejo es una mezcla de cosas o partes, que juntas forman una cosa más grande, y la forma en que las partes están relacionadas no es muy fácil de entender.
Por ejemplo, algo complejo que tiene muchas partes que funcionan juntas de una manera que no es tan fácil de entender es un automóvil. ¡Pero! si echamos un vistazo, las partes individuales no son tan difíciles de entender. No digo que sean fáciles de construir o que vean exactamente lo que hacen, pero es más fácil comprender lo que hacen.
Entonces podemos decir ahora que la inteligencia es:
“La capacidad de lograr objetivos difíciles mediante la comprensión de las partes que forman el objetivo principal.“
Estos objetivos se definirán en el contexto que queramos, pero ahora queremos centrarnos en el campo de la Inteligencia Artificial (IA). Entonces, como AI quiere construir inteligencia usando máquinas y computación tratando de imitar las formas en que los humanos vemos, escuchamos, aprendemos y más, estos objetivos serán ver, aprender, escuchar, moverse, comprender y más.
¿Qué es el entender?
Otro concepto importante que necesitamos es la comprensión. Ya hemos usado esa palabra varias veces, así que vamos a definirla:
“La comprensión es la capacidad de convertir información compleja en información simple y útil.“
Necesitamos esto, y hablamos de ello cuando vimos las partes del automóvil. Cuando comprendemos, decodificamos las partes que forman esta cosa compleja y transformamos los datos sin procesar que obtuvimos al principio en algo útil y simple de ver.
Hacemos esto modelando. Este es el proceso de entender la “realidad”, el mundo que nos rodea, pero crear un prototipo de nivel superior que describa las cosas que estamos viendo, oyendo y sintiendo es algo representativo, no la cosa “real”.
Entonces, ¿cómo los humanos creamos inteligencia? Al modelar el mundo que nos rodea, comprender sus partes, transformar los datos en bruto que obtuvimos en información útil y simple para luego ver cómo estas partes forman cosas más complejas, logrando al final objetivos “difíciles”.
¿Qué necesitamos para crear inteligencia con IA?
Creo que la receta para crear inteligencia no es tan difícil en un nivel alto. Esto es lo que propongo que tenenemos que hacer a grandes rasgos:
Big Data + IA + Ciencia de Datos = Inteligencia General Artificial
Estoy hablando de IGA como el objetivo principal de esta revolución. Me refiero con IGA a sistemas de propósito general con inteligencia comparable a la de la mente humana (o tal vez más allá de los humanos).
Necesitamos Big Data como catalizador para llegar a AGI, porque con más datos, además de nuevas formas de analizar datos, de un mejor software y hardware, podemos crear mejores modelos y una mejor comprensión. Necesitamos el estado actual de la IA, muy cerca de Deep Learning, Deep Reinforcement Learning y sus alrededores para el modelado, y luego necesitamos la ciencia de datos como el controlador y la ciencia detrás de esta revolución.
¿Qué es la ciencia de datos?
Esta definición puede causar controversia para algunas personas, pero creo que esto es algo muy cercano a lo que los líderes (tanto teóricos como en el negocio) dicen en este momento. Entonces:
“La ciencia de datos es la resolución de problemas de empresas / organizaciones a través de las matemáticas, la programación y el método científico que implica la creación de hipótesis, experimentos y pruebas a través del análisis de datos y la generación de modelos predictivos. Es responsable de transformar estos problemas en preguntas bien formuladas que también pueden responder a la hipótesis inicial de una manera creativa. También debe incluir la comunicación efectiva de los resultados obtenidos y cómo la solución agrega valor a la empresa / organización.“
Y con esta definición podemos descubrir quién es un Científico de Datos:
“Un científico de datos es una persona (¿o sistema?) a cargo de analizar los problemas de las empresas / organizaciones y dar una solución estructurada, comenzando por convertir este problema en una pregunta válida y completa, luego, utilizando herramientas de programación y computación, desarrolla códigos que preparan, limpian y analizan los datos para crear modelos y responder la pregunta inicial.“
Lo que digo aquí es que la ciencia de datos está muy vinculada al negocio, pero al final es una ciencia, en el proceso de convertirse en una, o tal vez no. Creo que podría ser muy útil que la ciencia de datos sea una ciencia porque si ese es el caso, cada proyecto en ciencia de datos debería ser al menos:
Reproducible: Necesario para facilitar la prueba del trabajo y el análisis de otros.
Falible: La ciencia de datos y la ciencia no buscan la verdad, buscan conocimiento, por lo que cada proyecto puede ser sustituido o mejorado en el futuro, ninguna solución es la solución definitiva.
Colaborativo: El científico de datos no existe solo, necesita un equipo, este equipo hará posible las cosas para crear inteligencia y soluciones. La colaboración es una gran parte de la ciencia, y la ciencia de datos no debería ser una excepción.
Creativo: La mayoría de lo que hacen los científicos de datos es una nueva investigación, nuevos enfoques o toma diferentes soluciones, por lo que su entorno debe ser muy creativo y fácil de trabajar. La creatividad es crucial en la ciencia, es la única forma en que podemos encontrar soluciones a problemas difíciles y complejos.
Cumplir con las regulaciones: En este momento hay muchas regulaciones sobre ciencia, no tanto sobre ciencia de datos, pero habrá más en el futuro. Es importante que los proyectos que estamos construyendo puedan conocer estos diferentes tipos de regulaciones para que podamos crear una solución limpia y aceptable a los problemas.
Comentarios finales y guía de estudio
Quiero dejar claro que la ciencia de datos no es una panacea. Durante los últimos 4-5 años, he estado escuchando anécdotas de colegas que se dedican a la ciencia de datos. Es preocupante que muchas empresas, en primer lugar, todavía no saben qué es o hace un científico de datos, y en segundo lugar, y quizás más preocupante, que las vean como una persona que resuelve todos los problemas y que puede hacer cualquier cosa mágicamente.
La ciencia de datos no puede y no resolverá todos los problemas de una empresa. Cada campo científico tiene su propio ámbito y conjunto de problemas solucionables. Por supuesto, puedes aplicar el aprendizaje automático y la ciencia de datos para muchas cosas diferentes, pero no para todo.
Hay perfiles bien definidos en el área de datos. Los científicos de datos, los analistas de datos, los ingenieros de datos y los analistas de negocios ocupan diferentes puestos en la empresa.
El científico de datos es una posición cercana a la empresa y también a TI. Debemos poder encontrar soluciones prácticas a los problemas que presenta la empresa. Y de una manera clara y concisa, resolverlos, enfatizando cómo nuestra solución genera valor y responde las preguntas inicialmente propuestas.
La ciencia de datos tampoco es un campo 100% nuevo, sino que toma muchas teorías y resultados de áreas como la Ingeniería, Física, Biología, Computación y también depende mucho de los avances tecnológicos. Acá en el timeline que he creado de la ciencia de datos, esto debe quedar más claro:
Si quieres ser un científico de datos necesitas:
- Comprender qué es la ciencia de datos y por qué querrías ser un profesional del área.
- Conocer el alcance del trabajo de un científico de datos. Esta posición es una mezcla entre IT + Business con muchas habilidades blandas como poder presentar sus resultados a personas muy diferentes, buenas habilidades de programación y mucho más.
- Ser capaz de crear historias con datos. Nadie en el negocio quiere saber cuántas capas tiene tu red nerononal o qué tan bien realizó una validación cruzada, quiere saber cómo resolver problemas. Cómo su solución agrega valor. Necesitas poder contar una historia con sus hallazgos.
- Compartir tus ideas y escuchar a los demás. Ser creativo y tener una mente abierta. Debes poder desafiarte a ti mismo y a tus pensamientos, ser humilde pero también fuerte defendiendo lo que te dicen los datos.
- Ser capaz de aprender todos los días. Este es un campo cambiante, surgen muchas técnicas, frameworks y bibliotecas diferentes cada día, por lo que debes estar actualizado en todo momento para proporcionar las mejores soluciones para el negocio.
El principal pilar de la ciencia de datos es las Matemáticas, que junto con un buen entendimiento de los problemas de Negocio, Programación y lo que he comentado arriba se convierten en los fundamentos de esta ciencia.
Los tres pilares de las Matemáticas que debemos conocer: Álgebra (principalmente lineal), Cálculo (más que toda la parte diferencial y un poco la parte integral) y Estadísticas y Probabilidad (todo lo es posible porque es fundamental). Hay más cosas que pueden venir con el estudio de todo eso, pero éstas son las cosas más importantes que debes saber. Debajo te dejo algunas recomendaciones de estudio de matemáticas:
Libros generales:
- Elements of Statistical Learning
- Mathematics for Machine Learning
- Bayesian Reasoning and Machine Learning
- The Hundred-Page Machine Learning Book
- Mathematics for Machine Learning (Notes)
- Foundations of Machine Learning
Álgebra (cursos gratis y libros)
- Linear Algebra – Foundations to Frontiers (edX)
- Advanced Linear Algebra: Foundations to Frontiers
- Mathematics for Machine Learning: Linear Algebra (Coursera)
- Gilbert Strang lectures on Linear Algebra (MIT)
- Linear Algebra (Khan Academy)
- Linear Algebra Done Right (Book)
- Numerical Linear Algebra (Fast.ai)
- Coding the Matrix (Course)
Cálculo (cursos gratis y libros)
- Mathematics for Machine Learning: Multivariate Calculus (Coursera)
- Essence of calculus (3Blue1Brown)
- Introduction to Mathematical Thinking (Coursera)
- Calculus I (Professor Leonard)
- Calculus II (Professor Leonard)
- Calculus III (Professor Leonard)
- Single Variable Calculus (MIT)
- Calculus (Khan Academy)
- Introduction to Calculus I and II (Books)
- Advanced Calculus (Book)
- Calculus (Companion book to Gilbert Strang course)
Estadística y probabilidad (cursos y libros gratuitos)
- Probability and Statistics in Data Science using Python (edX)
- Business Statistics and Analysis Specialization (Coursera)
- Business Analytics: Decision Making using Data (Emeritus)
- Data Visualization: Tools and Techniques (Emeritus)
- Statistics and Probability (Khan Academy)
- All of Statistics: A Concise Course in Statistical Inference (Book)
- Intro to Statistics (Udacity)
- Statistics 110: Probability (Harvard)
- Crash Course Statistics (Youtube course)
- Statistics (Professor Leonard)
- Statistics for Data Science (Stanford)
- Probability and Statistics (Book)
- Think Stats (Book)
Espero que esto te ayude a encontrar un buen camino para estudiar y aprender lo que necesitas saber para dominar el mundo de las matemáticas. Siempre recuerda:
No hay un camino fácil, tienes que practicar, estudiar y si quieres saber a dónde vas, debes entender de dónde vienes.