Recientemente, compartimos la noticia de la creación de DeepMind una inteligencia artificial capaz de desarrollar códigos sencillos pero con alta efectividad como un programador promedio y lenguajes de programación.
Un desarrollo que obtuvo buen recibimiento por parte de la industria tecnológica al verla como una serie de posibilidades al momento de desempeñarse como un asistente de usuario. Humano, no necesariamente programadores. No obstante, esto también representa un problema.
Un grupo de investigadores de la Universidad Carnegie Mellon, dice que los problemas con estos modelos potentes de inteligencia artificial, no están disponibles públicamente. Lo que tiene como consecuencia una limitación en aplicaciones fuera de la empresa, así como investigaciones de campo.
Por ejemplo, un estudio que realizó la startup AI21 Labs en 2020 establece que el costo en el entrenamiento de un modelo generador de código con 1,500 millones de parámetros, oscila entre los 80,000 a 1,6 millones de dólares.
Lenguajes de programación e IAs programadoras
Los investigadores Frank Xu, Uri Alon, Graham Neubig y Vincent Hellendoorn, ya llevaban tiempo en una inteligencia artificial programadora de código abierto. Facilitando el acceso a todo tipo de usuarios y organizaciones, que tuviera la capacidad de democratizar la creación e investigación de inteligencias artificiales programadoras. Un campo que, de momento, parece estar liderado por DeepMind y OpenAI.
Es justamente en este momento que PolyCoder entra en el juego. un nuevo modelo generador de codo automatizado que toma sus bases en el conocido GPT-2, que se ha entrado con cerca de 631 GB de datos y 38,9 millones de archivos de código con el fin de aprender a codificar en 12 diferentes lenguajes de programación.
De este modo, tiene la capacidad de generar códigos en C, C#, C++, Go, Java, JavaScript, PHP, Python, Ruby, Rust, Scala y TypeScript. O obstante, sus creadores señalan que su fuerte, realmente es C. siendo este lenguaje en el que puede codificar con mayor precisión.
Un dato destacable de PolyCoder es que no fue entrenado únicamente con archivos de código. También, con información en lenguaje natural que se extrajo de Stack Overflow, un sitio popular entre los desarrolladores para encontrar respuestas a sus inquietudes en código.
Para los conjuntos de datos usados en el entrenamiento de Codex, aún no están disponibles al público. Mientras su modelo de API sigue bajo el modelo de caja negra. Entre algunos de los objetivos planteados por estos investigadores al momento de crear PolyCoder, es evitar que este tipo de modelos experimentan un empuje para generar programas con bugs o códigos maliciosos.