Wed. Jan 7th, 2026

IBM ha anunciado Project CodeNet, un gran conjunto de datos que tiene como objetivo ayudar a enseñar a la IA cómo comprender e incluso escribir código.

Project CodeNet se anunció en la conferencia Think de IBM esta semana y afirma ser el mayor conjunto de datos de código abierto para código (aproximadamente 10 veces el tamaño del más cercano).

CodeNet presenta 500 millones de líneas de código, 14 millones de ejemplos y abarca 55 lenguajes de programación, incluidos Python, C ++, Java, Go, COBOL, Pascal y más.

Proyectos como el GPT-3 de OpenAI están mostrando cómo las IA se están volviendo bastante expertas en escribir los lenguajes de los humanos, pero nos ha dejado a nosotros escribir su propio código nativo. CodeNet tiene como objetivo cambiar eso.

Durante al menos el futuro previsible, proyectos como GPT-3 serán una herramienta para los humanos que puede aumentar su productividad al proporcionar un estándar básico que aún requerirá algunas modificaciones para corregir errores y compensar áreas donde los humanos todavía tienen una ventaja como creatividad, emoción y compasión.

CodeNet será similar, al menos inicialmente, en el sentido de que conducirá a herramientas mejoradas que ayudarán a acelerar la escritura y verificación del código por parte de los humanos al mejorar la propia comprensión de la IA sobre cómo realizar tales tareas.

"Dada su gran cantidad de programas escritos en una multitud de idiomas, creemos que Project CodeNet puede servir como un conjunto de datos de referencia para la traducción de fuente a fuente y hacer para la IA y codificar lo que el conjunto de datos ImageNet hizo hace años para la visión por computadora", dice IBM. .

El empresario estadounidense Marc Andreesen escribió de manera famosa y acertada en 2011 que “El software se está comiendo el mundo”. Avance rápido hasta la actualidad e incluso los automóviles ahora cuentan con más de 100 millones de líneas de código (y están creciendo rápidamente con la llegada de los vehículos autónomos).

IBM dice que uno de sus grandes clientes automotrices se acercó recientemente a la compañía para ayudarlo a actualizar un activo de $ 200 millones que consta de 3.500 archivos Java de múltiples generaciones. Estos archivos contenían más de un millón de líneas de código.

Al aplicar su pila de inteligencia artificial para código, IBM redujo el proceso de migración de código continuo de un año del cliente a solo cuatro semanas.

Ese ejemplo seguramente será el primero de muchos en los próximos años que se han acelerado y mejorado en gran medida gracias al Proyecto CodeNet.

Puede encontrar el conjunto de datos completo de Project CodeNet en GitHub aquí.

(Foto de ThisisEngineering RAEng en Unsplash)

¿Está interesado en escuchar a los líderes de la industria discutir temas como este? Asista a la 5G Expo, IoT Tech Expo, Blockchain Expo, AI & Big Data Expo, y Cyber ​​Security & Cloud Expo World Series, ubicadas en el mismo lugar, con los próximos eventos en Silicon Valley, Londres y Ámsterdam.

La publicación El Proyecto CodeNet de IBM quiere enseñarle a la IA cómo codificar apareció primero en AI News.

By Erica Flores

Enamorada de la tecnología. Apasionada de la velocidad que la información puede adquirir en este mundo cambiante. Actualmente residiendo en Barcelona.