Mon. Dec 29th, 2025

El etiquetado correcto de los datos de entrenamiento para los modelos de IA es vital para evitar problemas graves, al igual que el uso de conjuntos de datos suficientemente grandes. Sin embargo, etiquetar manualmente grandes cantidades de datos requiere mucho tiempo y es laborioso.

El uso de conjuntos de datos preetiquetados puede ser problemático, como lo demuestra el hecho de que el MIT tenga que extraer sus conjuntos de datos de 80 millones de imágenes diminutas. Para aquellos que no lo saben, se descubrió que el popular conjunto de datos contenía miles de etiquetas racistas y misóginas que podrían haberse utilizado para entrenar modelos de IA.

AI News se reunió con Devang Sachdev, vicepresidente de marketing de Snorkel AI, para averiguar cómo la empresa está facilitando el laborioso proceso de etiquetado de datos de manera segura y eficaz.

Noticias de AI: ¿Cómo ayuda Snorkel a facilitar el laborioso proceso de etiquetado de datos?

Devang Sachdev: Snorkel Flow cambia el paradigma del etiquetado de datos de entrenamiento del proceso manual tradicional, que es lento, costoso e inadaptable, a un proceso programático que hemos demostrado que acelera la creación de datos de entrenamiento 10x-100x.

Los usuarios pueden capturar su conocimiento y los recursos existentes (tanto internos, por ejemplo, ontologías como externos, por ejemplo, modelos básicos) como funciones de etiquetado, que se aplican a los datos de entrenamiento a escala.

A diferencia de un enfoque basado en reglas, estas funciones de etiquetado pueden ser imprecisas, carecer de cobertura y entrar en conflicto entre sí. Snorkel Flow utiliza técnicas de supervisión débil teóricamente fundamentadas para combinar de manera inteligente las funciones de etiquetado para etiquetar automáticamente su conjunto de datos de entrenamiento en masa utilizando un modelo de etiqueta de Snorkel Flow óptimo.

Con este conjunto de datos de entrenamiento inicial, los usuarios entrenan un modelo de aprendizaje automático más grande de su elección (con solo hacer clic en un botón de nuestro ‘Zoológico modelo’) para:

  1. Generalice más allá de la salida del modelo de etiqueta.
  2. Genere un análisis de errores guiado por el modelo para saber exactamente dónde se confunde el modelo y cómo iterar. Esto incluye sugerencias generadas automáticamente, así como herramientas de análisis para explorar y etiquetar datos para identificar qué funciones de etiquetado editar o agregar.

Este proceso rápido, iterativo y adaptable se parece más al desarrollo de software que a un tedioso proceso manual que no se puede escalar. Y al igual que el desarrollo de software, permite a los usuarios inspeccionar y adaptar el código que produjo las etiquetas de datos de entrenamiento.

AN: ¿Hay peligros en implementar demasiada automatización en el proceso de etiquetado?

DS: El proceso de etiquetado puede introducir peligros inherentemente simplemente por el hecho de que, como humanos, somos falibles. Los etiquetadores humanos pueden estar fatigados, cometer errores o tener un sesgo consciente o inconsciente que codifican en el modelo a través de sus etiquetas manuales.

Cuando ocurren errores o sesgos, y ocurrirán, el peligro es que el modelo o la aplicación posterior amplifique esencialmente la etiqueta aislada. Estas amplificaciones pueden conducir a impactos consecuentes a escala. Por ejemplo, desigualdades en los préstamos, discriminación en la contratación, diagnósticos perdidos para pacientes y más. La automatización puede ayudar.

Además de estos peligros, que tienen importantes consecuencias posteriores, también existen riesgos más prácticos de intentar automatizar demasiado o sacar al ser humano del circuito de desarrollo de datos de entrenamiento.

Los datos de entrenamiento son la forma en que los humanos codifican su experiencia en modelos de aprendizaje automático. Si bien hay algunos casos en los que no se requiere experiencia especializada para etiquetar datos, en la mayoría de los entornos empresariales sí lo es. Para que estos datos de capacitación sean efectivos, deben capturar la totalidad del conocimiento de los expertos en la materia y los diversos recursos en los que se basan para tomar una decisión sobre cualquier punto de datos determinado.

Sin embargo, como todos hemos experimentado, tener expertos altamente solicitados que etiqueten los datos manualmente uno por uno simplemente no es escalable. También deja una enorme cantidad de valor sobre la mesa al perder el conocimiento detrás de cada etiqueta manual. Debemos adoptar un enfoque programático para el etiquetado de datos y participar en flujos de trabajo de desarrollo de IA centrados en datos, en lugar de centrados en modelos.

Esto es lo que esto implica:

  • Elevar la forma en que los expertos del dominio etiquetan los datos de capacitación desde el tedioso etiquetado uno por uno hasta la codificación de su experiencia, la razón detrás de lo que serían sus decisiones de etiquetado, de una manera que se pueda aplicar a escala.
  • Usar una supervisión débil para etiquetar automáticamente de manera inteligente a escala; esto no es magia automática, por supuesto; es un enfoque inherentemente transparente y teóricamente fundamentado. Cada etiqueta de datos de entrenamiento que se aplica en este paso se puede inspeccionar para comprender por qué se etiquetó como estaba.
  • Traer expertos al ciclo central de desarrollo de IA para ayudar con la iteración y la resolución de problemas. Al utilizar flujos de trabajo optimizados dentro de la plataforma Snorkel Flow, los científicos de datos, como expertos en la materia, pueden colaborar para identificar la causa raíz de los modos de error y cómo corregirlos mediante actualizaciones simples de la función de etiquetado, adiciones o, en ocasiones, corrección del terreno. etiquetas de verdad o de “estándar de oro” que el análisis de errores revela que son incorrectas.

AN: ¿Qué tan fácil es identificar y actualizar las etiquetas en función de los cambios del mundo real?

DS: Un valor fundamental del enfoque centrado en datos de Snorkel Flow para el desarrollo de IA es la adaptabilidad. Todos sabemos que los cambios en el mundo real son inevitables, ya sea que se trate de cambios en los datos de producción o de objetivos comerciales que evolucionen. Debido a que Snorkel Flow usa etiquetado programático, es extremadamente eficiente para responder a estos cambios.

En el paradigma tradicional, si la empresa acude a usted con un cambio en los objetivos, por ejemplo, estaban clasificando los documentos de tres formas pero ahora necesitan un esquema de 10 direcciones, necesitaría volver a etiquetar su conjunto de datos de capacitación (a menudo miles o cientos). de miles de puntos de datos) desde cero. Esto significaría semanas o meses de trabajo antes de poder cumplir con el nuevo objetivo.

En contraste, con Snorkel Flow, actualizar el esquema es tan simple como escribir algunas funciones de etiquetado adicionales para cubrir las nuevas clases y aplicar una supervisión débil para combinar todas sus funciones de etiquetado y volver a entrenar su modelo.

Para identificar la deriva de datos en producción, puede confiar en su sistema de monitoreo o usar las API de producción de Snorkel Flow para traer datos en vivo de vuelta a la plataforma y ver cómo se desempeña su modelo con los datos del mundo real.

A medida que detecta la degradación del rendimiento, puede seguir el mismo flujo de trabajo: usar el análisis de errores para comprender patrones, aplicar acciones sugeridas automáticamente e iterar en colaboración con sus expertos en la materia para refinar y agregar funciones de etiquetado.

AN: El MIT se vio obligado a retirar su conjunto de datos ’80 Million Tiny Images’ después de que se descubriera que contenía etiquetas racistas y misóginas debido al uso de un “procedimiento de recopilación de datos automatizado” basado en WordNet. ¿Cómo se asegura Snorkel de evitar este problema de etiquetado que genera sesgos dañinos en los sistemas de IA?

DS: El sesgo puede comenzar en cualquier parte del sistema: preprocesamiento, posprocesamiento, diseño de tareas, opciones de modelado, etc. Y, en particular, problemas con datos de entrenamiento etiquetados.

Para comprender el sesgo subyacente, es importante comprender la lógica utilizada por los etiquetadores. Esto no es práctico cuando cada punto de datos se etiqueta a mano y no se captura la lógica detrás de etiquetarlo de una forma u otra. Además, la información sobre el autor de la etiqueta y el control de versiones del conjunto de datos rara vez está disponible. A menudo, el etiquetado se subcontrata o los etiquetadores internos se han trasladado a otros proyectos u organizaciones.

El enfoque de etiquetado programático de Snorkel AI ayuda a descubrir, administrar y mitigar el sesgo. En lugar de descartar la lógica detrás de cada punto de datos etiquetado manualmente, Snorkel Flow, nuestra plataforma de IA centrada en datos, captura el conocimiento de los etiquetadores (expertos en la materia, científicos de datos y otros) como una función de etiquetado y genera etiquetas probabilísticas utilizando algoritmos teóricos codificados. en un novedoso modelo de etiqueta.

Con Snorkel Flow, los usuarios pueden entender exactamente por qué un determinado punto de datos se etiquetó de esa manera. Este proceso, junto con la función de etiqueta y el control de versiones del conjunto de datos de etiquetas, permite a los usuarios auditar, interpretar e incluso explicar los comportamientos del modelo. Este cambio del etiquetado manual al programático es clave para gestionar el sesgo.

AN: Un grupo dirigido por el investigador de Snorkel, Stephen Bach, publicó recientemente su artículo sobre Aprendizaje de tiro cero con gráficos de conocimiento de sentido común (ZSL-KG). Dirigiría a los lectores a el papel para obtener los detalles completos, pero ¿puede darnos una breve descripción general de qué es y cómo mejora los métodos existentes basados ​​en WordNet?

DS: ZSL-KG mejora el aprendizaje de tiro cero basado en gráficos de dos maneras: modelos más ricos y datos más ricos. En el lado del modelado, ZSL-KG se basa en un nuevo tipo de red neuronal de gráficos llamada red convolucional de gráficos de transformadores (TrGCN).

Muchas redes neuronales gráficas aprenden a representar nodos en un gráfico a través de combinaciones lineales de representaciones vecinas, lo cual es limitante. TrGCN utiliza pequeños transformadores en cada nodo para combinar representaciones de vecindarios de formas más complejas.

Por el lado de los datos, ZSL-KG utiliza gráficos de conocimiento de sentido común, que utilizan lenguaje natural y estructuras gráficas para hacer explícitos muchos tipos de relaciones entre conceptos. Son mucho más ricos que la típica jerarquía de subtipos de ImageNet.

AN: Gartner designó a Snorkel como un ‘Vendedor genial’ en su informe AI Core Technologies de 2022. ¿Qué crees que te diferencia de la competencia?

DS: El etiquetado de datos es uno de los mayores desafíos para la IA empresarial. La mayoría de las organizaciones se dan cuenta de que los enfoques actuales no son escalables y, a menudo, están plagados de problemas de calidad, explicabilidad y adaptabilidad. Snorkel AI no solo proporciona una solución para automatizar el etiquetado de datos, sino que también ofrece de manera única una plataforma de desarrollo de IA para adoptar un enfoque centrado en los datos y aprovechar los recursos de conocimiento, incluidos los expertos en la materia y los sistemas existentes.

Además de la tecnología, Snorkel AI reúne más de 7 años de investigación y desarrollo (que comenzó en el laboratorio de IA de Stanford) y un equipo altamente talentoso de ingenieros de aprendizaje automático, gerentes de éxito e investigadores para ayudar y asesorar con éxito el desarrollo de clientes, así como traer nuevas innovaciones al mercado.

Snorkel Flow unifica todos los componentes necesarios de un flujo de trabajo de desarrollo de IA programático y centrado en datos (creación/gestión de datos de capacitación, iteración de modelos, herramientas de análisis de errores y exportación o implementación de datos/aplicaciones), a la vez que es completamente interoperable en cada etapa a través de Python. SDK y una variedad de otros conectores.

Esta plataforma unificada también proporciona una interfaz intuitiva y un flujo de trabajo optimizado para la colaboración crítica entre anotadores de SME, científicos de datos y otros roles, para acelerar el desarrollo de IA. Permite a los equipos de ciencia de datos y ML iterar tanto en datos como en modelos dentro de una única plataforma y utilizar los conocimientos de uno para guiar el desarrollo del otro, lo que lleva a ciclos de desarrollo rápidos.

El equipo de Snorkel AI compartirá sus valiosos conocimientos en el evento de este año. Exposición de IA y Big Data de América del Norte. Saber más aquí y pase por el stand de Snorkel en el stand #52.

La publicación Devang Sachdev, Snorkel AI: Sobre cómo facilitar el laborioso proceso de etiquetado de datos apareció primero en AI News.

By Erica Flores

Enamorada de la tecnología. Apasionada de la velocidad que la información puede adquirir en este mundo cambiante. Actualmente residiendo en Barcelona.