Las redes neuronales son tan buenas como los datos que alimentan

Las redes neuronales son tan buenas como los datos que alimentan

Al igual que otros tipos de computación, si ingresa datos incorrectos en un curso de aprendizaje automático y luego agrega nuevos datos, la respuesta es basura triturada.

A veces hay mucho de verdad en la conversación sobre cómo la IA y el aprendizaje automático cambiarán, e incluso ahora, el mundo de los negocios, desde aumentar la productividad y la eficiencia operativa hasta tomar mejores y más rápidas decisiones comerciales basadas en montañas de datos generados para automatizar la rutina. procesos. Y es un negocio en auge, ya que Gartner predice que las ventas globales de software de IA este año serán Alcanzó los 62.500 millones de dólaresun aumento del 21,3 por ciento interanual.

Pero esta gran cantidad de datos está contaminada y eso diluye este panorama optimista. Los datos incorrectos, o los datos insuficientes, los datos desactualizados o los datos con errores, conducirán a un modelo de capacitación defectuoso y a un proyecto de IA contaminado. Los datos de entrenamiento deben estar limpios, con la menor cantidad de errores posible, y completos, y los algoritmos utilizados para recopilar datos deben estar libres de sesgos, un problema espinoso que los usuarios de IA y los proveedores de software intentan ayudarlos a seguir enfrentando.

Vikram Chatterji ha visto muchos de estos problemas en sus más de tres años como director de gestión de productos de Google Cloud AI Business. Las empresas pueden tener buenos modelos de capacitación, pero «el aprendizaje automático funciona completamente con datos y debe asegurarse de que no haya un problema de basura en basura», dice Chatterjee. Siguiente plataforma.

También vio que los desarrolladores de procesos lentos, lentos y altamente manuales deben pasar por descubrir y corregir errores en los datos no solo al comienzo del proyecto sino durante el entrenamiento del modelo. Gran parte del interés en estos proyectos estaba en el modelo, pero el desafío estaba en los datos y los científicos de datos usaban Google Sheets y scripts de Python para analizar los datos y determinar dónde estaba sufriendo el modelo.

Él dice que encontrar y corregir errores generalmente consume el 50 por ciento del tiempo de los científicos de datos.

«Existen todas estas herramientas brillantes en el espacio de ML que se están implementando ahora y todas se centran en los modelos”, dice Chatterjee. «Todas se centran en la implementación y el monitoreo de modelos. Pero los datos eran del 80% al 90% del tiempo de mi equipo. Si observa sus pantallas, hay todas estas hojas de cálculo de Excel y Google Sheets y mi pregunta para ellos fue: «¿Qué están tratando de averiguar?» Siempre dirán que los datos pueden contener algunos sesgos ocultos y que pueden contener mucha basura. Te sorprenderá la cantidad de basura que se ingresa, el texto en blanco y los diferentes idiomas. Esperaría que fueran en inglés, pero resulta que son todos españoles o alemanes y mi modelo no tiene idea de qué hacer con ellos y cómo puedo averiguarlo. Esta es la realidad de las cosas».

READ  El presidente del Gobierno español dice que el sistema energético de Europa se está derrumbando

Este era el desafío que Chatterji, Atindriyo Sanyal y Yash Sheth querían enfrentar cuando fundaron Galileo el año pasado y recientemente lo sacaron de cobertura con $5.1 millones en fondos. Han creado una plataforma de software diseñada para permitir a los desarrolladores y científicos de datos encontrar y corregir errores de forma rápida (supuestamente 10 veces más) y precisa en los conjuntos de datos de entrenamiento de IA a lo largo del ciclo de vida de un proyecto de aprendizaje automático, con el objetivo de entregar la plataforma como un servicio basado en la nube.

La empresa tiene 14 empleados, la mitad de los cuales se dedican a la investigación de aprendizaje automático. Sanial pasó más de cinco años en Apple en el equipo de Siri antes de pasar a Uber AI como líder técnico para el proyecto de aprendizaje automático Michelangelo de la compañía. Sheth trabajó en la plataforma Google Speech Recognizer durante sus casi nueve años en la empresa.

Con la plataforma de software del proveedor, los científicos de datos pueden visualizar datos, dice Chatterjee. La plataforma básicamente viene en tres capas, incluida la interfaz de usuario en la parte superior y el motor de inteligencia de Galileo debajo, que alberga todos los algoritmos desarrollados por la empresa que permiten a los científicos de datos ejecutar cálculos estadísticos. En la base está la capa de datos, que almacena la mayoría de los datos de aprendizaje automático, especialmente los datos no estructurados, y los metadatos.

La plataforma en el clúster de Kubernetes se implementa en un entorno de nube, los datos nunca la abandonan, un aspecto importante para las organizaciones que desean proteger la privacidad de los datos. Viene con un modelo de precios de depreciación.

READ  En el Mundial abundan los delirios de transformación nacional

“Combinar estos tres permite que el científico de datos realice una capacitación realmente rápida sobre cualquier herramienta y producto que use en su capacitación, agregue algunas líneas de código de Galileo y, por otro lado, en la interfaz de usuario, ven esta experiencia mágica porque ven ahora muy rápido que se hacen todos estos cálculos complejos, se hacen y se visualizan, y se obtienen respuestas sobre dónde están los errores”, dice. «Es un salto paso a paso en la funcionalidad en la forma en que piensan incluso sobre los datos de ML».

La plataforma Galileo presenta la información de dos formas. Uno es similar a un mapa de calor, que proporciona una representación bidimensional de cómo el modelo ve los datos que se pueden colorear utilizando escalas desarrolladas por proveedores. También hay otra vista similar a una hoja de cálculo de Excel a la que muchos científicos de datos están acostumbrados, pero que pueden ordenar por métricas de tal manera que los puntos problemáticos aparezcan rápidamente.

Los errores en los datos pueden cubrir una amplia gama, incluida la regularización, que incluye la confiabilidad de las fuentes de datos, la limpieza de los datos y la amplia representación de características. Los errores de etiquetado, a veces causados ​​por humanos y otras veces por máquinas, pueden conducir a predicciones inexactas, mientras que la actualización de los datos también es importante debido a la cantidad de veces que los conjuntos de datos etiquetados se reutilizan con el tiempo.

Las actitudes pueden cambiar rápidamente durante una situación como la pandemia de COVID-19. Los datos recopilados al principio del ciclo pueden estar desactualizados cuando hay un aumento de casos, hospitalización o introducción de nuevas variables. También existe una preocupación constante sobre el sesgo en los conjuntos de datos que podría sesgar los resultados. Los datos que están muy sesgados hacia los hombres o se basan en una raza sobre otra pueden generar sesgos en los algoritmos desarrollados para un proyecto o tergiversar los resultados finales.

Ha habido algunos casos notables de sesgo involuntario, como en una herramienta de reclutamiento basada en inteligencia artificial desarrollada por Amazon que demostró sesgo contra las mujeres o un algoritmo diseñado para evaluar las predicciones de riesgo de atención médica que utiliza datos de gastos de atención médica del paciente para representar necesidades médicas. dando lugar a prejuicios raciales.

READ  Alemania supera a Serbia liderada por Novak Djokovic. Italia se clasifica para la Copa Davis

La industria de la tecnología continúa buscando formas de abordar el problema del sesgo. Recientemente, este año, el Instituto Nacional de Estándares y Tecnología (NIST) publicó un archivo El informe de 86 páginas aborda el sesgo en la IA y el aprendizaje automático y prometedor para encontrar formas de detectar, medir y reducir el sesgo.

Chatterji usa el lenguaje como un ejemplo de cómo se puede introducir el sesgo. Si el modelo de entrenamiento está configurado para datos en inglés, puede bloquearse si los datos se presentan en español y no estoy seguro de qué hacer con ellos. Si eso sucede, los científicos de datos pueden agregar más datos en español.

“La pregunta es qué tipo de datos debo agregar, y tienes este equipo de administración de datos y otros y básicamente les pides que te den más datos de ese tipo en particular”, dice. «Aquí también es donde ayudamos porque podemos decirle: ‘¿Por qué no toma muchos de sus datos entrantes y luego, una vez que ve las partes que son difíciles para su modelo, como los datos en español, puede hacer una Búsqueda rápida de similitudes. Tenemos algoritmos de agrupamiento de similitud incorporados. Con solo hacer clic en un botón, puede decir: «Dame cien muestras más similares a las de mi otro conjunto de datos» y pueden lograrlo fácilmente. «

Galileo también almacena datos y metadatos mientras entrena el modelo e incluye un mecanismo de seguimiento que utiliza tablas y gráficos que muestran cómo un cambio en los datos utilizados afectó al modelo, lo que dice «Regula completamente este mecanismo súper personalizado”.

La plataforma Galileo está en versión beta privada, y el vendedor trabaja con una docena de empresas que van desde Fortune 500 hasta nuevas empresas. El objetivo es que esté disponible en general a finales de este año o en el primer trimestre de 2023.

Dejar respuesta

Please enter your comment!
Please enter your name here