Using generative AI to improve software testing
DataCebo ofrece un sistema de software generativo llamado Synthetic Data Vault para ayudar a las organizaciones a crear datos sintéticos para hacer cosas como probar aplicaciones de software y entrenar modelos de aprendizaje automático.Crédito: DataCebo, editado por MIT News

La IA generativa está recibiendo mucha atención por su capacidad para crear texto e imágenes.Pero esos medios representan sólo una fracción de los datos que proliferan en nuestra sociedad actual.Los datos se generan cada vez que un paciente pasa por un sistema médico, una tormenta impacta un vuelo o una persona interactúa con una aplicación de software.

Usando IA generativa para crear cosas realistasalrededor de esos escenarios puede ayudar a las organizaciones a tratar a los pacientes de manera más efectiva, redirigir aviones o mejorar las plataformas de software, especialmente en escenarios donde los datos del mundo real son limitados o confidenciales.

Durante los últimos tres años, DataCebo, empresa derivada del MIT, ha ofrecido un sistema de software generativo llamado Synthetic Data Vault para ayudar a las organizaciones a crear datos sintéticos para hacer cosas como probar aplicaciones de software y entrenar modelos de aprendizaje automático.

Synthetic Data Vault, o SDV, se ha descargado más de 1 millón de veces, con más de 10.000utilizando la biblioteca de código abierto para generar datos tabulares sintéticos.Los fundadores, el investigador científico principal Kalyan Veeramachaneni y la alumna Neha Patki '15, SM '16, creen que el éxito de la empresa se debe a la capacidad de SDV para revolucionar las pruebas de software.

SDV se vuelve viral

En 2016, el grupo de Veeramachaneni en el Data to AI Lab presentó un conjunto de herramientas de IA generativa de código abierto para ayudar a las organizaciones a crear datos sintéticos que coincidieran con las propiedades estadísticas de los datos reales.

Las empresas pueden utilizar datos sintéticos en lugar de información confidencial en los programas y al mismo tiempo preservar las relaciones estadísticas entre los puntos de datos.Las empresas también pueden utilizar datos sintéticos para ejecutar software nuevo mediante simulaciones para ver cómo funciona antes de lanzarlo al público.

El grupo de Veeramachaneni se encontró con el problema porque estaba trabajando con empresas que querían compartir sus datos para la investigación.

"El MIT te ayuda a ver todos estos diferentes casos de uso", explica Patki."Se trabaja con compañías financieras y de atención médica, y todos esos proyectos son útiles para formular soluciones en todas las industrias".

En 2020, los investigadores fundaron DataCebo para crear más funciones SDV para organizaciones más grandes.Desde entonces, los casos de uso han sido tan impresionantes como variados.

Con el nuevo simulador de vuelo de DataCebo, por ejemplo, las aerolíneas pueden planificar eventos climáticos raros de una manera que sería imposible utilizando solo datos históricos.En otra aplicación, los usuarios de SDV sintetizaron registros médicos para predecirpara pacientes con fibrosis quística.Un equipo de Noruega utilizó recientemente SDV para crear datos sintéticos de estudiantes para evaluar si varias políticas de admisión eran meritocráticas y estaban libres de sesgos.

En 2021, la plataforma de ciencia de datos Kaggle organizó una competencia para científicos de datos que utilizaron SDV para crear conjuntos de datos sintéticos para evitar el uso de datos propietarios.Participaron aproximadamente 30.000 científicos de datos, quienes crearon soluciones y predijeron resultados basados ​​en los datos realistas de la empresa.

Y a medida que DataCebo ha crecido, se ha mantenido fiel a sus raíces en el MIT: todos los empleados actuales de la empresa son ex alumnos del MIT.

Pruebas de software de sobrealimentación

Aunque sus herramientas de código abierto se utilizan para una variedad de casos de uso, la empresa se centra en aumentar su tracción en las pruebas de software.

"Se necesitan datos para probar estas aplicaciones de software", afirma Veeramachaneni."Tradicionalmente, los desarrolladores escriben scripts manualmente para crear datos sintéticos. Con los modelos generativos, creados usando SDV, puedes aprender de una muestra de datos recopilados y luego muestrear un gran volumen de datos sintéticos (que tienen las mismas propiedades que los datos reales), ocree escenarios específicos y casos extremos, y utilice los datos para probar su aplicación".

Por ejemplo, si un banco quisiera probar un programa diseñado para rechazar transferencias de cuentas sin dinero, tendría que simular muchas cuentas realizando transacciones simultáneamente.Hacer eso con datos creados manualmente llevaría mucho tiempo.Con los modelos generativos de DataCebo, los clientes pueden crear cualquier caso límite que quieran probar.

"Es común que las industrias tengan datos que son confidenciales en cierta medida", dice Patki."A menudo, cuando estás en un dominio con datos confidenciales, estás lidiando con regulaciones, e incluso si no hay regulaciones legales, lo mejor para las empresas es ser diligentes sobre quién tiene acceso a qué y en qué momento. Entonces,Los datos sintéticos siempre son mejores desde una perspectiva de privacidad".

Escalar datos sintéticos

Veeramachaneni cree que DataCebo está avanzando en el campo de lo que llama datos empresariales sintéticos, o datos generados a partir del comportamiento de los usuarios en las aplicaciones de software de las grandes empresas.

"Los datos empresariales de este tipo son complejos y no están disponibles universalmente, a diferencia de los datos lingüísticos", afirma Veeramachaneni."Cuando la gente usa nuestro software disponible públicamente e informa si funciona con un determinado patrón, aprendemos muchos de estos patrones únicos y eso nos permite mejorar nuestros algoritmos. Desde una perspectiva, estamos construyendo un corpus de estos patrones complejos,que para el lenguaje y las imágenes está disponible ".

DataCebo también lanzó recientemente funciones para mejorar la utilidad de SDV, incluidas herramientas para evaluar el "realismo" de los datos generados, llamadasBiblioteca SDMetricsasí como una forma de comparar el rendimiento de los modelos llamadaSDGimnasio.

"Se trata de garantizar que las organizaciones confíen en estos nuevos datos", afirma Veeramachaneni."[Nuestras herramientas ofrecen] datos sintéticos programables, lo que significa que permitimos a las empresas insertar su conocimiento e intuición específicos para construir modelos más transparentes".

A medida que las empresas de todos los sectores se apresuran a adoptar la IA y otras herramientas de ciencia de datos, DataCebo, en última instancia, las está ayudando a hacerlo de una manera más transparente y responsable.

"En los próximos años, los datos sintéticos de los modelos generativos transformarán todo el trabajo con datos", afirma Veeramachaneni."Creemos que el 90% de las operaciones empresariales se pueden realizar con datos sintéticos".

Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre investigación, innovación y enseñanza del MIT.

Citación:Uso de IA generativa para mejorar las pruebas de software (5 de marzo de 2024)recuperado el 5 de marzo de 2024de https://techxplore.com/news/2024-03-generative-ai-software.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.