Este artículo sobre IA de NTU y Apple presenta OGEN: un nuevo enfoque de IA para la generalización fuera del dominio en el modelo Visión-Lenguaje.

Los modelos de lenguaje visual previamente entrenados a gran escala, ejemplificados por CLIP (Radford et al., 2021), muestran una generalidad notable en diferentes dominios visuales y tareas del mundo real. Sin embargo, su rendimiento de distribución (ID) de 0 disparos enfrenta limitaciones para ciertos conjuntos de datos más bajos. Además, cuando estos modelos se evalúan de forma cerrada, se enfrentan a nuevas clases de muestras fuera de distribución (OOD), lo que plantea riesgos de seguridad en entornos abiertos. Los esfuerzos recientes han tenido como objetivo mejorar la detección de OOD sin impacto mediante el escalado softmax o mediante el uso de generadores de texto adicionales. Fort et al. (2021) se muestra prometedor al ajustar los modelos CLIP en conjuntos de datos de identificación y mejorar la precisión de la identificación y OOD. Sin embargo, comparaciones extensas muestran que es propenso a un sobreajuste (Véase la Figura 1(b).) cuando el ajuste sin la coordinación adecuada impide la generalización de clases desconocidas. Este artículo presenta un enfoque novedoso que combina síntesis de características de imágenes y algoritmos de ajuste fino desconocidos con una regularización de modelos efectiva para clases desconocidas.

Sin conocimiento de las clases desconocidas, el método propuesto aborda el desafío de manejar eficientemente el modelo. Presenta un generador de características condicionales de clase que combina características de imagen de clases desconocidas basadas en el espacio de características de imagen-texto bien coincidente de CLIP. Equipado con un "sesgo desconocido" para clases desconocidas, este módulo de atención liviano se generaliza bien a "desconocidos desconocidos" y permite modelar distribuciones de clases visuales complejas en dominios abiertos. Al utilizar datos de ID y OOD agregados para la optimización conjunta, este método tiene como objetivo generar límites de decisión mejor coordinados y mejorar la generalización de OOD mientras se mantiene el rendimiento de ID.
Los experimentos iniciales muestran que generar funciones OOD directamente a partir de nombres de clases es difícil debido a su no linealidad y alta dimensionalidad. Para abordar esto, los autores reformularon el problema de la fusión de características introduciendo un método de "sesgo de extrapolación" para extrapolar características de clases similares, como la extrapolación de clases de entrenamiento como gatos y osos, para generar características de la clase desconocida mapache. Método sugerido (Véase la Figura 2(c).) proponen una solución novedosa al desafío de la fusión de características mediante la combinación de atracción de atención de múltiples cabezas (MHCA) para capturar de manera eficiente la similitud entre cada clase desconocida y cada clase conocida.
Este artículo presenta un método para combinar dos características: "extrapolación por clase" y "extrapolación conjunta". Ambos métodos tienen como objetivo integrar características desconocidas, pero el último es más cooperativo y supera consistentemente al primero en los experimentos. Se presenta un mecanismo de autodestilación adaptativo para reducir el sobreajuste durante la optimización colaborativa. Este mecanismo utiliza modelos de docentes de períodos históricos de aprendizaje para guiar la optimización en la era actual y garantiza la coherencia entre las predicciones basadas en modelos de docentes y estudiantes.
El enfoque propuesto, denominado OGEN, se evalúa con diferentes métodos de ajuste para modelos tipo CLIP. Mejora constantemente el rendimiento general de OOD en dos situaciones desafiantes: generalización dentro de un conjunto de datos (de una clase base a una nueva clase) y generalización entre conjuntos de datos. Se ha demostrado que OGEN es eficaz en una variedad de líneas de base, lo que demuestra que puede abordar el sobreajuste y mejorar el rendimiento de ID y OOD.
En un entorno de conjunto de datos general, OGEN demuestra su capacidad para mejorar la precisión de la nueva clasificación sin comprometer la precisión de la clasificación original, con un equilibrio favorable entre el rendimiento de ID y OOD. El análisis comparativo con métodos de última generación muestra una mejora constante de OGEN.
Las pruebas de generalización de conjuntos de datos demuestran la generalización del enfoque OGEN. Mejora constantemente el rendimiento general en una variedad de conjuntos de datos de destino, con ganancias significativas en conjuntos de datos con cambios de distribución de ImageNet.
En resumen, este artículo presenta un enfoque innovador para superar los desafíos de la generalización de OOD para modelos de lenguaje visual. Al combinar la síntesis y la manipulación adaptativa de clases desconocidas de características, OGEN mejora el rendimiento en una variedad de conjuntos de datos y configuraciones. El trabajo futuro incluye ampliar la evaluación de OGEN a otros métodos de ajuste e investigar su eficacia para modelar la incertidumbre sobre datos invisibles.
Comprobar el Papel. Todo el crédito por este estudio va a los investigadores de este proyecto. Y no olvides seguirnos Gorjeo y noticias de Google. Unir nuestro SubReddit de 36k+ ML, Más de 41.000 comunidades de Facebook, canal de discordiay LinkedIn Grpor favor.
Si te gusta nuestro trabajo, te encantará nuestro trabajo. Boletin informativo..
No olvides unirte a nosotros canal de telegramas
Vineet Kumar es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en el Instituto Indio de Tecnología (IIT), Kanpur. Es un entusiasta del aprendizaje automático. Está interesado en la investigación y los avances recientes en aprendizaje profundo, visión por computadora y campos relacionados.
🎯 (SEMINARIO WEB GRATUITO DE IA) 'Uso de ANN para la búsqueda de vectores a velocidad y escala (demostración en AWS)' (5 de febrero de 2024)
Deja una respuesta
Artículos Relacionados