Este art铆culo sobre IA de NTU y Apple presenta OGEN: un nuevo enfoque de IA para la generalizaci贸n fuera del dominio en el modelo Visi贸n-Lenguaje.

Los modelos de lenguaje visual previamente entrenados a gran escala, ejemplificados por CLIP (Radford et al., 2021), muestran una generalidad notable en diferentes dominios visuales y tareas del mundo real. Sin embargo, su rendimiento de distribuci贸n (ID) de 0 disparos enfrenta limitaciones para ciertos conjuntos de datos m谩s bajos. Adem谩s, cuando estos modelos se eval煤an de forma cerrada, se enfrentan a nuevas clases de muestras fuera de distribuci贸n (OOD), lo que plantea riesgos de seguridad en entornos abiertos. Los esfuerzos recientes han tenido como objetivo mejorar la detecci贸n de OOD sin impacto mediante el escalado softmax o mediante el uso de generadores de texto adicionales. Fort et al. (2021) se muestra prometedor al ajustar los modelos CLIP en conjuntos de datos de identificaci贸n y mejorar la precisi贸n de la identificaci贸n y OOD. Sin embargo, comparaciones extensas muestran que es propenso a un sobreajuste (V茅ase la Figura 1(b).) cuando el ajuste sin la coordinaci贸n adecuada impide la generalizaci贸n de clases desconocidas. Este art铆culo presenta un enfoque novedoso que combina s铆ntesis de caracter铆sticas de im谩genes y algoritmos de ajuste fino desconocidos con una regularizaci贸n de modelos efectiva para clases desconocidas.

Sin conocimiento de las clases desconocidas, el m茅todo propuesto aborda el desaf铆o de manejar eficientemente el modelo. Presenta un generador de caracter铆sticas condicionales de clase que combina caracter铆sticas de imagen de clases desconocidas basadas en el espacio de caracter铆sticas de imagen-texto bien coincidente de CLIP. Equipado con un "sesgo desconocido" para clases desconocidas, este m贸dulo de atenci贸n liviano se generaliza bien a "desconocidos desconocidos" y permite modelar distribuciones de clases visuales complejas en dominios abiertos. Al utilizar datos de ID y OOD agregados para la optimizaci贸n conjunta, este m茅todo tiene como objetivo generar l铆mites de decisi贸n mejor coordinados y mejorar la generalizaci贸n de OOD mientras se mantiene el rendimiento de ID.

Los experimentos iniciales muestran que generar funciones OOD directamente a partir de nombres de clases es dif铆cil debido a su no linealidad y alta dimensionalidad. Para abordar esto, los autores reformularon el problema de la fusi贸n de caracter铆sticas introduciendo un m茅todo de "sesgo de extrapolaci贸n" para extrapolar caracter铆sticas de clases similares, como la extrapolaci贸n de clases de entrenamiento como gatos y osos, para generar caracter铆sticas de la clase desconocida mapache. M茅todo sugerido (V茅ase la Figura 2(c).) proponen una soluci贸n novedosa al desaf铆o de la fusi贸n de caracter铆sticas mediante la combinaci贸n de atracci贸n de atenci贸n de m煤ltiples cabezas (MHCA) para capturar de manera eficiente la similitud entre cada clase desconocida y cada clase conocida.

Este art铆culo presenta un m茅todo para combinar dos caracter铆sticas: "extrapolaci贸n por clase" y "extrapolaci贸n conjunta". Ambos m茅todos tienen como objetivo integrar caracter铆sticas desconocidas, pero el 煤ltimo es m谩s cooperativo y supera consistentemente al primero en los experimentos. Se presenta un mecanismo de autodestilaci贸n adaptativo para reducir el sobreajuste durante la optimizaci贸n colaborativa. Este mecanismo utiliza modelos de docentes de per铆odos hist贸ricos de aprendizaje para guiar la optimizaci贸n en la era actual y garantiza la coherencia entre las predicciones basadas en modelos de docentes y estudiantes.

El enfoque propuesto, denominado OGEN, se eval煤a con diferentes m茅todos de ajuste para modelos tipo CLIP. Mejora constantemente el rendimiento general de OOD en dos situaciones desafiantes: generalizaci贸n dentro de un conjunto de datos (de una clase base a una nueva clase) y generalizaci贸n entre conjuntos de datos. Se ha demostrado que OGEN es eficaz en una variedad de l铆neas de base, lo que demuestra que puede abordar el sobreajuste y mejorar el rendimiento de ID y OOD.

En un entorno de conjunto de datos general, OGEN demuestra su capacidad para mejorar la precisi贸n de la nueva clasificaci贸n sin comprometer la precisi贸n de la clasificaci贸n original, con un equilibrio favorable entre el rendimiento de ID y OOD. El an谩lisis comparativo con m茅todos de 煤ltima generaci贸n muestra una mejora constante de OGEN.

Las pruebas de generalizaci贸n de conjuntos de datos demuestran la generalizaci贸n del enfoque OGEN. Mejora constantemente el rendimiento general en una variedad de conjuntos de datos de destino, con ganancias significativas en conjuntos de datos con cambios de distribuci贸n de ImageNet.

En resumen, este art铆culo presenta un enfoque innovador para superar los desaf铆os de la generalizaci贸n de OOD para modelos de lenguaje visual. Al combinar la s铆ntesis y la manipulaci贸n adaptativa de clases desconocidas de caracter铆sticas, OGEN mejora el rendimiento en una variedad de conjuntos de datos y configuraciones. El trabajo futuro incluye ampliar la evaluaci贸n de OGEN a otros m茅todos de ajuste e investigar su eficacia para modelar la incertidumbre sobre datos invisibles.


Comprobar el Papel. Todo el cr茅dito por este estudio va a los investigadores de este proyecto. Y no olvides seguirnos Gorjeo y noticias de Google. Unir nuestro SubReddit de 36k+ ML, M谩s de 41.000 comunidades de Facebook, canal de discordiay LinkedIn Grpor favor.

Si te gusta nuestro trabajo, te encantar谩 nuestro trabajo. Boletin informativo..

No olvides unirte a nosotros canal de telegramas


Vineet Kumar es pasante de consultor铆a en MarktechPost. Actualmente est谩 cursando su licenciatura en el Instituto Indio de Tecnolog铆a (IIT), Kanpur. Es un entusiasta del aprendizaje autom谩tico. Est谩 interesado en la investigaci贸n y los avances recientes en aprendizaje profundo, visi贸n por computadora y campos relacionados.


馃幆 (SEMINARIO WEB GRATUITO DE IA) 'Uso de ANN para la b煤squeda de vectores a velocidad y escala (demostraci贸n en AWS)' (5 de febrero de 2024)

Art铆culos Relacionados

Deja una respuesta

Tu direcci贸n de correo electr贸nico no ser谩 publicada. Los campos obligatorios est谩n marcados con *

Subir

Usamos cookies para mejorar tu experiencia en nuestra web. Pol铆tica de Cookies