Una nueva investigación de IA presenta EXPHORMER: un marco para escalar transformadores de gráficos mientras se reducen los costos
Los transformadores de gráficos son un tipo de algoritmo de aprendizaje automático que opera en datos estructurados de gráficos. Los gráficos son estructuras matemáticas compuestas de nodos y aristas, donde los nodos representan entidades y las aristas representan relaciones entre estas entidades.
Los transformadores de gráficos se utilizan en una serie de aplicaciones, incluido el procesamiento del lenguaje natural, el análisis de redes sociales y la visión por computadora. Por lo general, se utilizan para tareas de clasificación de nodos, predicción de enlaces y agrupación de gráficos.
Un tipo popular de transformador gráfico es Graph Convolutional Network (GCN), que aplica filtros convolucionales a un gráfico para extraer características de nodo y borde. Otros tipos de transformadores de gráficos incluyen redes de atención de gráficos (GAT), redes de isomorfismo de gráficos (GIN) y redes neuronales de gráficos (GNN).
Los transformadores de gráficos se han mostrado muy prometedores en el aprendizaje automático, particularmente para tareas de datos estructurados de gráficos.
Los transformadores de gráficos se han mostrado prometedores en varias tareas de aprendizaje y gráficos. Sin embargo, escalarlos a gráficos más grandes mientras se mantiene una precisión competitiva con las redes de paso de mensajes sigue siendo un desafío. Para resolver este problema, un grupo de investigadores de la Universidad de Columbia Británica, Google Research y el Alberta Machine Intelligence Institute introdujeron un nuevo marco llamado EXPHORMER. Esta estructura utiliza un mecanismo de atención dispersa basado en nodos globales virtuales y gráficos en expansión, que tienen características matemáticas deseables, como expansión espectral, escasez y pseudoaleatoriedad. Como resultado, EXPHORMER permite la construcción de transformadores gráficos potentes y escalables con complejidad lineal al tamaño del gráfico, al tiempo que proporciona propiedades teóricas de los modelos resultantes. La incorporación de EXPHORMER en GraphGPS produce modelos con resultados empíricos competitivos en múltiples conjuntos de datos gráficos, incluidos tres conjuntos de datos de última generación. Además, EXPHORMER puede manejar gráficos más grandes que las arquitecturas de transformadores de gráficos anteriores.
Exphormer es un método que aplica un mecanismo de atención dispersa basado en expansores a Graph Transformers (GT). Construye un gráfico de interacción utilizando tres componentes principales: atención del gráfico de expansión, atención global y atención del vecindario local. La atención del gráfico Expander permite la propagación de información entre nodos sin conectar todos los pares de nodos. La atención global agrega nodos virtuales para crear un «sumidero de almacenamiento» global y proporciona funciones de aproximación universal para transformadores completos. La atención del vecindario local modela las interacciones locales para obtener información sobre la conectividad.
Su estudio empírico evaluó el método Exphormer en tareas de predicción de gráficos y nodos. El equipo descubrió que Exphormer combinado con redes neuronales de paso de mensajes (MPNN) en el marco GraphGPS logró resultados de vanguardia en múltiples conjuntos de datos de referencia. A pesar de tener menos parámetros, superó todos los mecanismos de atención dispersa y siguió siendo competitivo con los transformadores densos.
Las principales contribuciones del equipo incluyen la propuesta de mecanismos de atención dispersa con costos computacionales lineales en el número de nodos y aristas, la introducción de Exphormer, que combina dos técnicas para crear gráficos superpuestos dispersos, y la introducción de gráficos de expansión como un elemento primitivo poderoso en el diseño arquitectónico de transformadores de gráficos escalables. . Pudieron demostrar que Exphormer, que combina gráficos en expansión con nodos globales y vecindarios locales, se aproxima espectralmente al mecanismo de atención total con solo una pequeña cantidad de capas y tiene propiedades de aproximación universal. El Exphormer propuesto se basa y hereda las propiedades deseables del marco modular GraphGPS, un marco introducido recientemente para construir transformadores gráficos generales, consecuentes y escalables con complejidad lineal. GraphGPS combina el paso de mensajes local tradicional y un mecanismo de atención global, lo que permite mecanismos de atención escasa para mejorar el rendimiento y reducir los costos informáticos.
Compruebe el Papel Es GithubGenericName. Todo el crédito por esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestro SubReddit de 16k+ ML, canal de discordiaEs noticias por correo electrónicodonde compartimos las últimas noticias de investigación de IA, emocionantes proyectos de IA y más.
Niharika es pasante de consultoría técnica en Marktechpost. Ella está en su tercer año de graduación, actualmente estudia B.Tech en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una persona muy entusiasta con un gran interés en el aprendizaje automático, la ciencia de datos y la IA y una ávida lectora de los últimos desarrollos en estos campos.