El nuevo diseño de la cámara puede identificar amenazas más rápido usando menos memoria

Federico Parejajunio 8, 2024

0 19 3 minutos de lectura

El nuevo diseño de la cámara puede identificar amenazas más rápido usando menos memoria

Imagine el parabrisas de un automóvil, con otros vehículos resaltados por soportes generados por computadora.

Elon Musk, en octubre de 2021, tuiteó que “los humanos conducen con ojos y redes neuronales biológicas, por lo que las cámaras y las redes neuronales de silicio son la única forma de lograr una solución generalizada para la conducción autónoma”. El problema con su lógica es que los ojos humanos son mucho mejores que las cámaras RGB para detectar objetos que se mueven rápidamente y estimar distancias. Nuestro cerebro también ha superado con creces a todas las redes neuronales artificiales en el procesamiento general de la información visual.

Para llenar este vacío, un equipo de científicos de la Universidad de Zurich ha desarrollado un nuevo sistema de detección de objetos en automóviles que acerca el rendimiento de las cámaras digitales al del ojo humano. “Fuentes no oficiales dicen que Tesla utiliza múltiples cámaras Sony IMX490 con una resolución de 5,4 megapíxeles que [capture] hasta 45 fotogramas por segundo, lo que se traduce en una latencia perceptiva de 22 milisegundos. Comparando [these] Sólo con las cámaras ya hemos observado una reducción de 100 veces la latencia perceptiva”, afirma Daniel Gehrig, investigador de la Universidad de Zúrich y autor principal del estudio.

Replicando la visión humana

Cuando un peatón salta repentinamente frente a su automóvil, deben suceder varias cosas antes de que un sistema de asistencia al conductor inicie el frenado de emergencia. En primer lugar, el peatón debe ser captado en imágenes captadas por una cámara. El tiempo que esto lleva se llama latencia perceptiva: es un retraso entre la existencia de un estímulo visual y su aparición en la lectura de un sensor. Luego, la lectura debe llegar a una unidad de procesamiento, lo que agrega una latencia de red de aproximadamente 4 milisegundos.

El procesamiento para clasificar la imagen de un peatón requiere milisegundos más valiosos. Una vez hecho esto, la detección pasa a un algoritmo de toma de decisiones, que tarda un tiempo en decidir pisar el freno; todo este procesamiento se conoce como latencia computacional. En total, el tiempo de reacción oscila entre 0,1 y medio segundo. Si el peatón corriera a 12 km/h, recorrería entre 0,3 y 1,7 metros en este tiempo. Tu coche, si circulases a 50 km/h, recorrería entre 1,4 y 6,9 metros. En un encuentro a corta distancia, esto significa que probablemente los golpearías.

Gehrig y Davide Scaramuzza, profesor de la Universidad de Zurich y coautor del estudio, pretendían acortar estos tiempos de reacción, reduciendo las latencias perceptivas y computacionales.

La forma más directa de reducir el primero era utilizar cámaras estándar de alta velocidad que simplemente graban más fotogramas por segundo. Pero incluso con una cámara de 30 a 45 fps, un coche autónomo generaría casi 40 terabytes de datos por hora. Instalar algo que reduzca significativamente la latencia de percepción, como una cámara de 5.000 fps, abrumaría la computadora a bordo de un automóvil en un instante: la latencia computacional se dispararía.

Por eso, el equipo suizo utilizó algo llamado “cámara de eventos”, que imita la forma en que funcionan los ojos biológicos. «En comparación con una cámara de vídeo basada en cuadros, que graba imágenes densas a una frecuencia fija (cuadros por segundo), las cámaras de eventos contienen píxeles inteligentes independientes que solo miden los cambios de brillo», explica Gehrig. Cada uno de estos píxeles comienza con un nivel de brillo definido. Cuando el cambio de brillo excede un cierto umbral, el píxel registra un evento y establece un nuevo nivel de brillo base. Todos los píxeles de la cámara de eventos hacen esto continuamente, y cada evento grabado se manifiesta como un apuntar a una imagen.

Esto hace que las cámaras de eventos sean particularmente buenas para detectar movimientos a alta velocidad y les permite hacerlo utilizando muchos menos datos. El problema de ponerlos en coches es que tenían dificultades para detectar cosas que se movían lentamente o que no se movían en relación con la cámara. Para solucionarlo, Gehrig y Scaramuzza optaron por un sistema híbrido, donde se combinaba una cámara de eventos con una tradicional.