Análisis de video objetivo en tiempo real – Tecnología ComBox

Las tecnologías de inteligencia artificial penetran cada vez más en todas las esferas de la sociedad, lo que hace posible utilizar sistemas Edge AI en tiempo real para resolver las tareas de análisis de video de objetos directamente en dispositivos de adquisición de datos.

Análisis de video de objetos en tiempo real

Para realizar la inferencia de redes neuronales en las tareas de análisis de video de objetos directamente en el punto de recolección de datos, se utilizan sistemas basados ​​en el concepto Edge AI.

El mercado de soluciones basadas en redes neuronales artificiales se encuentra actualmente en una etapa de crecimiento activo: los sistemas correspondientes ya están operando en varias industrias, y para 2025, según los analistas, los ingresos de las soluciones de inteligencia artificial alcanzarán los $ 107.3 mil millones en todo el mundo. Están pasando de proyectos piloto a proyectos industriales, introduciendo nuevas tecnologías para manejar la gran cantidad de datos recopilados.

Una de las formas de automatizar el proceso de recopilación de datos de varios dispositivos periféricos es el análisis de video de objetos, utilizando redes neuronales y visión artificial para recibir y procesar datos significativos en tiempo real de transmisiones de video. La analítica de video de objetos está reemplazando la videovigilancia tradicional, que en su mayor parte solo creó la apariencia de efectividad operativa: después de 30 minutos de visualización, el operador generalmente pierde la capacidad de notar los parámetros y detalles necesarios en la imagen. En la mayoría de los casos, el análisis de video tradicional solo permite el procesamiento posterior y no es necesario hablar sobre la respuesta en tiempo real.

El análisis de video objetivo se basa en algoritmos para preparar datos de entrada, trabajando con redes neuronales y visión artificial. Junto con la mejora del software, aparecen nuevos complejos de hardware que pueden reducir el costo de la inferencia de la red neuronal al procesar los datos de video directamente en el punto de recolección. Ahora puede ejecutar redes neuronales capacitadas en el dispositivo final de hardware y software para resolver problemas de reconocimiento de placas y modelos de automóviles, identificación de rostros y voces, análisis de textos, etc. Para inferencia, se utilizan arreglos lógicos programables especializados (FPGA), procesadores gráficos (GPU) y procesadores generales. destino (CPU). Una solución de CPU típica es un servidor con una placa base para una o dos ranuras para procesadores, como Intel Xeon, que realizan inferencia en núcleos lógicos, cuyo número suele ser igual al número de físicos o el doble con tecnología Hyper-threading. La desventaja de tales soluciones es el alto costo, ya que los procesadores multinúcleo son bastante caros. Puede aumentar la productividad paralelizando varios procesadores, pero si puede colocar y sincronizar dos procesadores en la misma placa base, será bastante costoso hacer esto para tres o más procesadores, y el volumen de los archivos adjuntos relacionados irá mucho más allá del factor de forma 4U. Esto, a su vez, contradice el requisito de un servidor compacto para inferencia, que puede ubicarse no solo en centros de datos especializados, sino también en pequeños centros locales.

ComBox Technology ha propuesto una solución asequible para la inferencia simultánea en la CPU y la GPU. La interfaz de la GPU es mucho más eficiente que la CPU, y el uso combinado de la CPU y la GPU mediante la transferencia de funciones de control y tareas de conversión de datos a la primera puede aumentar la productividad de tres a cinco veces. El costo de la inferencia por unidad de flujo se reduce muchas veces debido al uso de computadoras con una placa base (computadora de placa única, SBC) con una GPU. En el centro de datos, ubicado cerca de los dispositivos de adquisición de datos, ahora puede "volar" para procesar hasta 80 transmisiones de calidad de video FullHD a una velocidad de 15 FSP (cuadros por segundo), lo cual es mínimamente necesario para garantizar un movimiento suave. Los datos de imagen se transmiten a través de RTSP (Protocolo de transmisión en tiempo real). La tasa máxima de inferencia, suficiente para procesar 15 cuadros por segundo y transmisiones de video de 10 cámaras, al costo óptimo, ya se puede obtener en una computadora Intel NUC8i5BEK estándar de bajo costo con un procesador Core i5 8259U.

Esta solución no se puede llamar nueva: los grandes fabricantes y muchas empresas nuevas ya se han ofrecido para proporcionar inferencia sobre SBC, pero el problema es que SBC estándar no se puede colocar en bastidores con un factor de forma de 1U, así como en gabinetes de servidores: las computadoras comienzan a sobrecalentarse, y hay mecanismo de estrangulamiento (bajando la frecuencia del núcleo cuando el dispositivo alcanza la temperatura máxima de funcionamiento para el procesador), lo que ralentiza significativamente la inferencia.

¿Cómo instalar el conjunto SBC con la densidad más alta en el chasis del servidor del factor de forma 1U para obtener una solución industrial para el centro de datos, asegurando la tasa de inferencia máxima? El servidor 1U NxSBC para servidor de inferencia con un sistema de enfriamiento refinado y un sistema de administración centralizado avanzado le permite instalar ocho SBC en un gabinete de factor de forma 1U, lo que en total significa 64 núcleos lógicos y 8 GPU. Sin embargo, la inferencia en los centros de datos solo funciona bien si hay cables: la señal de la fuente de datos (cámaras y videocámaras) se transmite a través de un canal confiable sin fallas. Con la creciente expansión de la tecnología inalámbrica 4G, sin mencionar la creciente popularidad de 5G, esta solución es increíblemente costosa: el costo de transmitir una transmisión de video por 100 o 1000 km "consume" todos los ahorros obtenidos al optimizar las computadoras en el centro de datos. En la infraestructura de transporte, por ejemplo, las fuentes de datos se eliminan significativamente del centro de datos, lo que, cuando está conectado, hace que la analítica de video de objetos no sea rentable.

Una solución es utilizar la tecnología Edge AI para procesar el flujo de video y realizar inferencia en las inmediaciones de la fuente de datos, por ejemplo, directamente en la cámara. En primer lugar, esto ahorra tráfico: no es necesario transmitir una transmisión de video FullHD. En segundo lugar, la falta de un sistema de procesamiento centralizado le permite mantener el sistema en caso de falla de un punto, excepto cuando la falla del servidor del centro de procesamiento local paraliza el trabajo de todo el grupo de sistemas de monitoreo.

Con el desarrollo de las cámaras de video IP, la analítica de video de objetos se hizo posible directamente en el dispositivo, sin embargo, cuando se analiza, generalmente es necesario almacenar todo el flujo de video o procesarlo inmediatamente al momento de detectar el evento de acuerdo con los parámetros especificados. Si el equipo de la cámara de video aún puede hacer frente a la detección, entonces las funciones de análisis de video y almacenamiento de datos para eventos deben transferirse a otros dispositivos. Además, para las conexiones a Internet, las interrupciones por un período indefinido no son infrecuentes, y las condiciones climáticas de funcionamiento de los dispositivos periféricos imponen requisitos muy estrictos a los dispositivos Edge.

La solución fue una serie de dispositivos OutDoor Box (ver la figura), que es una computadora industrial de placa única capaz de inferencia en tiempo real de redes neuronales literalmente "en el borde" (justo al lado de la fuente de datos).

Sistema de análisis de video de objetos de caja exterior

La serie OutDoor Box incluye cuatro dispositivos que difieren en funcionalidad y rendimiento.

OutDoor Box Nano es un microordenador industrial basado en el NanoPi M4, capaz de procesar una transmisión de video (15 cuadros por segundo) desde una cámara. En otras palabras, dicho dispositivo puede controlar el movimiento de vehículos que se mueven a velocidades de hasta 60 km / h en un solo carril.

OutDoor Box Micro es una PC industrial basada en Up Core UP-CHT01 (CPU Intel Atom x5), que permite el procesamiento en tiempo real de dos flujos de transporte a velocidades de hasta 250 km / h. Se utiliza para detectar infracciones de tráfico, así como para resolver el problema del análisis de video de objetos de dos a cuatro cámaras ubicadas en un objeto. Naturalmente, el dispositivo está alojado en una carcasa antivandálica con un grado de protección contra el polvo y la humedad IP66 y es capaz de operar en el rango de –40 ° C a +50 ° C. El sistema funciona con el protocolo RTSP y, en caso de una conexión inalámbrica desconectada, continúa funcionando, almacenando eventos en la memoria y permitiendo que se soliciten después de restaurar la comunicación a través de la API REST.

OutDoor Box es una PC industrial basada en Intel Atom X7, que permite procesar hasta seis transmisiones de video. El dispositivo también está alojado en una carcasa antivandálica y tiene un grado de protección contra el polvo y la humedad IP66.

OutDoor Box NUC es una computadora basada en Intel NUC SBC. Es capaz de procesar hasta 10 transmisiones de video y se utiliza, por ejemplo, para calcular el flujo de pasajeros con el fin de optimizar las rutas y la capacidad de las instalaciones de transporte público. OutDoor Box NUC tiene un módulo climático que mantiene la temperatura óptima de funcionamiento del sistema.

Estos dispositivos se pueden usar para realizar la inferencia de redes neuronales de cualquier topología, incluidas aquellas diseñadas para el reconocimiento facial. Los dispositivos tienen interfaces de integración con sistemas de control y gestión de acceso, por lo tanto, es posible automatizar, por ejemplo, la operación de barreras al reconocer un número de automóvil o teléfonos con altavoz en la puerta que reconocen las caras de los residentes de una entrada.

La interferencia también se puede llevar a cabo en la nube, lo que no requiere costos de equipo. Sin embargo, una cámara de video IP moderna es capaz de cortar video en cuadros y enviarlos directamente a la nube para su procesamiento y análisis, mientras que las soluciones en la nube están lejos de ser perfectas, especialmente al garantizar la seguridad de los datos, y cualquier falla en el canal puede interrumpir todo el proceso de análisis de video de objetos.

Al usar dispositivos tan simples y asequibles como NUC Server y OutDoor Box, es posible proporcionar inferencia de red neuronal para las tareas de análisis de video de objetos directamente en el punto de recolección de datos, implementando el concepto Edge AI, que elimina muchos problemas causados ​​por interrupciones en los canales de comunicación con dispositivos terminales y la degradación de su ancho de banda.

El artículo fue preparado sobre la base de los materiales presentados para el informe en el foro "Video comercial 2020".