Durante el año pasado y durante el primer trimestre de 2021, los desarrolladores e investigadores de ARPA han realizado enormes esfuerzos para actualizar nuestros módulos de computación segura para lograr un mejor rendimiento y usabilidad.
De acuerdo con nuestro desarrollo comercial anterior con otras compañías financieras y entidades de procesamiento de datos, las aplicaciones más utilizadas por las compañías que preservan la privacidad son la intersección de conjuntos privados a gran escala (PSI) y la regresión lineal (LR). Teniendo esto en cuenta, priorizamos la optimización de estas aplicaciones específicas. Después de un estudio exhaustivo de los marcos e implementaciones existentes, desarrollamos una serie de experimentos con estas herramientas en la configuración actual de nuestro proyecto en el mundo real. Al integrar módulos adicionales en nuestro sistema de cálculo, el rendimiento del análisis de datos a gran escala en la plataforma de cálculo ARPA se mejoró en aproximadamente un 30%.
Intersección de conjuntos privados (PSI) y regresión lineal (LR)
PSI es una técnica criptográfica que permite a dos partes calcular la intersección de sus conjuntos sin revelar nada más. LR es un enfoque simple pero eficiente que muestra la relación entre varios factores, como la obesidad adolescente y la actividad física. Las entidades médicas, financieras y otras entidades sensibles al riesgo dependen bastante de tales herramientas de análisis.
Sin embargo, la recopilación masiva de datos requerida genera preocupaciones sobre la privacidad, el secreto comercial y la regulación. Estos son los escenarios de aplicación ideales de computación multipartita (MPC). La plataforma de cálculo seguro ARPA está diseñada para procesar estos análisis, y ahora estamos mejorando el rendimiento del procesamiento en los campos de la base de datos de asimetría y la paralelización.
El rendimiento de la computación se ha probado en varios conjuntos de datos públicos, como los precios de bienes raíces de Boston, la regresión lineal del cáncer y los datos de factores de riesgo de comportamiento de los CDC. Ampliamos el conjunto de datos con datos sintéticos a millones de entradas. El experimento se llevó a cabo en tres potentes instancias de AWS ubicadas en diferentes regiones. Para probar el rendimiento de la PSI de la base de datos asimétrica, limitamos el poder de cálculo del investigador a un solo hilo y asignamos varios hilos a la parte consultada. El conjunto de datos consultados tiene más de diez millones de entradas, mientras que el conjunto de datos de consulta es comparativamente más pequeño. El resultado muestra que si la base de datos más pequeña es mil veces más pequeña que la más grande, obtendremos un rendimiento similar al cálculo de texto plano. En cuanto a LR, gracias a la aritmética de coma fija y la vectorización de instrucciones que empleamos, el rendimiento aumentó alrededor del 35% debido a la drástica reducción de la sobrecarga de comunicación.
¿Que sigue?
A continuación, realizaremos experimentos de alineación de secuencias de genes en el conjunto de datos públicos de Complete Genomics. Los conjuntos de datos de las pruebas de rendimiento anteriores son principalmente sintéticos y nos gustaría realizar un análisis de datos de un millón de entradas en el mundo real, como la alineación genética por pares. Este tipo de aplicación puede ayudar con la evaluación del riesgo de enfermedad sin comprometer la privacidad de los pacientes.
No hay duda de que hemos tenido un buen comienzo en 2021. Pronto publicaremos más artículos y actualizaciones sobre nuestro progreso, estad atentos.