Una encuesta que abarca el aprendizaje federado, el cifrado homomórfico, el cómputo multipartito y más
¡Las criaturas del océano aman su privacidad! Aquí hay un pulpo escondido en la arena. ¿Puedes verlo? (Imagen: CC-BY-SA 4.0)
En Ocean Protocol, recientemente lanzamos Ocean Compute-to-Data. Ayuda a los profesionales de IA a acceder a datos valiosos y privados para obtener modelos de IA más precisos. Los propietarios de datos pueden conservar la privacidad y el control sobre sus datos.
Compute-to-Data funciona de la siguiente manera. Los propietarios de datos aprueban los algoritmos de IA para ejecutar sus datos, luego Compute to Data organiza el cómputo remoto y la ejecución de datos para entrenar modelos de AI. El cálculo es lo suficientemente "agregado" o "anónimo" que el riesgo de privacidad se minimiza.
Este artículo pregunta: ¿cómo se relaciona Ocean Compute-to-Data con otros enfoques de preservación de la privacidad?
Aquí está la respuesta rápida: es complementaria. Cada tecnología tiene su propio uso y sus propias limitaciones.
Ahora daremos una respuesta más detallada, de una manera que sea accesible para un público menos técnico. Examinamos algunas tecnologías notables para preservar la privacidad. Para cada uno, discutimos sus desafíos, cómo se abordan esos desafíos y cómo la técnica se relaciona con Ocean. Hacemos lo mismo para Ocean Compute-to-Data. Concluimos con una discusión más amplia de Ocean en el ecosistema de preservación de la privacidad.
Cifrado y descifrado
El cifrado transforma los datos en un formulario que se puede enviar de forma segura a través de un canal inseguro. Cuando se recibe, el receptor utiliza una clave para transformar los datos nuevamente en su forma original de texto sin formato.
El cifrado simétrico es cuando se usa la misma clave para cifrar y descifrar; esquemas como Diffie-Hellman se utilizan para enviar la clave de forma segura a través de un canal inseguro.
El cifrado asimétrico tiene un par de claves, una pública y otra privada. Las claves funcionan juntas de una manera genial: Alice cifra un mensaje con la clave pública de Bob y luego lo envía a través de un canal inseguro. Solo Bob puede descifrarlo, con su clave privada. La clave pública es un poco como una dirección de correo electrónico y la clave privada es un poco como una contraseña para leer los correos electrónicos enviados a esa dirección.
Ocean Protocol utiliza cifrado / descifrado como parte de su infraestructura de control de acceso.
Cifrado homomórfico (HE)
En HE, el cálculo se realiza sobre datos cifrados. Por lo tanto, las partes no confiables pueden realizar cómputos sin tener que aprender el contenido de los datos.
Desafío: HE aún es demasiado computacionalmente intensivo para ser utilizado en la mayoría de las aplicaciones.
Hacia la resolución: la velocidad continuará mejorando con el tiempo debido a mejores algoritmos, chips más rápidos y chips dedicados.
ÉL es una idea notable, casi como si fuera de ciencia ficción. Esperamos que se amplíe lo suficiente como para funcionar en más aplicaciones, ya que será útil tenerlo como parte de la pila de tecnología Ocean. Se combinará bien con otras características de Ocean, como la gestión de activos de datos y los mercados.
Enclaves seguros / entornos de ejecución de confianza (TEE)
En TEE, el cálculo se realiza en chips especiales que pueden ver los datos privados pero están severamente restringidos con la información que pueden compartir con su máquina host. Intel SGX es el ejemplo de hardware más destacado.
Reto: cualquier falla de seguridad encontrada en los chips hace que el chip sea inútil, y hay un historial de que esto suceda.
Hacia la resolución: los chips TEE se han ido endureciendo con el tiempo; hoy estamos aproximadamente en el umbral del uso de producción.
Los TEE funcionan bien con Ocean: Ocean puede administrar los activos de datos que luego realizan cálculos en los TEE; y los resultados regresan a Ocean.
Relacionado, Oasis Labs aprovecha para administrar cómputos seguros basados en enclaves. Hay oportunidad para la integración de Ocean y Oasis.
Los acuarios son un poco como entornos de ejecución confiables … para criaturas marinas peligrosas. (Imagen: CC0)
Computación multipartita (MPC)
En MPC, la tarea de cálculo se divide en pequeñas subtareas; una parte diferente realiza cada subtarea; y los resultados se fusionan.
Desafío: el ancho de banda puede ser un cuello de botella porque requiere mucha comunicación entre las partes.
Hacia la resolución: los investigadores están trabajando para reducir las necesidades de ancho de banda.
MPC juega bien con Ocean: Ocean para la gestión de activos de datos, MPC para el cálculo. Por ejemplo, aquí hay un prototipo de integración que realiza la clasificación de imágenes para un caso de uso de atención médica.
El proyecto de Enigma se enfoca en TEE y MPC. Por lo tanto, hay oportunidades futuras para la integración con Ocean y Enigma.
Pruebas de conocimiento cero (ZKP)
En los ZKP, Alice le pregunta a Bob si Bob sabe x, y Bob puede responder demostrablemente sin filtrar información.
Restricciones: los ZKP requieren sesiones interactivas, escalan mal y solo responden preguntas binarias.
Hacia la resolución: Primero, algunos casos de uso están perfectamente bien con las restricciones de los ZKP. Quizás el ejemplo más famoso en es ZCash, que ofrece una funcionalidad similar a Bitcoin (por ejemplo, evitar el doble gasto), pero sin filtrar información de identificación personal (PII). En segundo lugar, hay un progreso constante para aflojar las restricciones dadas anteriormente, especialmente la parte de escala.
Al requerir sesiones interactivas y salidas binarias, los ZKP son menos directamente aplicables a Ocean en el lado de AI. Sin embargo, estamos entusiasmados con el futuro de los ZKP en otros lugares para Ocean. Al igual que en Zcash, podrían ser útiles para reducir la fuga de PII sobre las transacciones de . Además, con ZK Rollups (o su primo optimista más liviano) hay una gran promesa para la escalabilidad de además de la privacidad.
Aquí hay una polilla marina que busca minimizar la filtración de información. (Imagen: Matt Kieffer CC-BY-SA 2.0)
Datos sintéticos
En la generación de datos sintéticos, una función de densidad de probabilidad (PDF) se calcula o "aprende" del conjunto de datos original, junto a los datos en sí. Luego, millones de puntos de datos pueden extraerse del PDF y compartirse. Esos puntos de datos están naturalmente "anonimizados", lo que reduce el riesgo de fuga de información de identificación personal (PII).
Desafío 1: no flexible. La construcción de PDF consiste esencialmente en modelar al estilo AI, donde el proveedor de la tecnología de generación de datos sintéticos elige el algoritmo.
Desafío 2: menos preciso. Ahora hay modelos en dos capas: el PDF y el modelo final de IA creado por el profesional de IA. Error de modelado de compuestos. Además, si el PDF está sobreajustado, se filtrará PII.
Hacia la resolución: el problema 1 se aborda dejando que el profesional de IA construya el PDF ellos mismos. El problema 2 se aborda si el profesional de IA simplemente construye un modelo individual junto a los datos. Y luego, tienes Ocean Compute-to-Data (!). Entonces, Synthetic Data es un enfoque pobre para el modelado de IA. Sin embargo, los Datos sintéticos siguen siendo útiles para la visualización para obtener intuición sobre los datos (sintéticos), como las visualizaciones de diagrama de dispersión 2D o 3D en datos sintéticos. Esto es lo que hace que los Datos sintéticos sean complementarios de Ocean.
Aprendizaje Federado (FL)
En FL, una red neuronal se inicializa aleatoriamente. Luego, las actualizaciones de peso se calculan junto a los datos en el silo de datos n. ° 1 y se envían a la red neuronal. Esto se repite en el silo de datos n. ° 2, n. ° 3, etc. Al final, se ha entrenado una red neuronal en muchos silos de datos, sin que los datos salgan de las instalaciones de cada silo respectivo.
TensorFlow Federated (TFF) y OpenMined son los proyectos FL más destacados. TFF realiza la orquestación de manera centralizada y OpenMined descentralizada.
Desafío: en TFF-estilo FL, una entidad centralizada (por ejemplo, Google) debe realizar la orquestación de trabajos de cómputo en silos. Entonces, la PII puede filtrarse a esta entidad. OpenMined aborda esto a través de la orquestación descentralizada.
Hacia la resolución: Estamos entusiasmados de que Compute-to-Data se use en casos de uso de FL. Como ejemplo específico, OpenMined puede usar Ocean Compute-to-Data para administrar la computación en cada silo de una manera más segura.
Privacidad diferencial (DP)
DP "es un sistema para compartir públicamente información sobre un conjunto de datos mediante la descripción de los patrones de grupos dentro del conjunto de datos mientras se retiene información sobre las personas en el conjunto de datos". La táctica principal es agregar ruido aleatorio a cada punto de datos de entrada para que cualquier actor que revise las estadísticas derivadas de todos los puntos de datos no pueda extraer la PII.
DP puede mejorar la privacidad de otras técnicas. Es crucial para los datos sintéticos: DP es la principal forma aceptada de generarlos de manera demostrablemente privada. Se ha demostrado que DP ayuda al aprendizaje federado, por ejemplo aquí. DP también tiene potencial para contextos de cómputo a datos.
Pez piedra (tratando de esconderse) en coral. (Imagen: Matt Kieffer CC-BY-SA 2.0)
Calcular a datos
La idea principal de Compute-to-Data es llevar el cálculo a los datos, donde los datos permanecen en las instalaciones. Los resultados del proceso devueltos están lo suficientemente agregados o anonimizados para minimizar el riesgo de privacidad.
Ocean Compute-to-Data se basa en un linaje de ideas y tecnologías relacionadas. Los investigadores de bases de datos han explorado la idea de calcular junto a los datos desde la década de 1970; La encarnación moderna es la computación cercana a la memoria y la computación cercana a los datos. Como se discutió, FL trae cómputo junto a los datos para entrenar modelos de IA en muchos silos de datos, aunque con una orquestación centralizada). FL comenzó a ganar tracción en 2015. El proyecto Fitchain también trajo la computación junto a los datos, incluida la colaboración con Ocean en 2018. Tiene un spin-off comercial. Finalmente, un artículo académico de Algorand propuso recientemente una tecnología que lleva el cómputo a los datos. Es un largo linaje de ideas y tecnología, todo en torno a un movimiento compartido de recuperar el control de nuestros datos. Estamos orgullosos de ser parte de ese movimiento.
En Ocean Compute-to-Data, los propietarios de datos aprueban las secuencias de comandos del algoritmo de IA para que se ejecuten en sus datos, luego Compute to Data organiza la computación y ejecución remota de datos para entrenar modelos de AI.
Desafío: existe el riesgo de que el script proporcione filtraciones de PII. Esto tiene dos variantes: (a) malicioso y (b) sobreajuste.
En (a), el script tiene un código especial que envía los datos al proveedor del script. El proveedor ofuscaría este código a través de una importación especial fácil de omitir como "import sk_learn" (frente a la versión correcta "import sklearn"). La biblioteca especial envuelve sklearn, pero inyecta copias.
En (b), el modelo aprende demasiados detalles, de modo que se puede extraer PII de él. Un ejemplo extremo es: en el entrenamiento del árbol CART, el aprendizaje de cada rama solo se detiene cuando el nodo hoja tiene un único punto de datos. O bien, la red neuronal podría sobreajustarse, ya que tiene una gran cantidad de parámetros en comparación con sus puntos de datos, y no realiza la regularización en el entrenamiento.
Para resolver: El proveedor de datos elige en qué algoritmos confiar. Por lo tanto, es la misma entidad que corre el riesgo de que los datos privados se expongan y elige en qué algoritmo confiar. Es su elección hacer, en función de su preferencia de riesgo-recompensa. Para (a): simplemente hacen una inspección. Para (b): algunos algoritmos son fáciles de confiar, como promediar o aprender un modelo de regresión logística con funciones de base lineal. Pero para un modelado más avanzado, es un poco más una carga. Para facilitar eso, imaginamos un aumento de los guiones comisariados por la comunidad con skin-in-the-game (juego) para ayudar a "endurecer" los guiones más útiles o prometedores con el tiempo.
Llevando la acción a un lugar seguro: aquí hay un pulpo escondido en una concha de almeja. (Imagen: arhnue CC0)
El océano y el ecosistema de preservación de la privacidad
Las propiedades de Ocean Compute-to-Data lo hacen útil por ahora. Está menos cargado por algunos de los problemas que han retrasado la adopción de algunas técnicas de preservación de la privacidad. Esto no es accidental: cuando comenzamos a explorar cómo preservar la privacidad en Ocean, revisamos los enfoques analizados anteriormente y nos dimos cuenta de que llevar el cómputo a los datos era la opción más pragmática a corto plazo.
Pero otros enfoques están madurando muy bien. Ocean Protocol no está limitado a solo calcular a los datos como una técnica de preservación de la privacidad. A medida que pasa el tiempo y otras técnicas maduran, imaginamos otras técnicas que se utilizan junto con Ocean.
De particular interés es FL, que está más cerca en espíritu de Ocean Compute-to-Data, ya que FL también lleva el cómputo a los datos. De hecho, FL es complementario de Ocean: FL realiza una gestión de nivel superior en muchos silos de datos, y Ocean gestiona de forma segura la computación en un silo determinado. Estamos especialmente entusiasmados con las integraciones con la tecnología OpenMined FL.
OpenMined es interesante para Ocean en general. Ha evolucionado de ser una tecnología FL pura para convertirse en una caja de herramientas más amplia de software abierto de "tejido conectivo" para tecnologías de IA que preservan la privacidad, junto con una comunidad grande y en crecimiento. Esperamos nuevas interacciones con la comunidad OpenMined.
Este artículo preguntaba: ¿cómo se relaciona Ocean Compute-to-Data con otros enfoques de preservación de la privacidad?
Vemos que el océano es complementario. Cada tecnología tiene su propio uso, sus propias restricciones y su propia relación complementaria con Ocean. Cifrado / descifrado, HE, TEE, MPC y ZKP se sientan lado a lado con Ocean. DP puede mejorar aún más Compute-to-Data. Compute-to-Data mejora directamente los datos sintéticos y los flujos FL.
Agradecimientos
Un agradecimiento especial a Andrew Trask, David Holtzman y Bruce Pon por proporcionar comentarios sobre este artículo.
Otras lecturas
OpenMined tiene una excelente serie sobre ciencia de datos que preserva la privacidad, comenzando con este artículo.