Guía técnica para el cómputo de datos en el océano

Una descripción general de nuestra versión v2, Ocean Compute-to-Data

Con la versión v2 Compute-to-Data, Ocean Protocol proporciona un medio para intercambiar datos mientras se preserva la privacidad. Esta guía explica Compute-to-Data sin requerir un profundo conocimiento técnico.

Motivación

Los datos privados son datos que las personas u organizaciones se guardan para sí mismos. Puede significar cualquier información personal, de identificación personal, médica, de estilo de vida, financiera, sensible o regulada.

Beneficios de los datos privados. Los datos privados pueden ayudar a la investigación, conduciendo a innovaciones que alteran la vida en ciencia y tecnología. Por ejemplo, más datos mejoran la precisión predictiva de los modelos modernos de Inteligencia Artificial (IA). Los datos privados a menudo se consideran los datos más valiosos porque son muy difíciles de obtener y su uso puede generar grandes beneficios.

Riesgos de datos privados. Compartir o vender datos privados conlleva riesgos. ¿Qué sucede si no lo contratan debido a su historial médico privado? ¿Qué pasa si eres perseguido por opciones de estilo de vida privadas? Las grandes organizaciones que tienen conjuntos de datos masivos saben que sus datos son valiosos, y potencialmente monetizables, pero no aprovechan la oportunidad del riesgo de fuga de datos y la responsabilidad relacionada.

Resolviendo la compensación. Parece haber una compensación entre los beneficios del uso de datos privados y los riesgos de exponerlos. ¿Qué pasaría si hubiera una manera de obtener los beneficios, mientras se minimizan los riesgos? Esta es la idea detrás de Compute-to-Data: deje que los datos permanezcan en las instalaciones, pero permita que terceros ejecuten trabajos de computación específicos para obtener resultados analíticos útiles, como promediar o construir un modelo de IA. Los resultados analíticos ayudan en contextos de ciencia, tecnología o negocios; sin embargo, el cómputo está suficientemente "agregando" o "anonimizando" para minimizar el riesgo de privacidad.

Compartir o vender Compute-to-Data está destinado a ser útil para compartir datos en contextos científicos o tecnológicos. También está destinado a ser útil para vender datos privados, al tiempo que preserva la privacidad. Esto puede parecer una paradoja a primera vista, ¡pero no lo es! Los datos privados no se venden directamente; más bien, se vende acceso específico a él, acceso "para computar ojos solamente" en lugar de ojos humanos. Por lo tanto, Compute-to-Data en los mercados de datos es una oportunidad para que las empresas moneticen sus activos de datos.

Ocean Compute-to-Data funciona en Pacific (mainnet de Ocean) y Nile (Ocean testnet). Esto es lo que presenta Compute-to-Data.

Nuevos actores

Ocean Protocol tiene estos actores:

Proveedores de datos, que quieren vender sus datosConsumidores de datos, que quieren comprar datosMarketplaces, dApps que facilitan el intercambio de datos

Compute-to-Data agrega un nuevo actor, el Proveedor de cómputo.

Compute Provider vende cómputo en datos, en lugar de datos en sí. Pueden ser el mismo actor que el proveedor de datos; o pueden estar separados del proveedor de datos y el proveedor de datos puede confiar en ellos para calcular los datos. A continuación, nos referimos al Proveedor de datos como el Proveedor de cómputo.

Nuevos componentes

La tecnología oceánica tiene varios componentes. Operator Service y Operator Engine son nuevos para v2 Compute-to-Data.

Servicio de operador – un microservicio encargado de gestionar el flujo de trabajo y ejecutar solicitudes. Se comunica directamente y recibe pedidos de Brizo (el servidor proxy del proveedor de datos) y realiza el cálculo de los datos, proporcionados por Brizo.Motor de operador – un servicio de back-end a cargo de orquestar la infraestructura de cómputo utilizando Kubernetes como back-end. Normalmente, el motor del operador recupera los flujos de trabajo creados por el servicio del operador en Kubernetes. También gestiona la infraestructura necesaria para completar la ejecución de los flujos de trabajo informáticos.

Nuevo tipo de activo

Antes de, conjuntos de datos fueron el único tipo de activo en metadatos (DDO). Compute-to-Data presenta un nuevo tipo de activo: algoritmo, que es un script que se puede ejecutar en conjuntos de datos.

Veamos cómo funciona Compute-to-Data con un ejemplo.

Supongamos que Arena es un jugador importante en la industria automotriz. Arena quiere crear vehículos autónomos (AV) y necesita una tonelada de datos para entrenar a los modelos de IA de sus AV para que funcionen de manera eficiente. Desafortunadamente, Arena no tiene suficientes datos para hacerlo. Planean comprar datos del principal proveedor automotriz Axios.

Axios no está interesado en vender datos a Arena debido a problemas de privacidad del cliente. Arena propone utilizar Ocean Compute-to-Data, para que Arena pueda construir modelos de inteligencia artificial en los datos de Axios, sin que los datos abandonen los servidores de Axios. Axios está de acuerdo, ya que les permite monetizar sus datos mientras preservan la privacidad.

Axios utiliza Ocean Compute-to-Data para configurar su infraestructura de cómputo (incluidos Brizo, Operator Service y Operator Engine). Luego, Axios publica sus activos de datos en Ocean y recibe un DID para el activo de datos publicado. El proveedor publica los datos utilizando marketplace

2. Arena descubre los datos publicados en un mercado de datos de Ocean mediante la búsqueda, el filtrado o la navegación.

El consumidor busca datos en un mercado

3. Arena cree que el activo de datos podría resultar útil en su desarrollo AV, según la descripción. Adquieren acceso para entrenar su modelo de IA en esos datos a través del servicio de cómputo.

El consumidor envía una solicitud de acceso informático a Brizo

4. Como de costumbre, Brizo (el proxy digital para el proveedor de datos / cómputo) realiza las validaciones necesarias en condiciones como el permiso de consumo, la firma de un acuerdo de servicio y la confirmación del pago.

Brizo realiza verificaciones configuradas en nombre del proveedor

5. En caso de falla de validación, Brizo le pide a Arena que realice algunos pasos necesarios.

Brizo hace cumplir las acciones obligatorias necesarias del consumidor, determinadas por el proveedor

6. Arena publica su algoritmo en Ocean y recibe un DID (por ejemplo, algoDID) para el algoritmo.

NOTA – Compute-to-Data es independiente del lenguaje y admite todo tipo de plataformas informáticas, entornos y lenguajes de programación. Los proveedores de computación deben proporcionar detalles adecuados sobre qué tipo de servicio de computación (plataforma, entorno, CPU, RAM, etc.) están ofreciendo. Más tarde, los consumidores pueden navegar a través de diferentes entornos de proveedores de cómputo que admiten sus algoritmos y elegir uno en consecuencia.

El consumidor publica el algoritmo que se utilizará para calcular los datos del proveedor

7. Arena firma un Acuerdo de servicio y paga 50 OCÉANOS al contrato de depósito en garantía (parte de los contratos de Keeper) como pago por el servicio de cómputo.

El consumidor firma el Acuerdo de servicio y paga el acceso al servicio de cómputo

8. Ahora que Arena ha realizado todos los pasos obligatorios que necesita Axios, Arena envía una solicitud de cálculo a Brizo.

NOTA – El consumidor no necesita enviar una solicitud de cómputo inmediatamente después de comprar el acceso al servicio de cómputo. Pueden enviar una solicitud de proceso más tarde, hasta que caduque el acceso al servicio de proceso.

El consumidor envía una solicitud de servicio de cómputo al proveedor

9. Brizo verifica que Arena haya realizado el pago y todas las demás acciones obligatorias.

Brizo verifica que se realicen todas las acciones obligatorias

10. Una vez que todas las acciones se hayan validado y completado, Brizo se apodera de los conjuntos de datos y el algoritmo (usando dataDID y AlgormDID, respectivamente) y le indica al Servicio de Operador que inicie el cómputo usando el algoritmo dado en los datos dados.

NOTA – Dado que todo este proceso tiene lugar en el lado del proveedor de datos (también conocido como proveedor de cómputo), los datos permanecen privados y no se revelan al consumidor.

Brizo instruye al Servicio de Operador para comenzar a calcular

11. El Servicio del operador realiza comprobaciones en todas las entradas y, una vez listo, indica al Operador del motor que inicie el proceso de cálculo dentro de los parámetros de datos y algoritmos dados.

NOTA – Operator Service y Operator Engine utiliza el clúster de Kubernetes para la ejecución del proceso. Un consumidor solo puede ejecutar un trabajo activo por servicio de cómputo. Los consumidores pueden elegir reiniciar el mismo trabajo o comenzar un nuevo trabajo una vez que un trabajo activo se completa o se detiene manualmente.

Después de las validaciones necesarias, el Servicio de operador le indica a Operator Engine que inicie el cálculo

12. Una vez que el cálculo se ejecuta con éxito, Operator Engine publica los resultados en un depósito de AWS S3. Los resultados consisten en el modelo de salida y los registros de ejecución.

NOTA – Cuando se ejecuta con éxito, el servicio de cómputo produce dos tipos de resultados: (1) salida y (2) registros de ejecución. Los consumidores pueden elegir que se les entreguen uno o ambos al finalizar. Estos resultados se publican en el almacenamiento de AWS S3 una vez finalizado, y se comparte una URL de AWS S3 con el consumidor. El consumidor puede optar por descargar o mover esos resultados a su almacenamiento S3.

El motor del operador publica los resultados en el depósito S3 una vez que se completa el cálculo

13. Arena puede consultar el estado de finalización del proceso en cualquier momento. Tras una consulta, Brizo obtiene el estado actual del trabajo de cómputo de Operator Engine a través del Servicio de operador. Una vez que el trabajo se ha completado con éxito, Brizo, en nombre de Axios, comparte la URL de resultados (modelo de salida y registros) con Arena.

El consumidor se informa después de la consulta sobre el estado de la finalización del trabajo informático

14. En este punto, Arena puede decidir si está satisfecho con los resultados. Si no están satisfechos, pueden optar por reiniciar la ejecución del proceso con el mismo algoritmo o uno diferente, hasta que caduque el acceso al proceso.

Aquí hay una arquitectura completa para Ocean Compute-to-Data.

Este artículo ha descrito cómo Compute-to-Data permite a los proveedores de datos compartir o vender sus valiosos datos privados mientras se preserva la privacidad.

Los siguientes repositorios de Github proporcionan información técnica más detallada.

Una vez que esté listo para comenzar, vaya a los siguientes tutoriales y pruebe Compute-to-Data usted mismo.

Una descripción general de nuestra versión v2, Ocean Compute-to-Data

Motivación

Nuevos actores

Nuevos componentes

Nuevo tipo de activo

Related Posts