Andrew Trask, fundador de OpenMined, detalla el problema de datos de AI y cómo solucionarlo
La privacidad de los datos ha sido, sin duda, uno de los mayores cuellos de botella a la hora de detectar casos de uso exitosos de IA. "La información más sensible y valiosa del mundo es exactamente lo que necesita si necesita resolver los problemas más importantes del mundo", dice Andrew Trask, Ph.D. candidato en Oxford y fundador de OpenMined, mientras habla sobre los desafíos de obtener acceso a los conjuntos de datos correctos en el podcast Ocean's Voices of Data Economy.
En las últimas semanas, varios países e instituciones gubernamentales de todo el mundo han anunciado medidas que utilizarán datos de ubicación y datos móviles para controlar la pandemia de coronavirus a través del rastreo de contactos. Esto cuestiona las preocupaciones sobre la privacidad de los datos en algunas partes del mundo. Pero hay un lado positivo: herramientas de inteligencia artificial que preservan la privacidad.
¿Cómo utilizan diferentes países los datos para controlar la pandemia global?
Primero lo primero: ¿cuáles son los datos que realmente ayudan a combatir esta pandemia global y cuáles son las iniciativas? Al centrarse en un enfoque de preservación de la privacidad, la organización paneuropea Privacy-Preserving Proximity Tracing (PEPP-PT) hace posible interrumpir nuevas cadenas de transmisión de SARS-CoV-2 de manera rápida y efectiva al informar a las personas potencialmente expuestas. Permite el rastreo de cadenas de infección a través de las fronteras nacionales. Google anunció recientemente que está utilizando datos agregados y anónimos que muestran cuán ocupados están ciertos tipos de lugares, lo que ayuda a identificar cuándo una empresa local tiende a estar más concurrida. "Hemos escuchado de los funcionarios de salud pública que este mismo tipo de datos agregados y anónimos podría ser útil, ya que toman decisiones críticas para combatir COVID-19", afirmó en un blog.
Google afirma utilizar la tecnología de anonimato para mantener sus datos de actividad privados y seguros. "Esto incluye la privacidad diferencial, que agrega ruido artificial a nuestros conjuntos de datos, lo que nos permite generar ideas al tiempo que impide la identificación de cualquier persona individual", menciona en el mismo blog. China ha desplegado drones y está utilizando grandes datos para combatir el coronavirus mediante el seguimiento de los pacientes y confía en su vasta red de vigilancia para detener la propagación del coronavirus, pero no tenemos información si esto viola las preocupaciones de privacidad. En pocas palabras: con el rastreo de contactos, los datos de ubicación se utilizan para notificar a alguien que recientemente ha estado cerca de una persona infectada (a través del coronavirus), para que luego puedan tomar medidas preventivas como el autoaislamiento.
El problema: el uso de datos más allá del propósito prometido original
Las principales preocupaciones son: los datos no deben reutilizarse para ningún otro propósito que no sea el de las organizaciones de salud pública y los gobiernos, y la identidad de las personas no debe revelarse en forma de fuga de datos. Sin embargo, un informe del Foro Económico Mundial afirma que hay algunos ejemplos como Estados Unidos, donde el gobierno está trabajando abiertamente con Verily, una empresa hermana de Google, para ofrecer pruebas de detección en línea que requieren que los usuarios tengan una cuenta de Google. Las empresas de tecnología de vigilancia y los desarrolladores de aplicaciones móviles también acceden a datos confidenciales. Los usuarios de la aplicación Corona 100m, por ejemplo, pueden ver la fecha en que un paciente con coronavirus fue infectado, junto con su nacionalidad, género, edad y los lugares que visitaron.
Andrew Trask, también miembro del equipo del grupo de trabajo de privacidad de las Naciones Unidas, dice: “Cuando el mundo se encuentra con un evento singular como el coronavirus al mismo tiempo, contextualiza la privacidad y las tecnologías de preservación de la privacidad. Por ejemplo, hay un nuevo campo llamado transparencia estructurada. Y la transparencia estructurada comienza diciendo que la privacidad es "trivial de resolver". La gente realmente quiere maximizar la utilidad, es decir, maximizar la utilidad de su información y al mismo tiempo maximizar la privacidad ".
¿Cómo obtenemos el máximo beneficio de ambos con una cantidad mínima de riesgo? Por ejemplo, si actuara de manera distópica y simplemente liberara la ubicación de todos y todos los que han estado en contacto con alguien más en cualquier momento, sabría perfectamente quién estaba interactuando con los pacientes con coronavirus actuales y recientes, ¿verdad? Aparentemente, maximizaría la utilidad o evitaría el coronavirus, pero minimizaría la utilidad para posibles usos secundarios de esa información. Como resultado, una vez que sobrevivamos al coronavirus, habrá un mundo aquí y todavía habrá gobernabilidad. Aquí es donde está el marco de transparencia de la estructura en la conversación: ¿cuál es el flujo de información ideal en un mundo perfecto y dónde pudimos facilitar perfectamente el movimiento de información?
¿Es la privacidad trivial de resolver? ¿Qué es la IA que preserva la privacidad?
En los próximos meses, veremos una gran cantidad de casos de uso de IA, algunos arriesgando el uso de datos, mientras que otros cumplirán: diferentes países tienen diferentes regulaciones. “El desafío es ¿cómo podemos usar varias herramientas de preservación de la privacidad que se nos dan? ¿Cómo tenemos una combinación de cómputo en el dispositivo en teléfonos móviles y cómputo cifrado, como el cifrado homomórfico para asegurar el cómputo de múltiples partes, privacidad diferencial, pruebas de conocimiento cero para facilitar? ¿Qué puede dar la capacidad de responder una pregunta específica sobre datos que no ve? observa Andrew. En palabras simples, esto se puede hacer mediante el anonimato de datos, la limitación de propósito de los datos y el acceso abierto a los datos. OpenMined está dando pasos hacia una solución.
OpenMined es una comunidad de código abierto con el objetivo de hacer que el mundo sea más conservador de la privacidad al reducir la barrera de entrada a las tecnologías privadas de inteligencia artificial. La comunidad ha iniciado una aplicación de alerta COVID, una aplicación móvil para iOS y Android que notifica a un usuario cuando se encuentra en un área donde una persona infectada con COVID-19 ha estado recientemente. "Estamos abiertos a las funciones únicas de preservación de la privacidad, así como a la aplicación de alerta COVID de extremo a extremo de muestra para demostrar su facilidad de integración", dice la declaración de OpenMined. Actualmente, COVID Alert demuestra el popular caso de uso de rastreo de contactos. Otras aplicaciones para combatir el Coronavirus muestran un mapa con las ubicaciones de las personas infectadas, esto no solo compromete su privacidad sino que también pone en riesgo su seguridad. OpenMined utiliza cifrado homomórfico para cifrar de forma anónima y comparar la ubicación actual de un usuario con todas las ubicaciones recientes de personas infectadas. Este método preserva la privacidad de los usuarios de la aplicación y las personas infectadas, asegurando que nadie sepa realmente la ubicación exacta de los demás.
Fuente de la imagen: BBC, Coronavirus: Privacidad en una pandemia
No es solo el coronavirus, sino también otros problemas del mundo real que dependen del acceso a los datos. Andrew comparte que sus varios colegas en Oxford han estado trabajando en la investigación del cáncer durante años. Les lleva meses obtener acceso a un conjunto de datos. “Si resolvemos el problema y tenemos acceso rápido a los datos, cada campo que esté recolectando datos, que sea sensible o valioso por naturaleza, experimentará un aumento de 1000 veces en la disponibilidad de esos datos prácticamente de la noche a la mañana. Y lo que es aún más emocionante acerca de este problema es que muchos de los subproblemas importantes ya se han resuelto en un conjunto de campos dispares: criptografía, política, incluso aprendizaje automático, aprendizaje federado. Lo que falta es tener todo esto combinado ".
¿Puede la inteligencia artificial que preserva la privacidad ayudar a las empresas a monetizar los datos?
La mayoría de los gigantes tecnológicos se preguntarían por qué implementar tecnologías que están bajo el paraguas de la IA que preserva la privacidad. Andrew argumenta que la respuesta es simple: si estas tecnologías se vuelven maduras, en realidad se vuelve más rentable preservar la privacidad. ¿Cómo monetizas los datos? El primero es que puede crear un equipo interno y crear aplicaciones derivadas que moneticen esta información de una manera específica. La mayoría de las grandes empresas tecnológicas están haciendo esto de alguna manera. El problema es escalar un negocio como este porque los datos tienen muchos usos interesantes. La noción de que va a ser el que los ejecute a todos significa que debe ampliar las operaciones de forma masiva.
Imagínese si usted es una red de hospitales y está recopilando una especie de vista de 360 grados de los registros médicos de las personas a lo largo de toda su vida, literalmente miles y miles y miles y miles de puntos de datos o casos de uso. Esto se convierte en una pesadilla operativa para realizar plenamente el valor potencial de un conjunto de datos de manera puramente interna. Otra opción de monetización es vender los datos. Para las pequeñas y medianas empresas, esta es realmente la única opción porque no tienen el potencial de alcanzar la escala para poder perseguir todos los diferentes casos de uso.
“Cuantos más datos vendas, menos valioso se volverá. En cambio, si trabaja con herramientas de preservación de la privacidad y permite que otras personas desarrollen aplicaciones y productos derivados, utilizando sus datos, sin siquiera darle una copia de sus datos a nadie más, obtendrá todos los ingresos sin el aumento en el suministro. Esto significa que cada vez que alguien quiere hacer algo con este tipo de datos, todavía tiene poder de facturación. Y en segundo lugar, también tiene un mejor poder de fijación de precios ”, concluye Andrew.