La limitación de la memoria humana ha sido un desafío para procesar grandes cantidades de información. Si bien los humanos pueden leer y comprender el texto, su capacidad para retener y recordar información aún es limitada y la habilidad de lectura humana no puede escalar. Como resultado, la comprensión de lectura automática (MRC) ha surgido en respuesta a la creciente cantidad de información. MRC implica enseñar a las máquinas a leer y comprender el texto en lenguaje natural y luego responder preguntas sobre ese texto. También puede extraer información de grandes volúmenes de datos no estructurados, como artículos de noticias, documentos de texto o páginas web. MRC hace posible buscar y responder preguntas de cualquier texto, independientemente de su extensión, estilo, dominio, etc.
El enfoque actual de MRC implica el uso de aprendizaje automático, por ejemplo, modelos de aprendizaje profundo, redes neuronales, etc. El enfoque de aprendizaje automático puede verse como una “caja negra”. No podemos entender por qué la máquina proporciona tal respuesta y tanta confianza en la puntuación. Aunque muy pocos apoyan la transparencia con cierta granularidad, como explicar los resultados resaltando las palabras que contribuyeron a la predicción.
De hecho, se descubrió que muchos modelos MRC existentes lograron un rendimiento similar al humano mediante soluciones abreviadasen lugar de una comprensión real del texto.
Actualmente, estamos persiguiendo la promesa de lo que hemos denominado, “Inteligencia Alfabetizada” (LI), lo que otros lugares han denominado “MRC” o incluso “Inteligencia de Documentos” (DI), pero nos diferenciamos de estos, y hacer las cosas en nuestros propios términos. Somos capaces de apoyar la transparencia total en todos los niveles (para saber en cualquier momento lo que está pasando). Esto puede suceder con nuestra propia tecnología patentada, llamada “Modelo canónico”, también conocido como redes topológicas aumentadas, un nuevo paradigma simbólico, para implementar el razonamiento del lenguaje natural.
Los modelos de red neuronal (NN) y aprendizaje automático (ML) solo detectan patrones basados en estadísticas, pero no saben por qué algo tiene “sentido” para ellos o no. Por el contrario, nuestro LI entiende lo que está pasando y por qué porque la lógica está codificada en el “Modelo Canónico”. Además de las tareas comunes de MRC que admiten otros motores, como el resumen de texto o la respuesta a preguntas, nuestro motor podrá realizar un razonamiento inferencial.
No como los otros, nuestro motor tendrá verdadera capacidad cognitiva, que se ocupa de la semántica (significado). Los usuarios pueden implementar el uso inmediato de nuevos conocimientos sin volver a capacitar o volver a implementar todo el sistema en contraste con los enfoques actuales de aprendizaje automático.
Comenzando con nuestro modelo canónico patentado, comenzamos a leer un texto en alguna estructura con la que estamos familiarizados. Por ejemplo, podríamos leer una especificación que está llena de una densa colección de información, organizada para los ojos humanos en tablas. Estos son objetivos principales para LI, ya que una persona que quisiera encontrar algún tipo de información dentro de este tipo de documento se frustra fácilmente. Si todo lo que tienen es una búsqueda de texto para algunas palabras clave específicas, no hay ninguna garantía de encontrar la idea correcta de lo que podría estar buscando.
En nuestra lectura del corpus, debido a la naturaleza de nuestro modelo, cuando el texto no estructurado se organiza en estructuras canónicas, se organiza naturalmente en un diseño lógico y estructurado. Nuestra utilización de la ontología llena las grietas entre las ideas, por lo que se pueden inferir cosas que no son inmediatamente relevantes. No tienes que saber exactamente lo que estás buscando. Si lo hicieras, ¿quizás no tendrías que esforzarte tanto? Entonces, al ser formas lógicas, podemos encontrar el texto exacto con una frase que se relaciona con él de alguna manera lógica, y menos alguna palabra o frase específica.
Estamos desarrollando el motor transformando el conocimiento del mundo (u ontología) en forma de lenguaje natural en nuestro modelo canónico, de un formato de datos no estructurado a uno estructurado. Dado que estamos tratando con el lenguaje natural, se sabe que los principales desafíos son la complejidad y la variabilidad del lenguaje natural, es decir, cómo estandarizarlos para que encajen en nuestro modelo. En la etapa inicial, también requerimos tiempo y esfuerzo humano para verificar la corrección de los datos y construir la ontología manualmente.
Una vez que podamos hacer que el lenguaje natural se ajuste a nuestro modelo y tengamos suficiente ontología en nuestra base de datos, con la entrada en forma de lenguaje natural, esperamos que el motor verifique automáticamente la corrección al verificar si la ontología recién alimentada contradice el ontología disponible y poder conectar o crear una relación con la ontología disponible.
Con más y más ontologías agregadas, el motor podrá descubrir nueva lógica o incluso hacer un nuevo descubrimiento científico. El motor también puede identificar información relevante en el texto y responder preguntas.
A pesar de un objetivo claro y un plan concreto, ya que estamos en las primeras etapas de desarrollo, aún queda mucho trabajo por hacer, en particular para abordar los desafíos de la ambigüedad y la variabilidad en el lenguaje natural. Además, nuestro enfoque es diferente de los demás. Habrá problemas por descubrir y por resolver en el camino.