Reconocimiento de Entidades Nombradas: Desafíos y soluciones

El reconocimiento de entidades con nombre (NER) es el proceso de identificar grupos específicos de palabras que comparten características semánticas comunes. Por ejemplo, los nombres de las organizaciones. Pueden mostrar diferencias superficiales en su aspecto, pero todos transmiten el mismo tipo de información. También suelen aparecer en contextos comparables. Lo mismo ocurre con los nombres de personas, lugares o expresiones de tiempo.

Encontrar este tipo de información ayuda a mejorar los resultados de las búsquedas y la clasificación de los documentos. También es la piedra angular de otras técnicas de Procesamiento del Lenguaje Natural (PLN), como la Desambiguación de Entidades Nombradas, que es la tarea de relacionar diferentes ocurrencias con la misma entidad. Por ejemplo, "Sr. Page", "L. Page" o "Page, Larry" apuntarían a la misma entidad canónica, "Larry Page".

A veces se considera que la NER es un problema resuelto. Como mínimo, podemos decir que, efectivamente, los sistemas bien entrenados alcanzan puntuaciones extremadamente altas, casi comparables al rendimiento humano. Las técnicas han evolucionado desde los sistemas basados en reglas, pasando por modelos estadísticos como los CRF o la Entropía Máxima, hasta llegar a las Redes Neuronales, salvando sistemáticamente la distancia con la eficacia humana. Entonces, ¿por qué molestarse en escribir una entrada en el blog sobre este tema?

El NER se ha convertido más en un problema de datos que de algoritmos

El entrenamiento de un motor NER requiere datos adecuados y anotados .

La adecuación se refiere al ámbito de los documentos. Los bufetes de abogados producen documentos diferentes a los de los consultorios médicos y éstos también son diferentes a los artículos de prensa. El corpus de formación debe corresponder al tipo de documento que se quiere analizar.

La anotación se refiere al hecho de que las entidades con nombre deben ser identificadas en el conjunto de entrenamiento, y estas anotaciones deben ser fiables para producir un motor de buen rendimiento.

La producción de conjuntos de entrenamiento es la parte más costosa de la creación de un motor NER. Implica una cantidad considerable de trabajo humano. Hay que tener siempre presente que muchas técnicas de aprendizaje automático se basan en última instancia en datos compuestos por humanos, ya sea el reconocimiento de imágenes, la traducción automática o, por supuesto, la NER.

El mundo académico produce estos conjuntos de entrenamiento para las campañas de evaluación, pero no siempre son relevantes para su dominio o idioma. Estos conjuntos de datos suelen reutilizarse durante varios años mientras los algoritmos se vuelven más eficientes.

Por tanto, estamos ante un problema de datos más que de algoritmos. Los algoritmos evolucionarán y mejorarán con el tiempo, pero siempre dependerán de un material de entrenamiento de alta calidad que es difícil y costoso de producir.

Encontrar las agujas en el pajar

Aquí es donde entra en juego la metáfora del pajar y la cantidad desconocida de agujas y deberíamos decir unas palabras sobre cómo se evalúa un motor NER (o cualquier otro motor de clasificación).

Hay que tener en cuenta dos factores, la precisión y la recuperación. La precisión indica si un motor es eficiente a la hora de reconocer las agujas. La recuperación indica si el motor ha encontrado todas las agujas del pajar.

La retirada es también la parte más difícil del reto. A menos que se examine cada documento en detalle, no se puede saber cuántas agujas contienen.

Supongamos que hay 100 agujas en el pajar. Si el motor encuentra 1 aguja, su precisión será del 100%, ya que no ha cometido ningún error, pero su recuperación será del 1%, ya que ha pasado por alto 99 agujas.

Si el motor recoge todo el pajar, su recuerdo será del 100% -ha encontrado todas las agujas- pero su precisión será casi nula, ya que también ha recogido todo lo demás. Hay que encontrar un equilibrio entre ambas cosas.

Para obtener una puntuación significativa, es necesario combinar la precisión y la recuperación. Para ello, se calcula la medida F (también conocida como media armónica) entre la precisión y la recuperación. Cuanto mayor sea la medida F, mejor será el motor.

La solución de ProcessMaker IDP

ProcessMaker IDP es una solución inteligente de gestión de contenidos. Ofrecemos soluciones innovadoras para la gestión de datos no estructurados, y NER forma parte de la cadena más amplia de tecnologías de aprendizaje automático que utilizamos.

Necesitamos producir anotaciones relevantes y fiables para cada cliente de forma eficiente en términos de tiempo y coste. Anotar manualmente miles de documentos para cada cliente no es una opción.

Para ello, nos basamos en un enfoque semisupervisado.

Desarrollamos reglas de concordancia de patrones para cotejar elementos en los documentos. Las reglas de concordancia de patrones son muy eficientes a la hora de identificar las entidades con precisión, mientras que omiten muchas más entidades ambiguas. En otras palabras, su precisión es extremadamente alta, mientras que su recuperación es baja. También se utilizan diccionarios para mejorar la precisión. Las entidades descubiertas en cada documento se reutilizan para anotar automáticamente todo el corpus.

Esta es la parte supervisada de la formación, y en este punto nuestra precisión es extremadamente alta.

Para mejorar el recuerdo, se entrena un motor NER con los datos anotados mediante reglas. A continuación, se vuelve a realizar el NER con los mismos datos. Las entidades adicionales descubiertas por el motor se utilizan entonces para volver a anotar los mismos datos y entrenar de nuevo el motor hasta que se estabilice.

Esta es la parte no supervisada de la formación.

Desgraciadamente, no podemos escapar por completo de la anotación manual. Pero en lugar de anotar todo un corpus, basta con anotar sólo una pequeña parte que se convertirá en nuestro estándar de evaluación. El motor entrenado se aplicará al conjunto de evaluación y los resultados se compararán con las anotaciones manuales. En diferentes corpus neerlandeses obtenemos constantemente una eficacia superior al 90%.

Este enfoque nos permite arrancar los motores NER de forma eficiente en cuestión de horas en lugar de semanas.

El siguiente paso

Una vez desplegado, el ciclo de vida de un motor aún no ha terminado. Todavía cometerá errores o pasará por alto entidades que presentan nuevas características.

En estos casos, la experiencia humana es inestimable, y los motores pueden beneficiarse de esa información. Queremos hacer posible una mejor cooperación entre la máquina y el experto humano.

Para ello introducimos ProcessMaker IDP Interactive Learning, una interfaz integrada que permitirá a los expertos humanos corregir los resultados de nuestros motores, con bucles de retroalimentación instantánea para NER.

Reconocimiento de Entidades Nombradas: Desafíos y soluciones

Plataforma de soluciones

Compruébelo usted mismo Pruebe gratis las últimas funciones de la Plataforma ProcessMaker.

Prueba gratuita

Suscríbase al boletín de noticias Hyper-Productivity™ de ProcessMaker

    Consentimiento a la Política de Privacidad Al marcar esta casilla usted consiente en Declaración de privacidad de ProcessMaker.

    Descubra cómo las organizaciones líderes utilizan ProcessMaker para agilizar sus operaciones a través de la automatización de procesos.

    Contáctenos

    Actualización de la privacidad
    Utilizamos cookies para que las interacciones con nuestro sitio web y servicios sean fáciles y significativas. Las cookies nos ayudan a entender mejor cómo se utiliza nuestro sitio web y adaptar la publicidad en consecuencia.

    Acepta