Reconnaissance d'entités nommées : Défis et solutions

Table des matières

La reconnaissance d'entités nommées (NER) est le processus d'identification de groupes spécifiques de mots qui partagent des caractéristiques sémantiques communes. Prenons l'exemple des noms d'organisations. Ils peuvent présenter des différences superficielles dans leur apparence, mais ils véhiculent tous le même type d'information. De plus, ils apparaissent généralement dans des contextes comparables. Il en va de même pour les noms de personnes, les lieux ou les expressions temporelles.

Trouver ce type d'information permet d'améliorer les résultats de recherche et la classification des documents. C'est également la pierre angulaire d'autres techniques de traitement du langage naturel (TLN) telles que la désambiguïsation des entités nommées, qui consiste à relier différentes occurrences à la même entité. Par exemple, "M. Page", "L. Page" ou "Page, Larry" renvoient tous à la même entité canonique, "Larry Page".

Le NER est parfois considéré comme un problème résolu. Le moins que l'on puisse dire, c'est qu'effectivement, les systèmes bien entraînés atteignent des scores extrêmement élevés, presque comparables aux performances humaines. Les techniques ont évolué, passant de systèmes basés sur des règles à des modèles statistiques tels que les CRF ou l'entropie maximale, puis à des réseaux neuronaux, comblant constamment l'écart avec l'efficacité humaine. Alors pourquoi prendre la peine d'écrire un article de blog à ce sujet ?

Le NER est devenu plus un problème de données qu'un problème d'algorithme.

L'entraînement d'un moteur NER nécessite des données appropriées et annotées .

Le terme "approprié" fait référence au domaine des documents. Les cabinets d'avocats produisent des documents différents des cabinets médicaux et ceux-ci sont également différents des articles de journaux. Le corpus de formation doit correspondre au type de document que vous souhaitez analyser.

L'annotation fait référence au fait que des entités nommées doivent être identifiées dans l'ensemble d'apprentissage, et que ces annotations doivent être fiables pour produire un moteur performant.

La production d'ensembles de formation est la partie la plus coûteuse de la création d'un moteur NER. Elle implique une quantité considérable de travail humain. Nous devons toujours garder à l'esprit que de nombreuses techniques d'apprentissage automatique reposent en fin de compte sur des données composées par des humains, qu'il s'agisse de reconnaissance d'images, de traduction automatique ou, bien sûr, de NER.

Le monde universitaire produit de tels ensembles d'entraînement pour les campagnes d'évaluation, mais ceux-ci ne sont pas toujours pertinents pour votre domaine ou votre langue. Ces jeux de données sont souvent réutilisés pendant plusieurs années, tandis que les algorithmes gagnent en efficacité.

Par conséquent, nous sommes confrontés à un problème de données plutôt qu'à un problème d'algorithme. Les algorithmes évolueront et s'amélioreront au fil du temps, mais ils reposeront toujours sur un matériel d'entraînement de haute qualité, difficile et coûteux à produire.

Trouver les aiguilles dans la botte de foin

C'est ici que la métaphore de la botte de foin et de la quantité inconnue d'aiguilles entre en jeu et que nous devons dire un mot sur la manière d'évaluer un moteur NER (ou tout autre moteur de classification).

Vous devez tenir compte de deux facteurs, la précision et le rappel. La précision indique si un moteur est efficace pour reconnaître les aiguilles. Le rappel indique si le moteur a trouvé toutes les aiguilles dans la botte de foin.

Le rappel est également la partie la plus difficile du défi. À moins d'examiner chaque document en détail, vous ne pouvez pas savoir combien d'aiguilles ils contiennent.

Disons qu'il y a 100 aiguilles dans votre botte de foin. Si le moteur trouve une aiguille, sa précision sera de 100% car il n'a pas fait d'erreur, mais son rappel sera de 1%, car il a négligé 99 aiguilles.

Si le moteur ramasse toute la botte de foin, sa mémoire sera de 100% - il a trouvé toutes les aiguilles - mais sa précision sera proche de zéro, puisqu'il a aussi ramassé tout le reste. Vous devez trouver un équilibre entre les deux.

Pour produire un score significatif, la précision et le rappel doivent être combinés. Pour ce faire, nous calculons la F-Measure (également connue sous le nom de moyenne harmonique) entre la précision et le rappel. Plus la F-Measure est élevée, meilleur est le moteur.

La solution ProcessMaker IDP

ProcessMaker IDP est une solution de gestion intelligente du contenu. Nous proposons des solutions innovantes pour la gestion des données non structurées, et le NER fait partie de la chaîne plus large des technologies d'apprentissage automatique que nous utilisons.

Nous devons produire des annotations pertinentes et fiables pour chaque client de manière efficace en termes de temps et de coût. L'annotation manuelle de milliers de documents pour chaque client n'est pas envisageable.

Pour ce faire, nous nous appuyons sur une approche semi-supervisée.

Nous avons développé des règles de filtrage pour faire correspondre les éléments des documents. Les règles de filtrage sont très efficaces pour identifier les entités avec précision, alors qu'elles ignorent beaucoup plus d'entités ambiguës. En d'autres termes, leur précision est extrêmement élevée alors que leur rappel est faible. Des dictionnaires sont également utilisés pour améliorer encore la précision. Les entités découvertes dans chaque document sont ensuite réutilisées pour annoter automatiquement l'ensemble du corpus.

C'est la partie encadrée de la formation, et à ce stade, notre précision est extrêmement élevée.

Pour améliorer le rappel, un moteur NER est entraîné sur les données annotées à l'aide de règles. Ensuite, nous effectuons à nouveau le NER sur les mêmes données. Les entités supplémentaires découvertes par le moteur sont alors utilisées pour réannoter les mêmes données et entraîner à nouveau le moteur jusqu'à ce qu'il se stabilise.

Il s'agit de la partie non supervisée de la formation.

Malheureusement, nous ne pouvons pas échapper complètement à l'annotation manuelle. Mais au lieu d'annoter un corpus entier, il suffit d'en annoter une petite partie qui deviendra notre norme d'évaluation. Le moteur entraîné sera appliqué à l'ensemble d'évaluation et les résultats seront comparés aux annotations manuelles. Nous obtenons constamment une efficacité supérieure à 90% sur différents corpus néerlandais.

Cette approche nous permet d'amorcer efficacement les moteurs NER en quelques heures au lieu de plusieurs semaines.

L'étape suivante

Après avoir été déployé, le cycle de vie d'un moteur n'est pas encore terminé. Il fera encore des erreurs ou négligera des entités qui présentent de nouvelles fonctionnalités.

Dans ces cas, l'expertise humaine est inestimable, et les moteurs peuvent bénéficier de ce retour d'information. Nous voulons permettre une meilleure coopération entre les experts humains et les machines.

Pour ce faire, nous présentons ProcessMaker IDP Interactive Learning, une interface intégrée qui permettra à des experts humains de corriger les sorties de nos moteurs, avec des boucles de rétroaction instantanée pour les NER.

Reconnaissance d'entités nommées : Défis et solutions

Matt McClintock 10 avril 2018 Automatisation intelligente Traitement intelligent des documents (IDP)

Le NER est devenu plus un problème de données qu'un problème d'algorithme.

Trouver les aiguilles dans la botte de foin

La solution ProcessMaker IDP

L'étape suivante

Contenu connexe

Le traitement intelligent des documents peut-il stimuler l'hyperproductivité ?

Les 5 principaux cas d'utilisation de l'IDP

Libérez le véritable potentiel de vos données non structurées grâce à l'IA

Demander une démo