Qu'est-ce que le traitement du langage naturel (NLP) ?

Caroline Eppright | Responsable de la stratégie de contenu | 25 mars 2021

Comme la science-fiction l'avait prévu depuis longtemps, nous, les humains, sommes de plus en plus à l'aise à l'idée de parler à nos ordinateurs. Aujourd'hui, les grands modèles de langage d'aujourd'hui (LLM) ainsi que les agents d'IA représentent un grand pas dans cette direction, et tous deux doivent leurs capacités d'expression au domaine du traitement du langage naturel, ou NLP. Chaque fois que vous dictez un message à votre téléphone, que vous saisissez une requête de recherche un peu longue ou que vous demandez à une IA de résumer un document, les techniques et technologies du NLP entrent en action. Elles donnent du sens à ce que vous dites et génèrent des réponses dans un langage similaire à celui que vous utiliseriez pour discuter avec un voisin. C'est une évolution qui mérite qu'on s'y attarde.

Qu'est-ce que le NLP ?

Le traitement du langage naturel (NLP) est une branche de l'intelligence artificielle (IA) qui permet aux ordinateurs de comprendre, générer et manipuler le langage humain. Le NLP s'applique à la parole comme au texte écrit et peut être utilisé avec toutes les langues humaines. Certaines technologies et méthodes de NLP, présentes depuis des décennies, ont connu récemment des améliorations significatives. Ces dernières années, la popularité des LLM, qui reposent sur des techniques de NLP, a contribué à généraliser son usage. De plus, l'intégration des LLM à des processus de travail plus complexes, sous la forme d'agents d'IA, devrait accroître l'utilisation du NLP au quotidien.

Définition et présentation

Les LLM d'aujourd'hui s'inscrivent dans le prolongement de la linguistique computationnelle, qui étudie la modélisation informatique du langage humain, tandis que le NLP est la discipline d'ingénierie qui vise à créer des méthodes informatiques aidant les ordinateurs à comprendre, générer et manipuler le langage humain. Les grandes avancées de la dernière décennie ont été rendues possibles par le machine learning, une branche de l'IA qui développe des systèmes apprenant par l'exemple. Les progrès réalisés ces dernières années ont permis au machine learning de comprendre des schémas très complexes dans de grands jeux de données, ce qui le rend idéal pour apprendre les subtilités du langage.

Les développeurs qui intègrent le NLP dans des applications s'appuient sur deux grandes branches : l'une axée sur la compréhension du langage, l'autre sur la génération de nouvelles réponses aux requêtes. La compréhension du langage naturel (NLU) est utilisée pour des tâches telles que l'analyse des sentiments, la reconnaissance d'entités et l'extraction d'expressions clés. Ces tâches exigent que les applications de NLP analysent le texte ou la parole pour comprendre ce qui est dit, tandis que la génération de langage naturel (NLG) génère des réponses, des traductions et des résumés en s'appuyant sur la compréhension des sentiments et des détails présents dans le langage humain qui lui est fourni. Le nombre croissant de LLM disponibles auprès de fournisseurs cloud ou sur des sites open source, comme Hugging Face, intègre à la fois le NLU et le NLG dans son fonctionnement.

Pourquoi le NLP est-il important ?

Les LLM, qui ne cessent de progresser, ont transformé un NLP plus rudimentaire, capable de détecter le sens d'une question et d'appliquer une réponse standard, en un interlocuteur flexible entraîné sur des pétaoctets de données généralistes au sein de réseaux neuronaux sophistiqués. Grâce à cela, les ordinateurs peuvent désormais comprendre la structure et le sens des langues humaines, ce qui permet aux développeurs et aux utilisateurs d'applications d'entretenir avec eux des conversations plus nuancées. Cela a des implications pour les entreprises, l'analytique, les relations humaines, le service client, les soins de santé et bien plus encore. À mesure que les données et les documents deviennent plus faciles à rechercher et à résumer, ils gagnent en valeur comme jamais auparavant. Voici quelques exemples d'utilisation du NLP.

Applications du NLP

Comme le NLP est un sous-domaine de l'intelligence artificielle et de la linguistique computationnelle, axé sur la compréhension et l'interprétation du langage humain par les ordinateurs, il se prête à de très nombreuses applications. Tout cas d'usage qui tirerait parti de machines capables de lire, d'interpréter et d'extraire du sens à partir de données textuelles, en imitant la manière dont les humains communiquent, est un bon candidat. En voici quelques exemples :

  • Automatiser des tâches : les chatbots et agents d'IA qui utilisent le NLP peuvent prendre en charge des tâches de plus en plus complexes dans un domaine donné, comme la facturation, l'analyse de données ou la cybersécurité. Il en résulte une nouvelle forme d'efficacité. Par exemple, un agent d'IA dans une application d'entreprise pourrait extraire automatiquement les informations pertinentes d'un devis fournisseur, par exemple un PDF scanné, le traduire si nécessaire, puis créer une demande d'achat dans le système. Cela aide à automatiser le processus d'approvisionnement et peut aussi contribuer à signaler automatiquement la facture finale du fournisseur pour validation par un responsable, en cas d'écart entre les montants.
  • Améliorer la recherche : le NLP traditionnel propose de nombreuses techniques pour améliorer la recherche et la récupération par correspondance de mots-clés, en reconnaissant les mots en fonction de leur contexte. Par exemple, « vecteur » ne signifie pas la même chose en biomédecine et en mathématiques. Des architectures plus récentes, qui s'appuient sur des bases de données vectorielles, améliorent considérablement la capacité du NLP à comprendre le sens sémantique du langage humain. Le processus d'incorporation vectorielle attribue des représentations numériques aux mots, aux expressions et à des documents entiers, ce qui permet d'effectuer rapidement et avec une grande précision des tâches telles que la recherche sémantique, l'analyse des sentiments et l'analyse de similarité entre documents. Les recherches sémantiques pilotées par le NLP constituent un élément clé de services courants, comme les systèmes de recommandation présents sur les sites de vente au détail ou les services de streaming.
  • Analyse et organisation de grandes collections de documents : les techniques de NLP telles que le regroupement de documents et la modélisation thématique simplifient la compréhension de la diversité du contenu des grandes collections de documents, comme les rapports d'entreprise, les articles d'actualité ou les documents scientifiques. Plus récemment, un nombre croissant de modèles d'embedding a permis de franchir un cap dans l'interaction, en langage naturel, avec les données et les documents. Dans une architecture de génération augmentée de récupération (RAG), les applications dotées de NLP peuvent permettre d'explorer les informations stockées dans des dépôts de documents à l'aide d'instructions en langage naturel, plutôt qu'avec SQL ou d'autres langages de programmation.
  • Analyse des réseaux sociaux : le NLP peut analyser les avis des clients et les commentaires sur les réseaux sociaux pour mieux comprendre d’énormes volumes d'informations. L'analyse des sentiments identifie les commentaires positifs et négatifs dans un flux de commentaires sur les réseaux sociaux, ce qui permet de mesurer directement le sentiment des clients en temps réel. À terme, cela peut générer des retombées importantes, telles qu'une satisfaction client accrue et une hausse des achats répétés.
  • Fournir des insights marché : le NLP peut aider à analyser le langage des clients d'une entreprise, pour mieux comprendre leurs attentes et mieux déterminer comment communiquer avec eux. Par exemple, l'analyse des sentiments peut détecter les aspects ou produits spécifiques mentionnés sur les réseaux sociaux (par exemple, « le clavier est génial, mais l'écran n'est pas assez lumineux »), fournissant ainsi des informations directement exploitables pour la conception et le marketing des produits.
  • Modérer des contenus : si votre entreprise dispose de canaux sociaux actifs, le NLP peut aider les modérateurs à suivre ce qui se dit et à réagir, en leur donnant la possibilité de préserver la qualité et la civilité des échanges en analysant non seulement les mots, mais aussi le ton et l'intention des commentaires. Cela peut servir de garde-fou en complément des systèmes courants de notation et de signalement des clients.

Fonctionnement du NLP

Les modèles de NLP s'appuient le plus souvent sur des réseaux neuronaux pour apprendre des schémas et des représentations à partir de données d'entraînement textuelles. Les modèles de NLP peuvent être entraînés sur de grands jeux de données pour réaliser des tâches comme l'analyse des sentiments, la reconnaissance d'entités nommées, la traduction automatique et le résumé de texte. Dans le NLP, les grands modèles de langage apprennent à faire des prédictions ou à générer du texte à partir des schémas et caractéristiques extraits des données d'entrée.

L'objectif du NLP est de combler l'écart entre la communication humaine et la compréhension par ordinateur, afin de permettre aux machines d'effectuer des tâches qui exigent une compréhension du langage naturel. Voici quelques domaines spécifiques à prendre en compte.

  • Linguistique computationnelle : la linguistique computationnelle est un domaine d'étude qui combine l'informatique, l'intelligence artificielle et la linguistique afin de développer des modèles d'IA capables de traiter différents aspects du langage humain. Cela aboutit à des méthodes informatiques permettant d'analyser et de manipuler le texte et le langage parlé. La linguistique computationnelle inclut l'étude de l'analyse syntaxique et grammaticale, de l'analyse sémantique et de l'analyse du discours. L'application de ces travaux se traduit par les capacités de NLP que l'on retrouve dans la traduction automatique, la reconnaissance vocale, l'analyse des sentiments et la génération de langage.
  • Machine learning dans le NLP : comme les modèles d'IA apprennent à réaliser différentes tâches liées au langage en analysant de grands jeux de données d'entraînement qui constituent la base de la compréhension du langage, le NLP moderne requiert le machine learning, ou ML. Dans le NLP, cela se traduit par un modèle de machine learning capable d'accomplir une tâche cible, comme l'analyse des sentiments, la reconnaissance d'entités ou la génération de langage.

    Par exemple, les données d'apprentissage de l'analyse des sentiments consistent en des phrases accompagnées de leur sentiment (par exemple, un sentiment positif, négatif ou neutre). Un algorithme de machine learning lit ce jeu de données et produit un modèle qui prend des phrases en entrée et renvoie leur sentiment. Le modèle de classification de documents ainsi obtenu peut rapidement déterminer si un document adopte une position positive, neutre ou négative sur le sujet, et s'il traite, par exemple, de sport, de finance ou de politique. De la même manière, un modèle de machine learning peut être entraîné à reconnaître et à classer des entités au sein d'un document, comme des noms, des lieux et des dates.
  • Deep learning dans le NLP : le deep learning est une forme de machine learning qui s'appuie sur des modèles de réseaux neuronaux profonds. Un réseau neuronal profond comporte plusieurs couches de nœuds interconnectés(neurones) qui permettent au modèle d'apprendre des schémas très complexes à partir de ses données d'entraînement. Le deep learning, combiné à de grands jeux de données d'entraînement, peut améliorer les performances sur des tâches de NLP, comme la traduction automatique, l'analyse des sentiments et la reconnaissance vocale.
  • Transfer learning : le transfer learning, souvent appelé fine-tuning d'un modèle d'IA, consiste à prendre un LLM de base sophistiqué et à l'adapter à une tâche spécifique à l'aide d'un jeu de données plus restreint, propre à cette tâche. Ces LLM de base disposent d'une solide maîtrise du langage et d'un vaste socle de connaissances générales, qui peut être ajusté pour s'adapter aux subtilités d'une nouvelle tâche. Dans le NLP, une entreprise peut utiliser le transfer learning pour aider un modèle d'IA à améliorer sa précision dans un dialecte local, par exemple, ou pour opérer dans un secteur doté de son propre langage, comme la science médicale.

Étapes de mise en œuvre du NLP

Les étapes courantes de mise en œuvre du NLP incluent :

1. Collecter et préparer les données textuelles : rassemblez des données textuelles provenant de différentes sources, telles que les réseaux sociaux, des documents ou des contenus Web, puis prétraitez-les dans un format adapté à l'analyse par les machines.

2. Extraire des caractéristiques et des représentations : convertissez le texte prétraité dans un format numérique que les modèles de machine learning peuvent comprendre. Les techniques les plus avancées consistent à convertir des mots et des segments de texte en incorporations vectorielles.

3. Sélectionner et entraîner un modèle : choisissez un modèle de NLP adapté à la tâche que vous souhaitez effectuer, comme l'analyse des sentiments ou la classification de texte, puis entraînez-le sur le jeu de données préparé, en ajustant les hyperparamètres pour optimiser les performances et la précision.

4. Évaluer et déployer votre modèle : évaluez le modèle de NLP en termes d'exactitude, de précision et de rappel, ainsi que sa capacité à bien généraliser lorsqu'il reçoit de nouvelles données. Une fois le résultat jugé satisfaisant, déployez le modèle dans un environnement de production pour traiter et analyser les données textuelles en conditions réelles.

Principales techniques et tâches du NLP

Le NLP utilise l'IA pour faciliter les interactions orales entre les machines et les humains. Pour y parvenir, il s'appuie sur un ensemble de techniques et de tâches.

  • Techniques de prétraitement : dans le NLP, le nettoyage et la préparation des données textuelles pour l'analyse ont traditionnellement été essentiels. Ces techniques incluent la tokenisation, qui découpe le texte brut, par exemple une phrase ou un document, en une séquence de tokens, tels que des mots ou des sous-unités de mots. La tokénisation est souvent la première étape d'un pipeline de traitement NLP. Le stemming et la lemmatisation réduisent ensuite les mots à leur forme de base ou à leur racine. Par exemple, « recommendée » se compose du préfixe "re-", de la racine « commend » et du suffixe « -ée ». La suppression des « mots vides » contribue à améliorer les performances et à réduire le traitement en éliminant les mots courants qui portent peu de sens, généralement des mots courts et fréquents tels que « un », « et » et « ou ».

    D'autres étapes de prétraitement peuvent inclure la suppression de la ponctuation, la gestion des caractères spéciaux et la correction des fautes d'orthographe. Ces techniques permettent de s'assurer que les données sont dans un format cohérent et exploitable pour les tâches fondamentales du NLP.
  • Tâches fondamentales du NLP : les tâches fondamentales du NLP ont évolué au fil du temps, mais elles contribuent toutes à comprendre la structure et le sens du texte, et sont souvent combinées pour concevoir les systèmes de NLP les plus complexes.

    Les tâches fondamentales du NLP décomposent le langage humain afin que les ordinateurs puissent le reconnaître, l'extraire et l'imiter. Ces tâches incluent l'étiquetage des parties du discours (POS), qui identifie le rôle grammatical de chaque mot dans une phrase, par exemple nom, verbe ou adjectif ; l'analyse syntaxique pour comprendre comment les mots se combinent en groupes de mots, propositions et phrases complètes ; la reconnaissance d'entités nommées (NER), qui identifie et classe les personnes, organisations et lieux ; et l'analyse des sentiments, qui détermine le ton émotionnel d'un texte.

    Plus récemment, les réseaux neuronaux profonds sont devenus la technologie de pointe des LLM, remplaçant à la fois l'étiquetage POS et l'analyse syntaxique par des vector embeddings qui permettent une manipulation du langage humain plus souple et plus précise.
  • Tâches avancées du NLP : les LLM s'appuient sur des techniques avancées de NLP pour permettre des conversations naturelles et engageantes entre humains et machines. Ces méthodes peuvent inclure la traduction automatique d'une langue vers une autre ; le résumé de texte, qui fournit des synthèses plus concises de passages plus longs ; et la réponse à des questions, qui implique d'extraire et souvent de reformuler des informations d'un document pour répondre à des questions précises sur le texte. Cette génération de langage naturel (NLG) requiert souvent des modèles sophistiqués, de grands jeux de données et, dans de nombreux cas, un processus de fine-tuning pour accomplir des tâches dans des domaines spécifiques, comme la médecine ou le commerce de détail.

Application du NLP dans différents secteurs

Le NLP peut simplifier et automatiser un large éventail de processus métier, en particulier ceux qui impliquent de grandes quantités de texte non structuré, tels que des e-mails, des enquêtes et des conversations sur les réseaux sociaux. Grâce au NLP, les entreprises peuvent mieux analyser leurs données afin de prendre les bonnes décisions. Voici quelques exemples d'applications pratiques du NLP .

  • Soins de santé : à mesure que les systèmes de santé du monde entier passent aux dossiers médicaux électroniques (EHR), ils accumulent d'énormes quantités de données non structurées. Le NLP peut analyser les dossiers médicaux et en extraire de nouveaux enseignements, tout en aidant les praticiens, dans des environnements cliniques très dynamiques, à ajouter et mettre à jour des informations, comme des synthèses post-consultation, dans l'EHR sans avoir à taper.
  • Finance : Dans le domaine financier, les opérateurs utilisent la technologie du NLP pour extraire automatiquement des informations des documents d'entreprise et des communiqués de presse afin d'extraire des informations pertinentes pour leurs portefeuilles et leurs décisions commerciales.
  • Service client : de nombreuses entreprises utilisent des assistants virtuels ou des chatbots pour répondre aux questions de base des clients et aux demandes d'information, en ne transmettant les demandes à des humains que lorsque cela est nécessaire. Plus récemment, des LLM connectés à des architectures RAG ont commencé à gérer bon nombre de ces interactions plus complexes.
  • Assurance : de grands assureurs peuvent utiliser le NLP pour passer au crible les documents et rapports liés aux sinistres, et fournir très rapidement des informations sur la couverture.

Défis et avenir du NLP

Le domaine du NLP a connu d'immenses avancées, mais il fait aussi face à des défis, comme nous allons le voir. Chaque jour, les fournisseurs de technologies et les chercheurs s'emploient à rendre les systèmes de NLP plus robustes, plus adaptables et plus aptes à comprendre et générer un langage proche de celui des humains. Ces efforts se traduiront par des avancées significatives dans des domaines tels que la traduction, les assistants virtuels et l'analyse de texte. Examinons quelques défis et opportunités plus en détail.

Défis actuels

Gérer la complexité et l'ambiguïté du langage humain, notamment la compréhension du contexte, du sarcasme et des nuances propres à différentes langues et dialectes, n'a rien d'anodin. Les modèles de NLP nécessitent souvent d'énormes volumes de données étiquetées pour l'entraînement, qui peuvent être longues à produire et coûteuses à acquérir.

Quels autres défis les chercheurs veulent-ils relever ?

  • Coûts de calcul : à mesure que les modèles d'IA gagnent en taille et en complexité, les coûts augmentent en fonction du nombre de cycles de calcul nécessaires pour accomplir les tâches. Même avec les innovations récentes en reinforcement learning, qui peuvent réduire le temps et le coût des entraînements, l'exécution du NLP en production peut rester coûteuse. Les ingénieurs ML explorent des architectures plus efficaces et utilisent, en plus du reinforcement learning, des méthodes comme l'élagage de modèles (model pruning) et la quantification afin de réduire les coûts de calcul.
  • Biais des données : selon les jeux de données utilisés pour les entraîner, les modèles de NLP peuvent avoir tendance à générer des textes biaisés en faveur d'un groupe particulier, en reproduisant simplement la diction ou le dialecte représenté dans le jeu de données d'entraînement. Pour y remédier, les équipes d'entraînement doivent identifier si une population ou un contexte est surreprésenté dans le jeu de données, afin de l'enrichir avec des variétés de langage plus diversifiées. Des algorithmes axés sur l'équité peuvent vous aider à détecter les biais si vous entraînez vos propres LLM.
  • Interprétabilité : l'interprétabilité en NLP correspond à la capacité de comprendre et d'expliquer les résultats produits par le modèle. Cela peut être difficile, en particulier avec des LLM avancés dont le fonctionnement interne est complexe et, pour le moins, opaque. Dans des contextes où il est important d'expliquer le raisonnement du modèle, comme pour des décisions juridiques, médicales ou d'assurance, l'interprétabilité est indispensable. Il existe donc un nombre croissant de stratégies pour rendre les résultats d'un modèle plus interprétables, notamment le reinforcement learning, mais aussi la régression linéaire, les arbres de décision et une gamme de techniques de feature engineering.

Tendances à venir

L'avenir du NLP vise à améliorer la compréhension et la génération du langage, tout en rendant la technologie plus accessible et plus utile à de nombreux cas d'usage. Les chercheurs travaillent pour développer des algorithmes plus efficaces, renforcer les capacités multilingues et créer des modèles capables d'apprendre avec moins de données étiquetées.

Les observateurs du NLP peuvent s'intéresser aux tendances suivantes :

  • Progrès des modèles de fondation : les modèles de fondation, tels que Cohere, Llama, BERT et GPT, continuent d'évoluer et le nombre de modèles disponibles ne cesse d'augmenter. Certains deviennent plus sophistiqués et polyvalents, tandis que d'autres privilégient la simplicité et des usages ciblés, ce qui leur permet d'être utilisés pour de nombreuses tâches avec un minimum d'entraînement supplémentaire et des coûts de calcul réduits. Les modèles plus grands gagnent en polyvalence en intégrant des données multimodales, notamment du texte, des images, de la vidéo et de l'audio. Attendez-vous à des avancées en matière d'architecture et de conception d'infrastructure, y compris des développements récents en reinforcement learning, afin d'absorber la complexité et le passage à l'échelle tout en maîtrisant les coûts.
  • Compréhension et génération améliorées : même si le NLP est utilisé depuis des décennies, il continue de progresser rapidement en compréhension et en génération du langage, grâce à des techniques qui capturent mieux les nuances, notamment le contexte, les sentiments et l'intention. Les systèmes de NLP devraient continuer à s'améliorer sur des tâches comme la traduction automatique, le résumé et les conversations en langage naturel avec les humains, en particulier à mesure que les architectures RAG et les technologies de graphes de connaissances apportent des contenus plus riches en contexte et plus précis aux applications métier du monde réel.

Améliorez votre NLP avec Oracle GenAI

Saviez-vous qu'Oracle Cloud Infrastructure (OCI) vous apporte tout ce dont vous avez besoin pour améliorer vos applications de NLP les plus avancées, même les plus avancées ? Par exemple, le service d'IA générative d'OCI offre une intégration simple avec des LLM polyvalents, tels que le modèle Command de Cohere ou la série open source Llama de Meta, au sein d'un service facile à utiliser. Utilisez‑le pour finetuner des modèles sur de nombreux cas d'usage NLP, assistance à la rédaction, synthèse, analyse, chat.

Pour accéder encore plus facilement aux dernières avancées du NLP pour votre entreprise, les applications Oracle SaaS offrent un accès instantané aux résultats de l'IA partout où ils sont nécessaires, sans quitter l'environnement logiciel que vous utilisez chaque jour pour faire fonctionner votre entreprise.

À mesure que le NLP continue d'évoluer, il a le potentiel de révolutionner notre façon d'interagir avec la technologie et de traiter d'immenses volumes d'informations textuelles.

Des commandes simples aux conversations complexes, le traitement du langage naturel est la clé des interactions homme-machine. Il sous-tend également certaines des innovations d'IA les plus avancées et les plus transformatrices disponibles aujourd'hui.

FAQ sur le traitement du langage naturel (NLP)

Comment le NLP peut-il améliorer le service client ?

Le NLP peut améliorer le service client de plusieurs façons. Il peut traiter un flux continu de demandes des clients, à l'oral comme à l'écrit, ce qui permet de résoudre plus rapidement leurs problèmes. Il s'appuie pour cela sur des LLM sophistiqués, capables de comprendre le contexte et les nuances de sens dans les interactions avec les clients. De la même manière, il peut aider les agents du service client à mieux accompagner les clients en fournissant, après un appel, des synthèses d'appel et des « tâches à effectuer ».

Quels sont les avantages du NLP pour l'analyse métier ?

Le NLP ouvre l'accès à des analyses métier pertinentes à un public plus large. Il permet aux équipes métier d'explorer les données sans langages de programmation, comme SQL. En effet, ils peuvent tenir des conversations en langage naturel, par exemple avec un agent d'IA capable d'accéder aux données de la base de données d'entreprise, de les compiler et de les présenter.

Comment le NLP contribue-t-il à automatiser les processus métier ?

Le NLP aide à automatiser les processus métier en comprenant et en générant du langage. Par exemple, une application de NLP peut recevoir une facture et lancer automatiquement la facturation et le traitement des commandes, en demandant simplement à un collaborateur de vérifier et d'approuver l'opération. Cela peut faire gagner du temps et des efforts à chaque facture traitée.

Comment le NLP et l'IA peuvent-ils ensemble améliorer la prise de décision en entreprise ?

Le NLP repose sur le machine learning et souvent sur des modèles de fondation d'IA sophistiqués. Toute cette puissance d'IA peut aider la prise de décision en entreprise en rendant l'analyse des données plus flexible et plus accessible. Par exemple, une plateforme d'analyse dotée de NLP peut proposer une interface agentique qui permet à un utilisateur métier de poser des questions à la base de données d'entreprise de l'organisation en langage naturel. Cela libère l'utilisateur métier d'un tableau de bord préprogrammé et peut conduire à davantage de créativité dans l'exploration des données.