Word Embeddings for Natural Language Processing

Abstract

Le word embedding est une méthode d’apprentissage automatique qui vise à représenter les mots d’un vocabulaire par des vecteurs de réels dans un espace à faible dimension. En s’appuyant sur un grand corpus de textes non annoté, de telles représentations vectorielles peuvent être calculées pour capturer les informations syntaxiques et sémantiques des mots. Ces word embeddings, lorsqu’ils sont ensuite utilisés comme données d’entrée dans des modèles prédictifs, se sont révélés être un grand atout pour une grande variété de tâches en traitement automatique du langage naturel (TALN). Dans cette présentation, je commencerai par introduire une nouvelle approche pour générer les word embeddings qui repose sur une analyse en composantes principales (ACP) utilisant la distance de Hellinger. Je présenterai ensuite comment utiliser ces word embeddings dans des modèles pour la classification de documents et la génération automatique de texte.

Date
Location
Lyon, France
Links