Comprende técnicas como sentiment analysis para saber si el tono de un texto es positivo o negativo. Para entrenar al modelo se le pasa un gran número de textos y se le dicen si son positivos o negativos.
También llamado Natural Language Understanding (NLU)
Otras técnicas de NLP son:
- speech-to-text o text-to-speech conversion
- extracción de entidades de un texto (lugares, personas, etc.)
- text classification (asignar docs a categorías específicas)
- language detection
- language translation
- question answering
Tokenization concepts
Los siguientes son conceptos que se aplican a al tokenizacion, dependiendo del problema especifico de NLP que tengamos que resolver.
Text normalization
Esto se hace anets de generar los tokens. Se normaliza el texto removiendo los signos de puntuacion y cambiando todas las palabras a lower-case.
Mr Banks has worked in many banks.
Según el análisis que quieras hacer, puedes querer diferenciar entre Mr banks y banks. También puedes querer que banks sea un token diferente a banks., ya que este último añade como información que es el final de la frase.
Stop words removal
Stop words son palabras que añaden poco valor semántico.
Ejemplo: the, a, it.
n-grams
Multi-term frases como I have o he walked. Una frase compuesta por una unica palabra es un unigram. Si se compone de dos palabras es un bi-gram. Con tres es un tri-gram, etc.
Steaming
Técnica para consolidar palabras que tengan la misma raíz. Mediante esta técnica las palabras power, powered y powerful se consideran como el mismo token.