Análise de sentimento multilíngue é um processo baseado em IA que define o sentimento com base em dados em diferentes idiomas. Para isso, é necessário usar modelos de aprendizado de máquina (ML) desenvolvidos individualmente para vários idiomas. Para desenvolver esses modelos, um corpus variado de dados etiquetados manualmente é coletado para cada idioma. Os principais processos são:

  • Marcador de parte da fala: criado para identificar conjunções, orações subordinadas, preposições e substantivos em cada idioma.
  • Lemmatização: reconhecer e aplicar regras de conjugação de verbos e substantivos de acordo com o gênero.
  • Construções gramaticais: definir negações e amplificadores para identificar palavras negativas e positivas.
  • Polaridade: determinar a polaridade negativa e positiva das palavras, entre -1 e +, que são agregadas para definir o sentimento geral dos dados.

Um modelo de língua nativa é importante porque cada língua tem a própria etimologia, o que afeta as regras gramaticais. Por exemplo, não há pontos finais em tailandês, o árabe é escrito da direita para a esquerda, e o alemão tem pronomes sem gênero. Se um modelo de aprendizado de máquina em inglês for usado para analisar dados multilíngues, ele aplicará as regras desse idioma e chegará a conclusões incorretas. Isso pode levar ao fracasso ou à ineficácia de suas campanhas de marketing digital, sobrecarregando os recursos e reduzindo o retorno.