Como vetores matemáticos ajudam máquinas a localizar o sarcasmo

É quase impossível para os computadores detectar o sarcasmo. Uma abordagem matemática para a linguística poderia mudar isso.

Traduzido de: How Vector Space Mathematics Helps Machines Spot Sarcasm

Por: Emerging Technology from the arXiv  (13 de outubro, 2016)

Em 1970, a ativista social Irina Dunn rabiscou um slogan na parte de trás de uma porta do banheiro na Universidade de Sydney. Ela disse: “Uma mulher precisa de um homem como um peixe precisa de uma bicicleta”. A frase viralizou e tornou-se um refrão para o crescente movimento feminista daquele tempo.

A frase é um exemplo de sarcasmo. O humor vem do fato de que um peixe não precisa de uma bicicleta. A maioria dos seres humanos têm pouca dificuldade em interpretar isso. Mas enquanto várias técnicas de machine learning avançadas ajudaram a localizar outras formas de humor por computadores, sarcasmo ainda lhes escapa em grande parte.

Estas outras formas de humor podem ser localizadas quando se olha, digamos, verbos positivos associados a negativos ou a situações indesejáveis. Alguns pesquisadores têm utilizado esta abordagem para enxergar o sarcasmo.

Muitas vezes o sarcasmo vem desprovido de sentimento. A frase acima é um bom exemplo, não contém palavras que suportam sentimento. Assim, uma nova estratégia se faz necessária para os computadores alguma vez acertarem esse tipo de piada.

Hoje, Aditya Joshi do Instituto Indiano de Tecnologia de Bombaim, na Índia e alguns amigos, dizem que chegaram nessa estratégia e que sua nova abordagem melhora dramaticamente a capacidade dos computadores em localizar o sarcasmo.

O método é relativamente simples, ao invés de analisar o sentimento em uma frase, Joshi e colaboradores analisam a semelhança entre as palavras. Eles fazem isso estudando a forma como as palavras se relacionam entre si em um vasto banco de dados do Google News contendo cerca de três milhões de palavras. Isto é conhecido como o banco de dados Word2Vec.

Essa base de dados tem sido analisada extensivamente para determinar como as palavras se colocam umas ao lado das outras. E isto lhes permite uma representação por vetores em um espaço dimensional elevado. Acontece que palavras semelhantes podem ser representadas por vetores semelhantes e que a matemática do espaço vetorial pode capturar relacionamentos simples entre elas. Por exemplo: “Rei – homem + mulher = Rainha”.

Embora haja diferenças claras entre as palavras “homem” e “mulher”, elas ocupam partes similares do vetor espacial. No entanto, as palavras bicicleta e peixe ocupam espaços completamente diferentes no espaço, portanto, são consideradas como muito diferentes.

De acordo com Joshi e colaboradores, frases que contrastam conceitos similares com conceitos desiguais são mais propensas a serem sarcásticas.

Para testar essa ideia, eles estudam as semelhanças entre palavras em um banco de dados de citações no site Goodreads. A equipe escolheu apenas citações que foram marcadas como “sarcástico” pelos leitores e, como controle, incluiu citações também marcadas como “filosofia”. Isso resultou em um banco de dados de 3.629 citações, 759 das quais sarcásticas. A equipe, então, comparou os vetores de palavras por citação, procurando por similaridades e diferenças.

Os resultados proporcionaram uma leitura interessante. Joshi e colaboradores dizem que a incorporação dessa abordagem é significativamente melhor do que outras técnicas em detectar sarcasmo. “Observamos uma melhora em detectar sarcasmo“, dizem eles.

Claro que a nova abordagem não é perfeita, mas os erros que ela comete são instrutivos. Por exemplo, ela não detecta o sarcasmo na seguinte citação: “Ótimo. Conselho do relacionamento de um dos americanos mais procurados ”  (““Great. Relationship advice from one of America’s most wanted.”).

Isso ocorre provavelmente porque muitas dessas palavras têm múltiplos significados que não são capturadas pelo Word2Vec.

Outra frase sarcástica não detectada é: “Ah e eu suponho que a maçã tenha comido o queijo”. (“Oh, and I suppose the apple ate the cheese.”) Neste caso, maçã e queijo têm uma pontuação de alta similaridade e nenhum dos pares de palavras mostra uma diferença significativa e portanto, o exemplo não segue a regra de que o algoritmo é projetado para procurar.

O algoritmo identifica também algumas frases incorretamente como sarcástica. Joshi e colegas apontaram esta: “Oh, meu amor, eu gosto de sumir em você como uma onda desaparece no oceano, silenciosa, devagar e sem parar.” ( “Oh my love, I like to vanish in you like a ripple vanishes in an ocean—slowly, silently and endlessly.”)

Um ser humano não chamaria esta frase de sarcástica, no entanto, não é difícil imaginar esta frase sendo usada sarcasticamente.

No geral, esse é um trabalho interessante porque levanta algumas direções para futuras pesquisas. Seria particularmente fascinante usar esse tipo de algoritmo para criar frases sarcásticas e usar juízes humanos para escolher se têm ou não este sentido.

Além disso é a tarefa de detecção do próprio humor computacional. Detectar sarcasmo é uma meta ambiciosa, mas talvez não esteja inteiramente fora do alcance. Muitos humores são estereotipados e um algoritmo deve ser capaz de aplicar tal formulação com alguma facilidade. Sim, com certeza!!


Veja também:


 

Deixe uma resposta