sexta-feira, 11 de outubro de 2013

Medir a distância entre as palavras?




Pouco ouvimos dizer de uma ligação íntima do português e da matemática, algumas pessoas até dizem que só se relacionam devido à questão de interpretar um problema, o que vos digo que não é verdade. Katrin Erk, professora de linguística na Universidade do Texas em Austin, conseguiu desenvolver um método com o qual pôde transformar o significado de uma palavra em um vetor no espaço cuja a dimensão é 10.000 – difícil de acreditar quando estamos limitados a espaços bidimensionais e tridimensionais – e só foi possível trabalhar em um espaço assim usando computadores. Os benefícios trazidos por esse novo método é surpreendente, embora seja uma pesquisa que aconteceu a mais de 50 anos, Katrin conseguiu renová-la e apresentar de uma forma mais moderna e mais desenvolvida.
Para entender como se desenvolveu a linha do pensamento, basta entender um pouco de álgebra linear, especificamente, os vetores e suas propriedades. Assim, usa-se três frases:

·         O garoto morreu de amores pelo cachorrinho.
·         O garoto morreu de dó do cachorrinho.
·         O garoto morreu de câncer no esôfago.

Agora, imagina que podemos construir conjunto de números ordenados assim: (X1, X2, X3, X4, X5, X6), No qual a variável X1 indica o número de vezes que a palavra “garoto” aparece perto da palavra “morreu”, de maneira similar, aparecendo perto da palavra “garoto”, são as outras variáveis onde X2 representa a contagem de ocorrências de “amores”, X3, de “cachorrinho”, X4, de “dó”, X5, de “câncer” e X6, de “esôfago”. Conclui-se, segunda a álgebra linear, que um conjunto de números ordenados pode ser visto como um vetor, assim, formaram-se os seguintes vetores relacionado às frases acima, respectivamente, V1, V2 e V3.



Se representarmos graficamente, reconhecemos, sem dificuldade, que o gráfico do vetor 1 e do vetor 2 são mais semelhantes, ou seja, possuem mais coisas em comum, enquanto o vetor 3 está a uma distância significativa dos dois outros vetores. Assim, concluiu que estão totalmente relacionados, podendo medir até a distância entre elas, uma distância de significados, pois palavras que se assemelham estão mais próximas. Ou seja, se pegarmos a palavra "banco", encontraremos dentro desse espaço de vetores, palavras semelhantes e próximas, como bancário, dinheiro.