sábado, 17 de novembro de 2007

O futuro das máquinas de busca


Faz anos que usamos a busca por palavras-chave na Web, mas a última grande mudança no segmento foi quando 2 acadêmicos da Universidade de Stanford desenvolveram o PageRank, um algoritmo que melhorou absurdamente a relevância dos resultados, que depois ajudou a alavancar o Google. De lá pra cá não percebemos o quanto as máquinas de busca evoluíram. Isso deve-se ao fato de que o paradigma continua o mesmo. Continuamos a fazer as buscas da mesma forma. Será que isso pode mudar? Tem como as consultas ficarem mais intuitivas e simples? Será o uso de Processamento de Linguagem Natural a resposta?

Recuperação de Informação (RI) é “a tarefa de encontrar documentos relevantes a partir de um corpus ou conjunto de textos em resposta a uma necessidade de informação de um usuário”. A área de RI tornou-se mais conhecida com o advento das máquinas de busca na Web. Um dos modelos mais conhecidos de RI com esse intuito é o Espaço Vetorial (ou Vector Space Model). Este modelo é, provavelmente, usado por todas as grandes máquinas de busca de hoje, inclusive o Google.

Obviamente, todos estão tentando melhorar os seus algoritmos. Nos últimos anos, a comunidade acadêmica vem apresentando modelos probabilísticos (o Vetorial é algébrico) mais viáveis. O BM25, por exemplo, foi apresentado em vários artigos científicos ganhando em várias condições do modelo Vetorial. Mas quando digo “ganhar”, quero dizer que ele mostra resultados ligeiramente mais relevantes e quando digo Vetorial quero dizer o modelo puro, sem as melhorias que as máquinas de busca com certeza fazem nele.

O Vetorial ainda é o preferido por ser simples de implementar e manter, é só mandar rodar que ele já funciona muito bem. O BM25 e quase todos os outros modelos que fazem frente ao Vetorial precisam ser treinados, parâmetros precisam ser ajustados de tempos em tempos e o parâmetro que serve para um conjunto de páginas pode não servir para outras. Todos esses detalhes são custos a mais para a máquina de busca, tanto em tempo de processamento quanto em dinheiro mesmo. Basicamente, ninguém consegue ganhar do modelo Vetorial no custo/benefício e olha que ele já tem algumas décadas.

Em outra frente de pesquisas, algumas empresas novatas vêm ganhando atenção afirmando poder mudar a forma como fazemos buscas na Web . Entre elas a Powerset e a Cuill. A primeira usa processamento de línguagem natural para receber as consultas e processá-las. Em teoria, uma pesquisa por “Políticos que morreram de câncer” deveria retornar sites que cite políticos com esta distinção e não necessariamente tenham estas mesmas palavras. Eles conseguem fazer isso analisando as palavras e “entendendo” o contexto. Parece complicado? Bastante!

A questão é saber se é possível fazer isso funcionar na Web, com bilhões de páginas e com um vocabulário gigante. A resposta, provavelmente é AINDA não. A empresa chegou a fazer demonstrações, mas sempre com um conjunto de páginas e consultas limitado, não retratando a realidade da Web. O modelo Vetorial implementado numa máquina de buscas consegue responder rapidamente a uma consulta, já o processamento de consulta da Powerset deve ser muito mais complexo e pesado devido à necessidade de “entender” a consulta.

Conversando com pesquisadores e/ou entendidos na área de Recuperação de Informação percebe-se opiniões similares. Existem várias modelos antigos e novos para se fazer uma máquina de busca, alguns deles conseguem “vencer” o modelo Vetorial. Mas estas vitórias acabam sendo tão apertadas que simplesmente não compensam. Por outro lado há a necessidade de diminuir custos na indexação de páginas (coleta e armazenagem). A Cuill investe nisso, e diz ter custos 90% menores aos do Google. Na minha opinião, as chances de esta porcentagem estar certa são baixas. A coleta e indexação de documentos na Web é uma tarefa complexa e muito cara devido ao tamanho da base de dados. Diminuir 90% significa diminuir a ordem de complexidade dos algoritmos usados, o que é uma terefa MUITO complicada.

Fonte: http://www.googlediscovery.com
Autor: Felipe Hummel