Paulo Techno Blog: novembro 2007

sábado, 24 de novembro de 2007

Bug: Visualizar Fotos Trancadas do Orkut

Visualizar Fotos Trancadas do Orkut de Pessoas Não Adicionadas:

1. Como todos nós sabemos devido a grande melhoria do Orkut em termos de segurança e privacidade, o Orkut ainda deixa a desejar pelo menos no quesito privacidade. Existe uma maneira pela qual é possível visualizar as fotos de outras pessoas ainda que estejam trancadas. Esse método porém abre tão somente a prévia de imagem original postada pelo usuário. Tamanho: 160 x 120 pixels. Porém com alguns plugins do próprio Firefox você consegue aumentar o tamanho apesar da baixa resolução. Se a curiosidade for grande e você não quiser adicionar a pessoa para ver suas fotos, use esse método. Lembrando apenas que o método citado não possui fins para difamar a empresa ou para quaisquer fins ilícitos, é para apenas fins de pesquisa e desenvolvimento de melhorias da Rede Social Orkut. Abaixo eis o exemplo de um Orkut trancado. No caso o meu mesmo para evitar publicar imagens sem devida autorização de terceiros.

2. Assim sendo vá até algum scrap que a pessoa tenha enviado para algum amigo, ou até mesmo para você. Podendo ser inclusive postagem em algum tópico de comunidade. Clique com o botão direito de seu navegador em cima da foto, clique em propriedades da imagem e você terá escrito o endereço da imagem. Anotem o número da imagem. Esse número é o: XXXXXXX.jpg que irá aparecer no final do link da mesma. Guarde esse número conforme imagem abaixo.

3. Abra uma aba do seu navegador e digite o endereço ( http://img3.orkut.com/images/milieu/1/0/), seguido do número da imagem que você acabou de guardar. Exemplo:

http://img3.orkut.com/images/milieu/1/0/XXXXXX.jpg

Pronto, a imagem trancada em tamanho reduzido (160 x 120 pixels) irá aparecer no seu navegador bem diante dos seus olhos.

Lembrando que no endereço: http://img3.orkut.com/images/milieu/1/0/ . O 1 representa o PID da foto do álbum da pessoa. Para visualizar demais fotos altere o 1 para 2,3,4..5..50.. até 100 que é o número máximo de fotos atual. No meu exemplo a PID foi a de número 20. Caso nenhuma imagem apareça e der erro 404, significa que não existe esse PID, ou seja, não existe uma foto.

Simples não ?

Fonte: http://googlediscovery.com/
Autor: Marco Faustino

domingo, 18 de novembro de 2007

Somos reféns da Web 2.0

No começo era uma novidade, todos queriam saber afinal o que era a tal da web 2.0. Com o passar do tempo, aos poucos fomos incorporando o conceito de colaboração online, onde somos nós que produzimos o conteúdo. De meros leitores, passamos a criadores. Então começaram a surgir centenas de sites com nomes esquisitos, todos pedido: vamos, entregue os dados para mim! E nós participando, interagindo, achando maravilhoso, nos divertindo. Pois é, era engraçado.

Quantos sites web2.0 você consegue ver aqui?

Acabamos reféns da Web 2.0. Sim, viramos escravos do Orkut, Facebook e outras redes sociais. Não conseguimos mais ouvir música na internet se não for no Last.fm. Nossos favoritos estão armazenados no del.icio.us. Por acaso existe algum melhor para guardar nossas fotos do que no Flickr? E o que seria dos vídeos online se não fosse o YouTube?

O que dizer do Google, que sabe mais de nossa vida do que nós mesmos? Nossos gostos, lugares que vamos, os amigos, os documentos, os vídeos que mais gostamos, o que nos interessa… Quantos dos serviços do Google você usa? E ele ainda vai integrar as redes sociais, imagina só no que vai dar!

A Web 2.0 é fantástica. E surpreendente, a cada dia descobrimos novos serviços em que olhamos e pensamos: como pude viver antes sem isso? Ou pior: Porque eu não inventei isso antes (e fiquei milionário)? Mas a cada dia que passa, dependemos mais dela. E se o del.icio.us tiver um grande problema e perder seus favoritos? Ou o Google apagar os seus documentos? Ou o Yahoo decidir que não vale mais a pena investir no Flickr?

Outro fator que inclusive gerou discussão no BlogCamp de Fortaleza foi a questão de privacidade. Ela está desaparecendo, simplesmente. Tudo tem um preço. Se por um lado queremos ter todo o conteúdo que quisermos ao alcance de um clique, por outro, temos que abrir mão de parte de nossa privacidade.

Fonte: http://mundotecno.blogsome.com/
Autor: Cynara Peixoto

Descubra o verdadeiro lado pirata com o Google Pirate

A evolução dos motores de busca tem nos permitido descobrir diversas possibilidades de navegação na WEB, um dos principais responsáveis para com essa evolução como todo mundo sabe é o Google, ainda mesmo com os filtros e tudo que á de mais tecnológico relacionado a isso o Google nos permite a encontrar diversos conteúdos onde estão na lista dos conteúdos proibidos.

Mas tem diversos motores de busca hoje em dia que encontram exclusivamente esses conteúdo onde no Google são filtrados e o que eu apresento a vocês que estão sempre em busca constante de conteúdo “legalizado” é o motor de busca GOOGLE PIRATE, com um nome bem sugestivo ele proporciona busca de diversos tipos de conteúdo como:

Torrents
Software
Roms
Musica
eBooks
NZB
Video
Ringtones
Web
Albums
Comics

Nesse motor de busca encontra tudo que você estive necessitando!

Fonte: http://aluisiosaboya.com/

Autor: Aluisio Saboya

sábado, 17 de novembro de 2007

Como funciona uma máquina de busca?

Crawlers, Spiders, Robôs e Coletores

Sim, todos os termos acima se referem a mesma coisa: A parte da máquina de busca responsável por coletar os documentos da Web a serem indexados e consultados posteriormente. Mas como eles funcionam? Os coletores começam com um conjunto inicial de URLs para serem visitadas. O sistema então baixa estes documentos e deles extrai os links, conteúdo e outras informações. As URLs dos links extraídos são guardadas para que se possa acessá-las posteriormente. O processo é mostrado na figura abaixo:

Para que tudo isso funcione o processo todo é dividido em partes (componentes):

Coletores - Fazem a requisição de páginas aos servidores HTTP. Extraem os links das páginas recebidas e enviam ao escalonador. Requisitam do escalonador uma ou mais URLs a serem coletadas.
Servidor de Armazenamento - Recebem os documentos coletados e os armazena localmente. Fazem a extração (também chamado de parsing) do texto e conteúdo em outros formatos: PDF, Word, Powerpoint, etc.

Servidor de Nomes - Faz um controle das requisições DNS (Domain Name System) para que os coletores não façam requisições remotas. Em outras palavras não deixa o coletor procurar onde está um site se o Servidor de Nomes já tem guardado essa informação.

Escalonador - Responsável por decidir qual a próxima URL a ser coletada. Coordenando dessa forma a ação dos coletores. Deve garantir que não haverão coletas repetidas.

Assim temos esta figura mais detalhada:

O escalonamento é um função crítica da coleta. É complicado coletar TODAS as páginas da Web. Por isso são utilizadas técnicas para tentar pegar apenas as "melhores" páginas. Alguns exemplos são:

Em Profundidade - Resulta em uma coleta “focada”, pois você caminha por todo um determinado site antes de ir para o próximo. Pode-se limitar o número de níveis.

Em Largura com sufixo de URL - Exemplo: *.terra.com.br. Garante cobertura balanceada entre sites. Técnica bastante utilizada.

Baseadas em Ranking de URLs - Pode ser baseada em conteúdo, em popularidade (número de acessos) ou em conectividade (número de referências).

Baseada em Conectividade - Pode ser de dois tipos:
- Referências (Backlink count) - Quanto mais links apontando para uma página maior a "importância" dela.
- Variações recursivas - Links vindos de páginas com maior "importância" tem maior peso. Esta é a técnica usada pelo algoritmo PageRank.

Existem algumas outras dificuldades e observações relativas aos coletores na Web. Como muitos sabem, os robôs das máquinas de busca devem seguir algumas restrições especificadas no arquivo robots.txt e em meta-tags. Além disso, é considerado ético não bombardear o servidor de um site com inúmeras requisições sequenciais.

Existem outros inúmeros detalhes e problemas que precisam ser resolvidos na hora de construir um coletor para uma máquina de busca na Web.

Fonte: http://www.blogdohummel.com/
Autor: Felipe Hummel

O futuro das máquinas de busca

Faz anos que usamos a busca por palavras-chave na Web, mas a última grande mudança no segmento foi quando 2 acadêmicos da Universidade de Stanford desenvolveram o PageRank, um algoritmo que melhorou absurdamente a relevância dos resultados, que depois ajudou a alavancar o Google. De lá pra cá não percebemos o quanto as máquinas de busca evoluíram. Isso deve-se ao fato de que o paradigma continua o mesmo. Continuamos a fazer as buscas da mesma forma. Será que isso pode mudar? Tem como as consultas ficarem mais intuitivas e simples? Será o uso de Processamento de Linguagem Natural a resposta?

Recuperação de Informação (RI) é “a tarefa de encontrar documentos relevantes a partir de um corpus ou conjunto de textos em resposta a uma necessidade de informação de um usuário”. A área de RI tornou-se mais conhecida com o advento das máquinas de busca na Web. Um dos modelos mais conhecidos de RI com esse intuito é o Espaço Vetorial (ou Vector Space Model). Este modelo é, provavelmente, usado por todas as grandes máquinas de busca de hoje, inclusive o Google.

Obviamente, todos estão tentando melhorar os seus algoritmos. Nos últimos anos, a comunidade acadêmica vem apresentando modelos probabilísticos (o Vetorial é algébrico) mais viáveis. O BM25, por exemplo, foi apresentado em vários artigos científicos ganhando em várias condições do modelo Vetorial. Mas quando digo “ganhar”, quero dizer que ele mostra resultados ligeiramente mais relevantes e quando digo Vetorial quero dizer o modelo puro, sem as melhorias que as máquinas de busca com certeza fazem nele.

O Vetorial ainda é o preferido por ser simples de implementar e manter, é só mandar rodar que ele já funciona muito bem. O BM25 e quase todos os outros modelos que fazem frente ao Vetorial precisam ser treinados, parâmetros precisam ser ajustados de tempos em tempos e o parâmetro que serve para um conjunto de páginas pode não servir para outras. Todos esses detalhes são custos a mais para a máquina de busca, tanto em tempo de processamento quanto em dinheiro mesmo. Basicamente, ninguém consegue ganhar do modelo Vetorial no custo/benefício e olha que ele já tem algumas décadas.

Em outra frente de pesquisas, algumas empresas novatas vêm ganhando atenção afirmando poder mudar a forma como fazemos buscas na Web . Entre elas a Powerset e a Cuill. A primeira usa processamento de línguagem natural para receber as consultas e processá-las. Em teoria, uma pesquisa por “Políticos que morreram de câncer” deveria retornar sites que cite políticos com esta distinção e não necessariamente tenham estas mesmas palavras. Eles conseguem fazer isso analisando as palavras e “entendendo” o contexto. Parece complicado? Bastante!

A questão é saber se é possível fazer isso funcionar na Web, com bilhões de páginas e com um vocabulário gigante. A resposta, provavelmente é AINDA não. A empresa chegou a fazer demonstrações, mas sempre com um conjunto de páginas e consultas limitado, não retratando a realidade da Web. O modelo Vetorial implementado numa máquina de buscas consegue responder rapidamente a uma consulta, já o processamento de consulta da Powerset deve ser muito mais complexo e pesado devido à necessidade de “entender” a consulta.

Conversando com pesquisadores e/ou entendidos na área de Recuperação de Informação percebe-se opiniões similares. Existem várias modelos antigos e novos para se fazer uma máquina de busca, alguns deles conseguem “vencer” o modelo Vetorial. Mas estas vitórias acabam sendo tão apertadas que simplesmente não compensam. Por outro lado há a necessidade de diminuir custos na indexação de páginas (coleta e armazenagem). A Cuill investe nisso, e diz ter custos 90% menores aos do Google. Na minha opinião, as chances de esta porcentagem estar certa são baixas. A coleta e indexação de documentos na Web é uma tarefa complexa e muito cara devido ao tamanho da base de dados. Diminuir 90% significa diminuir a ordem de complexidade dos algoritmos usados, o que é uma terefa MUITO complicada.

Fonte: http://www.googlediscovery.com
Autor: Felipe Hummel

domingo, 4 de novembro de 2007

Uma comparação: Gmail - Yahoo! Mail - Windows Live Hotmail

Abaixo uma tabela de comparação dos três principais emails na atualidade: Gmail - Yahoo! Mail - Windows Live Hotmail.

* O limite de armazenagem está constantemente subindo.
** Somente via softwares da própria Microsoft, como Outlook ou Windows Live Mail.
*** Somente pelo "Cliples da Web".

Fonte: http://googlediscovery.com/
Autor: Willian Max

Paulo Techno Blog