Busca em DICAS
Busca na Internet
Cadernos de Informática
DICAS de MPB
DICAS do Charlab
DICAS do Editor
DICAS dos Leitores
DICAS por E-mail
Internet Kids
Notas na Imprensa
Internet Radios
Internet Shopping
Internet TV
Revistas de Informática
Software na Internet
Turismo Virtual


Os Oráculos da Internet - série de reportagens de Sérgio Charlab, sobre os instrumentos de busca da Internet, conforme publicado na sua coluna "Ciberespaço", do Jornal do Brasil, e que o mesmo, gentilmente, nos autorizou a reproduzir, em DICAS da Semana.

Os oráculos da Internet: Altavista (tutorial, parte 1)

Tantas são as informações existentes na Internet que seria quase impossível encontrar o que se procura sem a ajuda dos mecanismos de busca, espécies de oráculos digitais. Cada mecanismo de busca existente na Internet pode ser comparado aos antigos oráculos, divindades que respondiam a consultas e orientavam os crentes na Grécia, Egito e entre os hebreus, fenícios e babilônios.

Mas se os mecanismos de busca estão relacionados aos oráculos, então para mim o Altavista é uma espécie de Oráculo de Delfos (o mais popular de todos). Com menos de um ano de vida, o Altavista, criação gerada casualmente na Digital Equipment Corporation e oportunamente utilizada para fins de marketing, é certamente poderoso. Colocou na sombra, desde o primeiro dia, todos os seus competidores, anunciando uma capacidade fenomenal de acompanhamento do World Wide Web. Hoje, assegura ter um banco de dados com 30 milhões de páginas -- menos do que as 54 milhões alegadas pelo HotBot ou as 51 milhões alegadas pelo Lycos -- de mais de 275 mil servidores, além de 4 milhões de artigos Usenet retirados de 14 mil newsgroups. Recebe quase 200 acessos por segundo! Apesar do que diz o Lycos, o Altavista parece ser maior, mais rápido e mais versátil do que qualquer outro mecanismo de busca.

Outros surgiram depois dele, mas não creio que se possa, em qualquer lista de usuário, prescindir do Altavista pelo menos entre os três mais do ranking de mecanismos de busca.

O uso do Altavista é tão simples ou tão complexo quanto o desejo do usuá rio. Quanto mais genérica for sua busca, ainda que o Altavista se preocupe em apresentar os resultados em um "ranking" de incidências, menor a chance de você encontrar algo útil nas primeiras citações e referências apresentadas. Portanto, é preciso aprender a ser específico. E, felizmente, o Altavista permite refinar a busca até um nível que poucos imaginam. Minha expectativa é de que este texto sirva para você conhecer e aprender a usar estes refinamentos no dia-a-dia de suas navegações na rede. Outros mecanismos de busca, do conhecido "Yahoo!" ao brasileiríssimo "Yaih?" serão vistos nas próximas semanas desta série tutorial, "Os oráculos da Internet". Avise aos seus amigos para que não percam e escreva para mim no endereço charlab@charlab.com.br dando sua opinião sobre os tutoriais.

Na tela principal de acesso do Altavista (figura 1) vê-se em destaque um fino e longo retângulo com fundo branco. É ali o local para que o usuá rio insira sua "pergunta" ao oráculo digital. Basta uma única palavra seguida de "enter" ou de um clique no botão à direita, o retângulo em fundo cinza com a palavra "submit". O Altavista, movido por poderosos e rápidos servidores, vasculhará seu enorme banco de dados em busca de citações da palavra. Em questão de segundos, uma lista das dez primeiras citações será apresentada como resposta. A ordenação obedece um ranking de incidência da palavra-chave, do maior número para o menor.

Antes de iniciar sua busca, porém, você pode ainda tomar duas decisões. Se vai fazer um "Search the Web" ou um "Search Usenet" e se deseja os resultados apresentados em "Standard", "Compact" ou "Detailed" forma. A "Detailed" (detalhada) é igual a "Standard". A "Compact", naturalmente, é mais resumida. Na busca em newsgroups Usenet ocorre o oposto: a "Standard" é igual a "Compact". Para configurar isso basta clicar nas opções que aparecem imediatamente acima do retângulo em que você insere suas palavras-chaves. Faça várias experiências para fixar as circustâncias em que cada configuração lhe trará o melhor proveito.

Em vez de uma só palavra, o usuário pode experimentar duas ou mais delas. Se quiser ter certeza de que duas ou mais palavras apareceram tal qual digitado na busca, certifique-se de que usou sinal de aspas antes e depois do grupo de palavras. Exemplo: "Jornal do Brasil", traz como resultado (no momento em que escrevo) 2000 referências, sendo que a primeira é logo a que se procura, com a home-page do JB. Sem as aspas, o Altavista vai procurar pela incidência, separadamente ou não, das palavras "Jornal", "do" e "Brasil": Jornal:10879; Brasil:107493; do: 10609250.

Em vez de aspas, se preferir, você pode usar ponto e vírgula separando as palavras (Jornal;do;Brasil). Não se preocupe em usar maiúsculas ou minúsculas, porque neste exemplo o Altavista não faz distinção e buscará todas as palavras. Letras maiúsculas no meio de uma palavra forçam o Altavista a procurar uma palavra idêntica. Experimente buscar resultados com a palavra "Brasil" e depois com "BrAsil" (com o "A" maiúsculo) e você terá a medida da diferença.

É possível também indicar na busca palavras que se quer encontrar, mas outras que não se quer. Esta é a solução para o grande número de queixosos que vivem dizendo que não conseguem resultados úteis diante da avalanche de citações obtidas pelo Altavista. Eis um exemplo: +rio -"rio de janeiro". Ou seja, sinal de "+" entra; sinal de "-" fica de fora. No exemplo, excluindo o Rio de Janeiro fica mais fácil procurar citações da palavra "Rio". Existe um http://www.rio.com/ que nada tem a ver com o Rio de Janeiro.

Muito útil é o asterisco na terminação de uma palavra, como em jorna*, que serve para buscar citações de "jornal", "jornalismo", "jornalista" e assim por diante. O asterisco é uma verdadeira mão na roda quando você estiver em dúvida sobre a ortografia de uma palavra, porque pode também ser usado no meio. Exemplo: exce*ao. Mas cuidado com as respostas, porque se cair em Portugal, exceção ganha um "p" e vira "excepção"!

E como é que funciona o algoritmo usado pelo Altavista para fazer o ranking de respostas?

Dá maior peso se a palavra ou expressão buscada for encontrada entre as primeiras a aparecerem no documento, especialmente nos títulos. A distância entre as palavras também pesa favoravelmente caso seja pequena (quando as palavras estão próximas). A quantidade, naturalmente, também pesa muito. Conheço páginas em que os autores, procurando "enganar" as m áquinas dos mecanismos de busca que utilizam estas regras para ponderaç ões, escrevem, logo no alto, 200 vezes uma mesma palavra. Há toda uma técnica para "fazer sucesso" em mecanismos de busca. Considerando que a maioria dos navegantes hoje vai parar em alguma home-page a partior de uma busca, recomendo aos designers de Web que passem a dar tanta atenção a estas páginas de acesso via mecanismos Web quanto às próprias home-pages. Muitos designers planejam dedicadamente o caminho de acesso dos visitantes a partir da home-page e se supreendem de ver que a maioria entra por alguma "porta dos fundos". Com paciência, é possível descobrir como "enganar" as ponderações dos mecanismos de buscas para que sua página seja sempre apresentada entre as primeiras quando alguém utiliza determinadas palavras-chaves que lhe interessam.

Mais poder de busca pode ser obtido utilizando uma série de palavras especiais reconhecidas pelo Altavista para direcionar a procura. Eis algumas das palavras: anchor, applet, host, image, link, text, title, url. Em todos estes casos, a utilização é simples. Basta usar a palavra, seguida de dois pontos ":" e da expressão que se deseja localizar. Exemplos:

anchor:clique aqui -- localiza as aparições das palavras "clique aqui" dentro de um hyperlink, como em Clique aqui.
applet:count.class -- busca os Java applet class com este nome, e que provavelmente indicam a existência de um contador em Java. Veja em http://www.informatik.hu-berlin.de/~mhunger/.
host:jb.com.br -- busca domínios.
image:brasil.gif -- busca imagens pelo nome (e é ótima solução para pesquisa escolar dos seus filhos...).
link:http://www.jb.com.br/ -- busca referências a outras URLs e permite que você avalie a popularidade de uma home-page.
text:sexo -- busca páginas por uma palavra que apareça no texto
title:charlab -- busca páginas por uma palavra que apareça no título
url:charlab -- busca páginas com uma palavra que apareça na URL

* Sérgio Charlab (charlab@ax.apc.org) é editor-chefe de Seleções do Reader's Digest, colunista de "Ciberespaço" do Jornal do Brasil e autor dos livros "Você e a Internet no Brasil" e "O Seu Futuro Eletrônico".