Os Oráculos da Internet - série de reportagens de Sérgio Charlab, sobre os instrumentos de busca da Internet, conforme publicado na sua coluna "Ciberespaço", do Jornal do Brasil, e que o mesmo, gentilmente, nos autorizou a reproduzir, em DICAS da Semana.
Os oráculos da Internet: Altavista (tutorial, parte 1)
Tantas são as informações existentes na Internet que seria quase
impossível encontrar o que se procura sem a ajuda dos mecanismos de
busca, espécies de oráculos digitais. Cada mecanismo de busca existente
na Internet pode ser comparado aos antigos oráculos, divindades que
respondiam a consultas e orientavam os crentes na Grécia, Egito e entre
os hebreus, fenícios e babilônios.
Mas se os mecanismos de busca estão relacionados aos oráculos, então
para mim o Altavista é uma espécie de
Oráculo de Delfos (o mais popular de todos). Com menos de um ano de
vida, o Altavista, criação gerada casualmente na Digital Equipment
Corporation e oportunamente utilizada para fins de marketing, é
certamente poderoso. Colocou na sombra, desde o primeiro dia, todos os
seus competidores, anunciando uma capacidade fenomenal de acompanhamento
do World Wide Web. Hoje, assegura ter um banco de dados com 30 milhões
de páginas -- menos do que as 54 milhões alegadas pelo HotBot ou as 51 milhões alegadas pelo Lycos -- de mais de 275 mil servidores, além de 4
milhões de artigos Usenet retirados de 14 mil newsgroups. Recebe quase
200 acessos por segundo! Apesar do que diz o Lycos, o Altavista parece
ser maior, mais rápido e mais versátil do que qualquer outro mecanismo
de busca.
Outros surgiram depois dele, mas não creio que se possa, em qualquer
lista de usuário, prescindir do Altavista pelo menos entre os três mais
do ranking de mecanismos de busca.
O uso do Altavista é tão simples ou tão complexo quanto o desejo do usuá
rio. Quanto mais genérica for sua busca, ainda que o Altavista se
preocupe em apresentar os resultados em um "ranking" de incidências,
menor a chance de você encontrar algo útil nas primeiras citações e
referências apresentadas. Portanto, é preciso aprender a ser específico.
E, felizmente, o Altavista permite refinar a busca até um nível que
poucos imaginam. Minha expectativa é de que este texto sirva para você
conhecer e aprender a usar estes refinamentos no dia-a-dia de suas
navegações na rede. Outros mecanismos de busca, do conhecido "Yahoo!" ao
brasileiríssimo "Yaih?" serão vistos nas próximas semanas desta série
tutorial, "Os oráculos da Internet". Avise aos seus amigos para que não
percam e escreva para mim no endereço charlab@charlab.com.br dando sua
opinião sobre os tutoriais.
Na tela principal de acesso do Altavista (figura 1) vê-se em destaque um
fino e longo retângulo com fundo branco. É ali o local para que o usuá
rio insira sua "pergunta" ao oráculo digital. Basta uma única palavra
seguida de "enter" ou de um clique no botão à direita, o retângulo em
fundo cinza com a palavra "submit". O Altavista, movido por poderosos e
rápidos servidores, vasculhará seu enorme banco de dados em busca de
citações da palavra. Em questão de segundos, uma lista das dez primeiras
citações será apresentada como resposta. A ordenação obedece um ranking
de incidência da palavra-chave, do maior número para o menor.
Antes de iniciar sua busca, porém, você pode ainda tomar duas decisões.
Se vai fazer um "Search the Web" ou um "Search Usenet" e se deseja os
resultados apresentados em "Standard", "Compact" ou "Detailed" forma. A
"Detailed" (detalhada) é igual a "Standard". A "Compact", naturalmente,
é mais resumida. Na busca em newsgroups Usenet ocorre o oposto: a
"Standard" é igual a "Compact". Para configurar isso basta clicar nas opções que aparecem imediatamente acima do retângulo em que você insere
suas palavras-chaves. Faça várias experiências para fixar as
circustâncias em que cada configuração lhe trará o melhor proveito.
Em vez de uma só palavra, o usuário pode experimentar duas ou mais
delas. Se quiser ter certeza de que duas ou mais palavras apareceram tal
qual digitado na busca, certifique-se de que usou sinal de aspas antes e
depois do grupo de palavras. Exemplo: "Jornal do Brasil", traz como
resultado (no momento em que escrevo) 2000 referências, sendo que a
primeira é logo a que se procura, com a home-page do JB. Sem as aspas, o
Altavista vai procurar pela incidência, separadamente ou não, das
palavras "Jornal", "do" e "Brasil": Jornal:10879; Brasil:107493; do:
10609250.
Em vez de aspas, se preferir, você pode usar ponto e vírgula separando
as palavras (Jornal;do;Brasil). Não se preocupe em usar maiúsculas ou
minúsculas, porque neste exemplo o Altavista não faz distinção e buscará
todas as palavras. Letras maiúsculas no meio de uma palavra forçam o
Altavista a procurar uma palavra idêntica. Experimente buscar resultados
com a palavra "Brasil" e depois com "BrAsil" (com o "A" maiúsculo) e
você terá a medida da diferença.
É possível também indicar na busca palavras que se quer encontrar, mas
outras que não se quer. Esta é a solução para o grande número de
queixosos que vivem dizendo que não conseguem resultados úteis diante da
avalanche de citações obtidas pelo Altavista. Eis um exemplo:
+rio -"rio de janeiro". Ou seja, sinal de "+" entra; sinal de "-" fica
de fora. No exemplo, excluindo o Rio de Janeiro fica mais fácil procurar
citações da palavra "Rio". Existe um http://www.rio.com/ que nada tem a
ver com o Rio de Janeiro.
Muito útil é o asterisco na terminação de uma palavra, como em jorna*,
que serve para buscar citações de "jornal", "jornalismo", "jornalista" e
assim por diante. O asterisco é uma verdadeira mão na roda quando você
estiver em dúvida sobre a ortografia de uma palavra, porque pode também
ser usado no meio. Exemplo: exce*ao. Mas cuidado com as respostas,
porque se cair em Portugal, exceção ganha um "p" e vira "excepção"!
E como é que funciona o algoritmo usado pelo Altavista para fazer o
ranking de respostas?
Dá maior peso se a palavra ou expressão buscada for encontrada entre as
primeiras a aparecerem no documento, especialmente nos títulos. A
distância entre as palavras também pesa favoravelmente caso seja pequena
(quando as palavras estão próximas). A quantidade, naturalmente, também
pesa muito. Conheço páginas em que os autores, procurando "enganar" as m
áquinas dos mecanismos de busca que utilizam estas regras para ponderaç
ões, escrevem, logo no alto, 200 vezes uma mesma palavra. Há toda uma
técnica para "fazer sucesso" em mecanismos de busca. Considerando que a
maioria dos navegantes hoje vai parar em alguma home-page a partior de
uma busca, recomendo aos designers de Web que passem a dar tanta atenção
a estas páginas de acesso via mecanismos Web quanto às próprias
home-pages. Muitos designers planejam dedicadamente o caminho de acesso
dos visitantes a partir da home-page e se supreendem de ver que a
maioria entra por alguma "porta dos fundos". Com paciência, é possível
descobrir como "enganar" as ponderações dos mecanismos de buscas para
que sua página seja sempre apresentada entre as primeiras quando alguém
utiliza determinadas palavras-chaves que lhe interessam.
Mais poder de busca pode ser obtido utilizando uma série de palavras
especiais reconhecidas pelo Altavista para direcionar a procura. Eis
algumas das palavras: anchor, applet, host, image, link, text, title,
url. Em todos estes casos, a utilização é simples. Basta usar a palavra,
seguida de dois pontos ":" e da expressão que se deseja localizar.
Exemplos:
anchor:clique aqui -- localiza as aparições das palavras "clique aqui"
dentro de um hyperlink, como em Clique aqui.
applet:count.class -- busca os Java applet class com este nome, e que
provavelmente indicam a existência de um contador em Java. Veja em
http://www.informatik.hu-berlin.de/~mhunger/.
host:jb.com.br -- busca domínios.
image:brasil.gif -- busca imagens pelo nome (e é ótima solução para
pesquisa escolar dos seus filhos...).
link:http://www.jb.com.br/ -- busca referências a outras URLs e
permite que você avalie a popularidade de uma home-page.
text:sexo -- busca páginas por uma palavra que apareça no texto
title:charlab -- busca páginas por uma palavra que apareça no título
url:charlab -- busca páginas com uma palavra que apareça na URL
* Sérgio Charlab (charlab@ax.apc.org) é editor-chefe de Seleções do Reader's Digest, colunista de "Ciberespaço" do Jornal do Brasil e autor dos livros "Você e a Internet no Brasil" e "O Seu Futuro Eletrônico".