Os Oráculos da Internet - série de reportagens de Sérgio Charlab, sobre os instrumentos de busca da Internet, conforme publicado na sua coluna "Ciberespaço", do Jornal do Brasil, e que o mesmo, gentilmente, nos autorizou a reproduzir, em DICAS da Semana.
Os Oráculos Digitais: HotBot (Tutorial, parte 3)
O que é o que é? Azul piscina com verde abacate, enorme, e com um
buraquinho no meio para você, digamos, exercitar a interatividade?
É o HotBot, que anuncia o maior arquivo de
páginas Web existente, com 54 milhões de URLs arquivadas. Quando surgiu,
em maio de 1996, vinha com uma assinatura de peso: a da revista Wired!
Era o ingresso da Wired no mercado de mecanismos de busca (search
engines), que então já movimentava mais de uma dezena de empresas, todas
disputando atenção dos usuários e o dinheiro de anunciantes e
investidores de Wall Street.
Funciona com tecnologia do Inktomi e passou um
sufoco danado nas primeiras semanas de lançamento, quando um monte de
gente correu para usá-lo e o HotBot não deu conta do recado. Mas se
refez e hoje, de um modo geral, não parece ser mais lento do que o
Altavista, para citar apenas a usual referência de rapidez.
O HotBot, como qualquer mecanismo de busca, é simples de usar. No
pequeno menu acima do espaço para você colocar suas palavras-chaves ou
expressões, pode-se escolher antes a busca por todas as palavras ("all
the words"); qualquer uma das palavras ("any of the worlds"); pela
expressão ("the phrase"); pela pessoa ("the person") ou pela URL ("the
URL").
"Tiririca" usada como palavra-chave (você escreve a palavra "Tiririca"
no retângulo longo e estreito, de fundo branco, e aperta sua tecla
"enter" ou clica com o mouse no botão à direita com a figura do alvo,
onde está escrito "search") traz 57 citações no Hotbot (contra apenas 31
no Altavista). "Tiririca Florentina" traz 11 citações. E assim vai:
quanto mais precisa for sua busca (em número de palavras utilizadas),
mas focado será seu resultado.
Ainda mais específico do que duas palavras é uma expressão de duas
palavras. Se você procura informações sobre o conjunto "Iron Maiden" não
deve escrever as palavras "iron" e "maiden", mas sim a expressão "Iron
Maiden". A resposta não levará em conta a quantidade de vezes que, por
exemplo, a palavra "iron" aparece, mas sim a quantidade de vezes que
estas duas palavras aparecem tal qual você as escreveu, lado a lado e
com um espaço entre elas. Isso significa uma queda de 15.672 citações
para 8.738. (Naturalmente, o Iron Maiden é muito popular, mas vamos ver
logo adiante o que fazer num caso destes, diante de tão numeroso
resultado de uma busca.) No HotBot, a terminologia disso é "phrase" em
vez de "all the worlds". Prefira usar sempre "phrase" quando for
possível. O Altavista, já vimos, é menos amistoso, pois em vez de
oferecer a opção em menu (como o HotBot, que ainda oferece a notação
de aspas) apenas aceita o posicionamento dos sinais de aspas.
Coisas interessantes por trás da tecnologia do HotBot são a
identificação do browser do usuário, de modo que a página apresentada
seja adequada à capacidade de exibição do browser em sua respectiva
versão, e a possibilidade de exibir propaganda valendo-se desta
informação e também das palavras utilizadas na busca. Mas há muitas
promessas ainda. Não é capaz, por exemplo, de fazer uma busca por
proximidade de palavras, tal qual o Altavista.
Mesmo assim, o HotBot é muito mais do que um mecanismo de busca cor de
abacate. Você pode fazer buscas por tipo de arquivo, local geográfico,
domínio ou Web site. As coisas começam a acontecer quando você resolve
deixar de ser igual à média das pessoas e arrisca clicar a palavra
"modify", à esquerda, na área sob fundo azul. Trata-se da possibilidade
de adicionar ou retirar itens de busca. Com o menu "must", "should" e
"must not" você define o que deve entrar ou não. "Jornal do Brasil" como
expressão de busca e "Charlab" usado sob a configuração "must not" trará
como respostas as páginas do "JB" sem referências ao meu nome. "Must" e
"should" fazem a mesma coisa e a sutil diferença entre os dois é que o
segundo dá ênfase à palavra usada, mas mostra todas as respostas; o
primeiro só mostra as respostas que contenham a palavra usada naquele
campo.
Lembra das 8.738 citações do Iron Maiden? Vamos reduzi-las! Digamos que
você queira ver apenas as páginas que sejam frequentemente atualizadas.
Nesse caso, pode ser uma boa idéia usar o "must" com uma palavra
adicional, como "Blaze", nome do novo vocalista do Iron Maiden. A
resposta passa a ser 425 citações. Uma vitória diante das 8.738 ou das
originais 15.672. Digamos que você nem queira ver coisas que falem do
passado da banda. Então, clique mais uma vez no sinal de mais "+" ao
lado do botão "modify" e use o "must not" com a palavra "bruce"
(vocalista anterior e que passou o maior período de anos com a banda).
Resultado: 160. E se você quiser saber quais são as páginas mais
completas, que respeitam o presente e o mais remoto passado? Use três
"must": "blaze", "bruce" e "di'anno" (este último, o primeiríssimo
vocalista da banda). O resultado é de apenas 38, mostrando que a memória
anda curta.
Naturalmente você não precisa conhecer a história do Iron Maiden para
aprender a utilizar o HotBot! É um exemplo. No seu campo de interesse,
você poderá agir de forma semelhante. Os melhores resultados de uma
busca virão sempre a partir de uma boa dose de reflexão ("elementar, meu
caro Watson!").
Mas se você realmente quiser deixar de ser igual à média das pessoas,
clique no botão "expert", logo embaixo do "modify". Vá brincando por
ali. Semana que vem você confere, na continuação da série, as
informações que eu preparei descrevendo estas novas opções. Mas quer uma
dica (para usuários do Windows 95 apenas)? Busque pela palavra
"powertoys" e use a condição "Media Type", "Extensions" e escreva "exe".
Eu instalei aqui e gostei. Mas se você o fizer, é por sua conta e risco.
Esta foi a terceira parte da série sobre os mecanismos de busca e
indexadores da Internet. Quem perdeu uma das partes anteriores pode
pedir o texto digital enviando mensagem para este endereço especial:
charlab@charlab.com.br. Histórias verdadeiras, instrutivas ou
pitorescas, sobre o uso de mecanismos de busca são bem-vindas e devem
ser enviadas para meu endereço usual, charlab@ax.apc.org. As melhores
serão publicadas, com o crédito do autor. Também estou reunindo piadas
relacionadas com a Internet. Serão publicadas, com crédito de quem as
enviou, em alguma data entre hoje e o dia primeiro de abril. Inclusive.
* Sérgio Charlab (charlab@ax.apc.org) é editor-chefe de Seleções do Reader's Digest, colunista de "Ciberespaço" do Jornal do Brasil e autor dos livros "Você e a Internet no Brasil" e "O Seu Futuro Eletrônico".