Os Oráculos da Internet - série de reportagens de Sérgio Charlab, sobre os instrumentos de busca da Internet, conforme publicado na sua coluna "Ciberespaço", do Jornal do Brasil, e que o mesmo, gentilmente, nos autorizou a reproduzir, em DICAS da Semana.
Os Oráculos Digitais: WebCrawler (Tutorial, parte 15)
O WebCrawler é veterano na área. Tem hoje
como slogan a frase "Search before you surf" (procure antes de navegar)
que é conselho que venho repetindo há 15 semanas. Virou "oráculo" ainda
em 1994, a partir de um trabalho de pesquisa de Brian Pinkerton, da
Universidade de Washington, que o transformou no primeiro mecanismo de
busca por texto completo de páginas Web. Pessoalmente, nunca fui grande
fã do WebCrawler. Por uma ou outra razão, havia sempre outro "oráculo"
que me parecia melhor, mais rápido ou mais atraente.
Pelo visto, minha indiferença diante do WebCrawler não o prejudicou.
Depois de amargar problemas como próprio sucesso, foi adquirido, em
1995, pela gigante America Online, que injetou os recursos necessários
para torná-lo competitivo em meio à avalanche de "oráculos" que surgiam
a cada mês. Pesquisa da PC-Meter,
em setembro, colocou o Web Crawler como o segundo site Web de maior
tráfego, com 29,2% do total, graças, claro, ao fato de ele fazer parte
da America Online. Na verdade, não faz mais, tecnicamente falando. O
Excite (que já foi visto aqui neste tutorial) adquiriu o WebCrawler mês
passado em meio a negócios e uma aliança estratégica com a América
Online, que detém cerca de 20% do controle do próprio Excite.
O WebCrawler vai me dar licença um instante para que eu volte a falar do
"milagre brasileiro". Está em http://www.openlink.com.br/art/ e chama-se
"Assistente Remoto de Tradução Openlink" - que vamos chamar aqui,
carinhosamente, de ARTO. Falei nele em Ciberespaço há alguns meses, mas
volto ao tema porque a demanda por este pequeno milagre é incessante. O
ARTO traduz, num click de mouse, frases de inglês para português. Só
funciona em Windows95 e com acesso através da rede Dial-Up. É preciso
estar conectado na Internet para usá-lo, mas o texto original em inglês
não precisa estar numa home-page; pode estar no seu editor de textos.
Compreendendo o funcionamento dos "Oráculos Digitais" e com o ARTO numa
janela flutuante, pronto para traduzir as frases em inglês que
eventualmente fazem com que você emperre em algum canto, você vira o
mestre da Internet. Veja como o ARTO se sai com a primeira frase do
relato sobre a história do WebCrawler.
Original em inglês
(http://webcrawler.com/WebCrawler/Facts/WCStory.html): "The WebCrawler's
history is a story about how the rapid rise of the Internet transformed
a University of Washington research project into a successful commercial
product."
Tradução do ARTO (sem correção): "A história do WebCrawler é um relato
sobre como o crescimento rápido do Internet transformou uma Universidade
de projeto de pesquisa de Washington num sucedido bem produto
comercial."
Que tal? Bem razoável, não?
Com uma interface simples, o WebCrawler é amistoso com o usuário. Como
sempre, você escolhe uma ou mais palavras-chaves, digitando-as na
ranhura e clicando no botão "search". Suas opções nesta busca são também
simples: pode-se optar pela procura por "titles" ou "sumaries" (prefira
o segundo, mais completo, embora o primeiro seja significativamente mais
rápido) e telas de resposta com 10, 25 ou 100 itens. A exemplo de outros
"oráculos", o WebCrawler hoje apresenta também uma seleção de 18
categorias de Web sites com sugestões de qualidade acompanhadas de uma
pequena resenha.
No alto da página, o logo do WebCrawler está sempre acompanhado de cinco
botões. O primeiro (search) é o da própria home-page. O botão "browse"
apresenta as 18 categorias de sites selecionados. O botão "special"
oferece meia dúzia de links interessantes e divertidos. O primeiro deles
é um link randômico, o WebRoulette, que apresenta 10 URLs quaisquer para
quem gosta de aventuras e, em vez de navegar, prefere ficar à deriva,
deixando-se levar pelos ventos e a maré. Outros links permitem a criação
de um botão que você pode colocar na sua própria página já com uma busca
programada; o acompanhamento, através de um dispositivo em Java, das
palavras-chaves que os usuários estão usando para pesquisas no
WebCrawler (não se preocupe, pois é impossível saber quem pesquisou o
quê); e dados estatísticos do Web pesquisado pelo WebCrawler (83% do Web
ainda está sob sistemas Unix!). Além disso, uma busca reversa no Web
permite saber o número de referências feitas a uma determinada página e
quais são os sites mais referenciados de toda a Internet:
1. Download Netscape Software (35,979)
2. Yahoo (33,758)
3. WebCrawler Searching (25,717)
4. Welcome to Netscape (20,884)
5. WebCounter Home Page (19,857)
6. The Blue Ribbon Campaign for Online Free Speech (16,395)
7. Starting Point (11,978)
8. Microsoft Corporation (10,342)
9. Lycos, Inc. Home Page (9,875)
10. Infoseek Guide (9,053)
11. Internet Audit Bureau (8,140)
12. Welcome to Pizza Hut (8,065)
13. Alta Vista: Main Page (6,161)
14. Point: It's What You're Searching For (5,977)
15. ESPNET SportsZone (5,192)
16. CNN Interactive (5,067)
17. Apple Computer (5,038)
18. Welcome To The White House (4,950)
19. Macmillan Computer Publishing (4,894)
20. IBM Corporation (4,847)
Voltando aos botões, "add URL" permite que você adicione sua URL ou
outras ao WebCrawler e o último botão é o de "help", que você agora já
pode destrinchar, em companhia do ARTO, mesmo que não seja "fera" no
inglês.
Interface simples no caso do WebCrawler é opção (que eu aplaudo) e não
"falta de opção". Ninguém precisa ser mestre em boleanos (se você não
sabe ainda o que são boleanos não deixe de pedir por e-mail as partes
deste tutorial que você perdeu). Para quem já sabe o que é, basta
experimentar as combinações de palavras-chaves com os boleanos "AND"
(default), "OR" ou "NOT". O "NEAR" pode ser usado para buscar duas
palavras que devam aparecer distantes por não mais de 25 palavras.
Exemplo da sintaxe: "tradução NEAR/25 openlink". Sem a especificação do
número, o WebCrawler vai procurar palavras que aparecem lado a lado, em
qualquer ordem. Se quiser procurar palavras adjacentes numa determinada
ordem use "ADJ". Use parênteses para organizar buscas mais complexas de
boleanos. Aspas podem ser usadas para caracterizar "frases" de busca,
sequência de duas ou mais palavras que são procuradas de forma idêntica
pelo WebCrawler.
Os resultados da sua busca nao melhoram com o uso desta sintaxe. O que
ocorre é um refinamento das respostas, reduzindo a quantidade e
facilitando a identificação das melhores. São boas opções, mas ainda
assim podem ser consideradas pobres diante de outros mecanismos de busca
vistos ao longo deste tutorial.
O WebCrawler utiliza os famosos "cookies" para guardar as suas
preferências de busca (http://webcrawler.com/cgi-bin/prefs.cgi).
"Cookies" poderia ser assunto para uma coluna inteira, mas por ora
parece ser sufuciente entender para que servem: fornecem alguma
informação sobre o visitante para o servidor da página visitada. No caso
do WebCrawler, os "cookies" garantirão que suas preferências de busca se
mantenham. Em outros sites, é usado para guardar sua senha e password de
acesso, caso do Universo Online. Não é tão
assustador quanto parece, mas talvez você queira ler mais em
http://webcrawler.com/WebCrawler/Help/Cookies.html. Não se queixe de que
está tudo em inglês; use o ARTO!
Esta foi a décima quinta parte da série que apresenta os mecanismos de
busca e indexadores da Internet. No ranking de apostas sobre em que
parte a série chega ao seu final, está na frente a "parte 17", que
coincide com o último dia do ano. Os que chegaram agora ou perderam
partes anteriores podem pedir os textos da série enviando mensagem para
este meu outro endereço: charlab@charlab.com.br. Já escrevi sobre o
Altavista, Hotbot, Lycos, Infoseek, Bookmarks, Excite, NlightN e Yahoo!
Começo a receber cada vez mais e mais mensagens estimulantes sobre a
iniciativa da série, de gente que, como eu, compreendeu que dominar o
uso das técnicas de busca nestes "oráculos digitais" é a melhor
estratégia para quem quiser sentir-se à vontade com a Internet.
* Sérgio Charlab (charlab@ax.apc.org) é editor-chefe de Seleções do Reader's Digest, colunista de "Ciberespaço" do Jornal do Brasil e autor dos livros "Você e a Internet no Brasil" e "O Seu Futuro Eletrônico".