terça-feira, 22 de julho de 2008

Dica rápida (1) - baixar sites

Fala pessoal. Enquanto arrumo os preparativos para o primeiro artigo no novo formato, vai aí uma dica retirada do VOL (mais especifamente, daqui) e que me quebrou um galhão.

O problema: queria baixar todo o conteúdo de um site. (nada de pirataria, era para abaixar apostilas e tudo o mais de uma vez só, porque enche o saco ficar clicando e salvando um por um).

A solução: depois de experimentar vários plugins do Firefox, e coisa e coisa e tal, sem obter um resultado satisfatório, finalmente encontrei a solução. Supondo que você queira baixar todo o conteúdo do site http://www.algumsite.bar/, vá na linha de comando e digite:

$wget -cpr http://www.algumsite.bar/ -o logfile.log


Este comando irá baixar TUDO (conteúdo, folhas de estilo CSS, scripts, imagens, e vai seguir os links dentro do domínio, baixando tudo também). O parâmetro -o logfile.log irá gerar um arquivo chamado logfile.log, com toda a saída do comando, ou seja, uma lista com todas as páginas baixadas e o que eventualmente não deu certo. Para dar uma conferida geral nisso, recomendo que se rode na mesma linha de comando, logo após o download, você faça:

$grep 404 logfile.log


Para vc ter uma idéia de quantos arquivos não foram encontrados. Se houver algum erro, aí é melhor abrir o log com o gedit ou similar e usar o ctrl-f para localizar as ocorrências.

Enjoy.
-----------
keepReading

Nenhum comentário:

Postar um comentário