Scripts para gerar base de dados sobre os ônibus do Recife

Durante as férias, tive a ideia de fazer um site que ajudasse as pessoas a escolher que ônibus pegar para ir de um ponto a outro da cidade.

Minha inspiração foi no extinto www.onibusrecife.com.br desenvolvido pela Inove Informática. Era um site muito útil, diria até essencial, mas por problemas técnicos (?) foi tirado do ar. Inicialmente, iria utilizar minha aplicação no meu próprio computador, para fins pessoais mesmo, e se desse certo, disponibilizaria no estilo SaaS. Seria muito mais simples que o onibusrecife, mas com o mínimo de funcionalidade que faltava no site da Grande Recife, que possuía todos os dados, mas não fornecia um serviço deste tipo.

O primeiro passo foi extrair os dados dos itinerários de cada linha, contidos na página da Grande Recife. Lá não há nenhuma API ou facilidade que permita conseguir estas informações, então o jeito foi baixar todas as páginas HTML e fazer uma série de filtros com expressões regulares, para extrair apenas o desejado.

Além dos scripts de download e extração de dados, também fiz os que transformam os dados em queries SQL. Assim, no final do processo, você tem seu BD pronto com os dados que precisa.

Já que tudo foi colocado em scripts Bash, é possível automatizar todo o processo. Não sei como está hoje a formatação das páginas do Grande Recife. Provavelmente não mudaram nada de dois meses para cá. De qualquer forma, faz dois meses que parei esse projeto e decidi disponibilizar todos os scripts. Espero que seja útil para alguém.


Eu sei que falta algum README para explicar melhor como usar os scripts, mas por enquanto não fiz. Seria interessante algum conhecimento em expressões regulares e programas de filtros de texto padrão de sistemas GNU/Linux, como o sedsortgrep join. Dessa forma, você será capaz de corrigir erros que possam surgir.

Ah, esses códigos não têm nenhum tipo de licença. Pode usar como bem entender.
Atualização em 08 de Dezembro de 2012:
Na verdade, quando não está definido explicitamente qual a licença de um código fonte ou software, o default é que ele é proprietário. Ou seja, eu teria os direitos exclusivos de autor relacionados a cópias e redistribuição. O ideal é que eu colocasse junto ao código uma declaração de alguma licença de software livre, como a LGPL da FSF, só que ainda acho a LGPL não tão livre assim. Mas esse assunto pode ficar para outro post.

Nenhum comentário on "Scripts para gerar base de dados sobre os ônibus do Recife"

Leave a Reply