Uma API REST para realizar crawling de páginas web, desenvolvida em Java utilizando o framework Spark. Este projeto permite extrair e processar informações de sites de forma eficiente e escalável.
- 🔍 Crawling de páginas web: Extrai informações de todas os sublinks de uma página especificada, permanecendo no mesmo domínio.
- 🌐 API RESTful: Endpoints para iniciar e gerenciar processos de crawling.
Certifique-se de ter os seguintes softwares instalados no seu ambiente:
- Java 22+
- Maven 3.6+
- Git
Além disso, certifique-se de definir a variável de ambiente BASE_URL para informar ao programa qual site será usado como base.
-
Clone o repositório:
git clone https://github.com/hentzrafael/siri.git cd siri -
Compile o projeto:
mvn clean install
-
Inicie a aplicação:
java -jar target/siri-1.0-SNAPSHOT.jar
-
Acesse a API:
A aplicação será iniciada no endereçohttp://localhost:4567.
Verifica o status de um webcrawl com o id especificado.
Resposta:
{
"id": "<id>",
"status": "active",
"urls":[
"http://example.com",
]
}Inicia um processo de crawling com base na keyword enviada.
Parâmetros:
keyword(string) - Keyword a ser processada.
Exemplo de requisição:
{
"keyword": "example"
}Resposta:
{
"id": "abcd1234"
}Execute os testes unitários com o comando:
mvn testEste projeto é licenciado sob a licença MIT.
Contribuições são bem-vindas! Siga as etapas abaixo:
- Faça um fork do projeto.
- Crie uma branch para sua feature:
git checkout -b minha-feature. - Realize suas alterações e faça commit:
git commit -m 'Adiciona minha feature'. - Envie suas alterações:
git push origin minha-feature. - Abra um Pull Request.
Se tiver dúvidas ou sugestões, entre em contato:
- Email: [email protected]
- LinkedIn: hentzrafael