Spider Scrap

Initiateur du projet : Baptiste MOREAU
Avatar initiateur
Avoir une plateforme capable d'aspirer des dizaines de milliers de pages sans être repéré par le site à aspirer. Dans le cadre du scrap nous avons besoin de mettre en cache des sites et leurs contenus pour pouvoir dans un second temps extraire les données souhaitées. L'utilisation de wget ne nous permet pas d'aspirer toutes les pages sans être repéré et banni par le site en question. Il faudrait pouvoir lancer des requêtes en parallèle, depuis différentes IP, en observant la charge des temps de réponses et la charge supplémentaire imposée au site "scrappé" pour ajuster en fonction la vitesse et le nombre de robots en charge d'aspirer les pages.
Une plateforme sur laquelle nous pouvons envoyer un jeu d'adresses et/ou des règles d'urls à scrapper; et qui nous retourne des fichiers et/ou buckets contenant les pages aspirées
Fichiers liés
Intitulé
Opérateurs
Matin
Après-midi
Nuit
Matin
Après-midi
Nuit
Marketing
AM.
PM.
Nuit
Ven.
0
0
0
Sam.
1
1
0
Je m'inscris
Ven.
 
 
 
Sam.
 
Ingénierie financière
AM.
PM.
Nuit
Ven.
0
0
0
Sam.
1
1
0
Je m'inscris
Ven.
 
 
 
Sam.
 
Développeur BackEnd
AM.
PM.
Nuit
Ven.
3
3
3
Sam.
3
3
3
Je m'inscris
Ven.
Sam.
Administrateur système
AM.
PM.
Nuit
Ven.
1
1
1
Sam.
1
1
1
Je m'inscris
Ven.
Sam.
UX
AM.
PM.
Nuit
Ven.
0
0
0
Sam.
0
1
0
Je m'inscris
Ven.
 
 
 
Sam.
 
 
Juridique
AM.
PM.
Nuit
Ven.
1
1
0
Sam.
0
1
0
Je m'inscris
Ven.
 
Sam.
 
 
Développeur Front
AM.
PM.
Nuit
Ven.
1
1
1
Sam.
1
1
1
Je m'inscris
Ven.
Sam.
Designer
AM.
PM.
Nuit
Ven.
0
0
1
Sam.
1
0
0
Je m'inscris
Ven.
 
 
Sam.