Miroir du Killi Club de France (KCF)
Avec le retour des beaux jours, je devrais bientôt recevoir des œufs de killi par la poste.
Le site du Killi Club de France va bientĂ´t migrer vers une nouvelle plate-forme (j’espère que l’essentiel du site restera sous SPIP et que seul le forum sera migrĂ© vers une autre solution web1).
Table des matières
Aspirer le site du Killi Club de France
Bref, comme le site du KCF est la meilleure source francophone concernant les killis et leur maintenance, j’ai dĂ©cidĂ© de l’aspirer afin d’avoir ma propre archive du KCF.
Au final, j’ai obtenu une archive de 57 Mo qui contient tous les articles et les fiches techniques du KCF, hĂ©bergĂ©e sur mon contrĂ´leur d’aquarium et consultable hors ligne.

Mes aquariums en réseau avec #RLIEH
Pour ceux qui dĂ©barquent sur hackquarium, je prĂ©cise que mes aquariums sont gĂ©rĂ©s façon domotique, par un contrĂ´leur maison2 —#RLIEH— qui pilote un rĂ©seau de satellites,3 qui gèrent les diffĂ©rents bacs : phases d’Ă©clairage, tempĂ©rature, capteurs, Ă©lectrovannes etc …
L’ensemble des commandes et des capteurs sont accessibles via API et le contrĂ´leur embarque son propre serveur web.
Le contrĂ´leur est motorisĂ© par un système GNU/Linux Raspbian, ce qui donne accès Ă tout un ensemble d’outils dont, un aspirateur de sites et un serveur web4
HTTrack, un logiciel libre
J’utilise le logiciel HTTrack sous GNU/Linux depuis plus de 20 ans, pour copier et mettre Ă jour des miroirs de sites Ă consulter hors ligne. C’est un logiciel libre et gratuit, utilisable en ligne de commande. WinHTTrack est Ă©galement disponible pour Windows, avec une interface formulaire-clic-clic .
Sa puissance est sans limite : vous pouvez limiter ou Ă©tendre un mirroir. Par exemple pour uniquement aspirer les images du site, ou bien aspirer Ă©galement tous les liens externes, jusqu’Ă x niveaux de profondeur.
HTTrack peut mĂŞme s’utiliser en mode furtif, en cachant sa signature derrière celle d’un navigateur classique, utilisĂ© par un humain.
Éthique et technique
La bonne pratique lors du mirroring d’un site volumineux est de ne pas tout aspirer pour ne pas surconsommer la bande passante du site. D’ailleurs, mal gĂ©rĂ©, c’est un risque Ă se faire bloquer son adresse IP.
Donc, je copie tout le site, sauf le forum. Ce qui revient Ă faire un miroir de https://www.killiclubdefrance.org, en excluant toutes les adresses qui commencent par https://www.killiclubdefrance.org/forum.
Un assistant interactif
Pour vous aider à paramétrer votre miroir, un assistant est également disponible en ligne de commande
$ httrack --mirror-wizard
Après quelques questions, l’assistant gĂ©nère la commande correspondante et vous pouvez lancer l’opĂ©ration de mirroring
---> Wizard command line: httrack https://www.killiclubdefrance.org/ -W -O "/home/user/www/kcf" -%v -https://www.killiclubdefrance.org/forum/*
Ready to launch the mirror? (Y/n) :y
Mirror launched on Wed, 17 Apr 2019 09:12:08 by HTTrack Website Copier/3.49-2 [XR&CO'2014]
mirroring https://www.killiclubdefrance.org/ -https://www.killiclubdefrance.org/forum/* with the wizard help..
Règles de filtrage pour le KCF
Lors des premiers tests, j’ai naĂŻvement voulu aspirer tout le site, Ă l’exclusion des urls dĂ©butant par https://www.killiclubdefrance.org/forum/
-https://www.killiclubdefrance.org/forum/*
Je me suis rendu compte que cela ne suffisait pas, et que à cause de la structure de certains liens, je me retrouvais à faire une copie récursive 5.
J’ai donc modifiĂ© ce filtre pour exclure toutes les urls contenant /forum
-*/forum*
Au final, j’ai obtenu une archive de 57Mo seulement, contenant l’ensemble des rubriques avec leurs articles, y compris les fameuses fiches techniques du KCF.
Le tout est hébergé directement sur mon contrôleur #RLIEH et disponible sur mon réseau.
Vers l’infini et au-delĂ (pour les nerds)
Git –everything-is-local
On peut combiner httrack avec git et son système de branches pour gĂ©rer plusieurs versions d’archive. Attention Ă la taille des dĂ©pĂ´ts.
- Killi Club et SPIP : le dĂ©veloppeur SPIP est au web ce que le killiphile est au hobby aquariophile : un expert Ă©clairĂ©. D’ailleurs, le site de l’Association Killiphile Francophone de Belgique (A.K.F.B) est lui aussi motorisĂ© par le logiciel libre SPIP
- Le contĂ´leur #RLIEH est motorisĂ© avec un Raspberry Pi et le système d’exploitation Raspbian customisĂ©
- Les satellites #RLIEH sont fondés sur des ESP et utilisent des firmwares maison
- Le serveur web est dĂ©jĂ utilisĂ© sur le contrĂ´leur #RLIEH pour suivre les variations d’environnement comne la tempĂ©rature
- en gros, je risquais d’obtenir une copie de taille dĂ©mesurĂ©e avec pleins de doublons Ă cause d’emboĂ®tements symĂ©triques des adresses de page.
2 réponses
[…] longtemps, c’est d’ailleurs l’un des Ă©lĂ©ments qui m’avait donnĂ© envie de rĂ©aliser un miroir du site du KCF, le nouveau site du Killi Club de France (KCF) semble très prometteur, et donne encore plus envie […]
[…] killiphile] Suite Ă l’intĂ©rĂŞt (plutĂ´t inattendu) de mon article miroir du Killi Club de France oĂą j’expliquais comment aspirer un site web, je partage aujourd’hui quelques astuces […]