TOPXX YouTube, comment tu fais ?
Mes classements automatisĂ©s des chaĂ®nes YouTube aquariophiles semblent avoir intriguĂ© et mĂŞme inquiĂ©tĂ© certains internautes. Plusieurs personnes m’ont demandĂ© comment je faisais, et quelques un·e·s m’ont gentiment mis en garde sur l’illĂ©galitĂ© du piratage de donnĂ©es et ses dangers !
Merci pour vos réactions et vos partage de ces articles, notamment le TOP10 fr

Table des matières
Mr Hackquarium, hacker, pirate ou data scientist ?
Je commence par vous rassurer sur l’aspect lĂ©gal du truc et vous explique juste après comment ça marche.
Merci tout-le-monde !
Ces 1ers retours sur les articles TOP 50 fishtube international et TOP10 fishtube français1 m’ont fait hyper plaisir : ça a créé une complicitĂ© avec d’autres internautes qui suivent les mĂŞmes chaĂ®nes, j’ai aussi reçu quelques fĂ©licitations de connaisseurs et surtout beaucoup de curiositĂ© du genre, « mais comment tu fais ça ? ».
Ça m’a aussi fait chaud au cĹ“ur de voir que certain·e·s s’inquiĂ©taient pour moi et Ă©taient prĂŞt Ă perdre un peu de leur temps pour sauver un inconnu, pirate inconscient. MĂŞme si ça m’a fait un peu drĂ´le de devoir justifier Mr Hackquarium via des mp sur des rĂ©seaux sociaux comme Instagram, Facebook ou Twitter.
Mais tu es sûr que tu as le droit de le faire ?
Pour un #hacker, c'est un peu comme si, alors que tu es cuisinier, ton voisin de table —dans un fast-food— te met discrètement en garde et te prévient que manger chez toi ou préparer un repas est illégal ! Cliquez pour tweeterLicéité 2 des TOP YouTube par Mr Hackquarium
Je vous rassure tout de suite, ces classements automatisĂ©s, tout comme l’ensemble du blog et des activitĂ©s de Mr Hackquarium sont 100% conformes Ă la loi et aux conditions d’utilisation de leurs services imposĂ©s par des Ă©diteurs commerciaux comme Google.
Données publiques
J’utilise simplement des donnĂ©es rendues publiques avec le consentement de leurs auteurs/autrices et accessibles Ă tout le monde.
Vous pouvez vous-même récupérer ces informations.
- Par exemple en cliquant sur l’onglet Ă€ propos d’une chaĂ®ne, vous obtenez quelques donnĂ©es importantes Ă son sujet ;
- En regardant juste le titre d’une chaĂ®ne ou d’une vidĂ©o vous dĂ©terminez sa langue.
Dans mon cas, j’ai juste créé un robot qui fait tout ça pour moi.
Respect des conditions d’utilisation Google YouTube pour les dĂ©veloppeurs
Il existe plusieurs façons de rĂ©cupĂ©rer des donnĂ©es sur internet : l’une des plus simple, et la plus discrète, est le dĂ©veloppement d’un crawler : il s’agit d’un bot qui visite un site web et en extrait des donnĂ©es, en mimant un comportement humain. On dispose aujourd’hui de nombreux outils qui rendent cette tâche assez simple.
Les conditions d’utilisation de YouTube interdisent ce genre pratiques : Google fourni des API3 pour l’ensemble de ses services, dont YouTube. J’utilise ces APIs et en respecte l’ensemble du cadre. D’ailleurs, l’une des gageure technique a justement Ă©tĂ© de rĂ©ussir Ă rĂ©cupĂ©rer en une seule fois toutes les donnĂ©es nĂ©cessaires4 Ă l’application des algorithmes de classement tout en respectant les quotas de consommation de donnĂ©es imposĂ©s par le service.
Sauf mention contraire, tous les articles diffusés sur le blog Mr @hackquarium sont disponibles sous licence #CreativeCommons CC BY-SA 4.0 pour vous permettre de les partager ou les modifier Cliquez pour tweeterLicence du blog de Mr Hackquarium

Sauf mention contraire, tous les articles diffusés sur le blog Mr Hackquarium sont disponibles sous licence creative commons CC BY-SA 4.0 qui vous permet de les partager ou les modifier.
N’hĂ©sitez pas Ă me contacter Ă ce sujet.
Comment tu fais ?
Les ingrédients
- APIs Google ;
- outils libres et open-source : langage Python, éditeur de code Atom, blog WordPress.
La préparation

Récupération des données
- J’utilise l’API YouTube pour rĂ©cupĂ©rer la liste de mes abonnements et pour chacune des chaĂ®nes, leurs statistiques et informations publiques ;
- J’utilise une implĂ©mentation en python de l’outil de dĂ©tection de langue de Google5.
Classement
Pour avoir quelque chose de plus fin que les stats Social Blade, j’ai créé mon propre algorithme de classement fondĂ© sur l’activitĂ© et la popularitĂ© de la chaĂ®ne. Je me suis inspirĂ© des mĂ©thodes utilisĂ©es par les moteurs de recherche, pour essayer de mettre sur un mĂŞme plan les chaĂ®nes quelle que soit leur anciennetĂ©.
Évaluation
Je suis plutôt satisfait du résultat6.
Typiquement sur le TOP50 international de septembre, Dexter’s World Channel7 a dĂ©passĂ© The King Of DIY8 : cela correspond exactement Ă mon usage actuel de ces chaĂ®nes, je regarde beaucoup moins Joey qu’avant alors que je ne rate aucune vidĂ©o de Dexter !
Publication
Les 2 classements, le TOP50 international et le TOP10 francophones, sont exportés en HTML, dans un tableau interactif, prêts à être intégré sur le blog Mr Hackquarium.
Archivage
Les données récupérées ainsi que les résultats de calculs intermédiaires sont enregistrés dans une base de données pour permettre leur utilisation ultérieure et dans un tableur pour les visualiser et manipuler simplement.
Les TOP10 et TOP50 YouTube aquariophiles de Mr @hackquarium ont intrigué et même inquiété certains internautes. Plusieurs personnes m'ont demandé comment je faisais, et quelques un·e·s m'ont gentiment mis en garde sur les dangers du piratage ! Cliquez pour tweeter@ suivre
🖖🤓
- francophone
- La licĂ©itĂ© signifie le respect de la Loi dans son ensemble (lois, rĂ©glements, constitution …) tandis que la lĂ©galitĂ© dĂ©signe seulement la conformitĂ© Ă la loi (ex: code pĂ©nal, code civil … rĂ©glement
- Une API —Application Programming Interface— est une interface destinée à permettre à des applications de communiquer entre elles
- C’est important de s’assurer de la concomitance de rĂ©cupĂ©ration des donnĂ©es pour Ă©viter d’introduire un biais dans les calculs de comparaison, juste pour une question de diffĂ©rence d’âge des donnĂ©es de quelques jours ou quelques heures.
- Le classement international de septembre prĂ©sente uniquement des chaĂ®nes anglophones et francophones, mais je suis Ă©galement abonnĂ© Ă des chaĂ®nes dans d’autres langues. Leur classement ne leur permet pas encore d’apparaĂ®tre dans le TOP50.
- je pense déjà à des évolutions de cet algorithme de classement
- chaîne créée le 13 décembre 2016 avec 405.333 abonnés
- chaîne créée le 17 mai 2008 avec 1.267.770 abonnés
Super, clair et concis, je ne découvre que maintenant, le site.
Big foss
^^