Une fuite massive de code Yandex révèle les facteurs de…

Rédactrice passionnée depuis plus de de 15 ans. Sara vous trouve les dernières infos

&#xD ;

Environ 45 Go de fichiers de code, prétendument volés par un ancien employé, ont révélé la profondeur des nombreuses applications et services du géant technologique russe Yandex. Ils ont également révélé des fonctionnalités importantes du moteur de recherche de Yandex, dont les goûts n’ont jamais été montrés au public.

« Yandex git sources » a été publié sous forme de fichier torrent le 25 janvier et montre des fichiers qui ont apparemment été téléchargés en juillet 2022 et à partir de février 2022. L’ingénieur logiciel Arseniy Shestakov dit qu’il a vérifié auprès des employés actuels et des anciens élèves de Yandex que certains référentiels « ont vraiment -contenu à jour. » code source pour le travail de l’entreprise ».

La société technologique russe Yandex a présenté des excuses après la découverte d’un type de conflit dans le code divulgué, affirmant qu’il n’y avait pas eu de violation de données. Plusieurs références au racisme, dont le « N-word », ont été trouvées dans le code de conduite de l’entreprise la semaine dernière.

Un référentiel de code source Yandex prétendument piraté par un ancien employé d’une entreprise technologique russe a été divulgué sur un forum de piratage populaire. La personne à l’origine de la fuite a envoyé un lien magnétique qu’il dit « Yandex git sources » comprend 44,7 Go de fichiers volés à l’entreprise en juillet 2022. Ces référentiels de code contiendraient tout le code source de l’entreprise en plus des contrôles antispam .

&#xD ;

L’ingénieur logiciel Arseniy Shestakov a examiné le référentiel Yandex Git divulgué et a déclaré qu’il contient des données techniques et du code sur les produits suivants :

&#xD ;

Shestakov a également partagé une liste de répertoires de fichiers publiés sur GitHub pour ceux qui veulent voir quel code a été volé.

« Il existe quelques clés API, mais elles ne peuvent être utilisées que pour tester le déploiement », a déclaré Shestakov à propos des données divulguées.

Dans un communiqué, Yandex a déclaré que ses systèmes n’avaient pas été piratés et qu’un ancien employé avait publié le référentiel de code source :

Posté par Yandex

&#xD ;

Yandex n’est pas piraté. Notre service de sécurité a trouvé des fragments de code du référentiel interne dans le domaine public, mais le contenu diffère de la version actuelle du référentiel utilisé dans les services Yandex.

Un dépôt est un outil pour stocker et travailler avec du code. Le code est ainsi utilisé par de nombreuses entreprises.

Les référentiels sont nécessaires pour travailler avec du code et ne sont pas destinés à stocker des données utilisateur. Nous menons une enquête interne sur les raisons de la divulgation des fragments de code, mais nous ne voyons aucune menace pour les données des utilisateurs ou les performances de la plateforme.

Les records les plus élevés datent de février 2022, lorsque la Russie a lancé une invasion à grande échelle de l’Ukraine. Un ancien chef de Yandex a déclaré que la chute était « politique » et a noté que l’ancien employé n’avait pas essayé de vendre le code aux concurrents de Yandex. Le code anti-spam n’est pas rendu public.

Bien qu’il ne soit pas clair s’il existe une sécurité ou des fonctionnalités du code source de Yandex, la fuite de 1 922 conditions dans l’algorithme de recherche de Yandex fait certainement des vagues. Le consultant en référencement Martin MacDonald a décrit le lancement de Twitter comme « probablement la chose la plus excitante qui se soit produite dans le domaine du référencement depuis des années ». Dans un fil qui explique certaines des choses les plus importantes, l’analyste Alex Buraks souligne qu' »il existe également de nombreuses informations utiles pour le référencement Google ».

Vous avez peut-être entendu parler de Yandex, le 4e plus grand moteur de recherche par marché au monde. Hier, le code source propriétaire de Yandex a été publié.

La partie la plus intéressante de la communauté SEO est : la liste de tous les 1922 facteurs de classement utilisés dans l’algorithme de recherche

À Lire  Avec de nouvelles tactiques, l'Ukraine pourrait mettre fin à l'occupation russe de la mer Noire

[THREAD] pic.twitter.com/6x82AAmbON

Yandex, le quatrième moteur de recherche en volume, emploierait plusieurs anciens employés de Google. Yandex suit de nombreux facteurs de classement de Google, connus dans son code, et concurrence fortement Google. La division russe de Google a récemment déposé son bilan après avoir perdu des comptes bancaires et des services de paiement. Buraks note que le premier élément de la liste des facteurs de classement de Yandex est « PAGE_RANK », qui est apparemment lié à l’algorithme spécial développé par les partenaires de Google.

Comme l’explique Buraks (dans deux fils), le moteur Yandex aime ses pages :

&#xD ;

Vous pouvez effectuer une recherche en cliquant sur tous les articles de l’outil de recherche de la collection Rob Ousbey (au bas de la page). Vous pouvez voir que des milliers de propriétés ont la balise « TG_DEPRECATED » et plus de 200 sont répertoriées comme « TG_UNUSED ». Étant donné que le code est né en février 2022 et est entré en juillet 2022, la recherche Yandex a changé depuis lors. Mais la fuite donne un aperçu rare de la configuration des moteurs de recherche sur un site qui dessert l’un des plus grands pays du monde.

Yandex a même vu son code de moteur de recherche disparaître en 2015, lorsqu’un ancien employé a tenté de le revendre au marché noir pour 28 000 $ afin de financer sa startup. Le nombre étonnamment bas du code principal du produit principal de Yandex a montré qu’il ne connaissait pas sa valeur réelle. L’employé a été condamné à deux ans de prison avec sursis et le code n’a jamais été vu publiquement.

Le code source est plein de langage raciste

La société de technologie russe Yandex a présenté des excuses après la découverte d’insultes raciales dans un code source divulgué. Plusieurs références au profilage racial ont été trouvées dans le code de l’entreprise.

Le chercheur a d’abord révélé l’utilisation de mots offensants dans une série de messages sur Twitter le 26 janvier, suscitant de nombreuses critiques.

Dans un communiqué, Yandex a déclaré que la première enquête a montré que le code divulgué « semble être d’anciens morceaux différents de la dernière version du référentiel de l’entreprise ». La société a ajouté que le code divulgué « n’affecterait jamais aucun des services de la société ».

« Nous regrettons profondément que ces mots soient apparus dans nos codes internes », a déclaré Yandex. « C’est inacceptable et une violation claire de l’éthique de notre entreprise. » « Nous menons actuellement une enquête interne pour mieux comprendre comment cela s’est produit, et nous prendrons les mesures appropriées, notamment en veillant à ce que cela ne se reproduise plus. »

Des insultes raciales ont été éparpillées dans la base de code Git divulguée de Yandex. Ils sont utilisés dans les noms de travail et de variable, les messages imprimés et d’autres emplacements dans les fichiers de configuration.

Les développeurs utilisent souvent des mots ou des noms spécifiques pour aider les autres développeurs à comprendre quelle fonction ou action est effectuée par une ligne de code particulière.

L’utilisation de termes faciles à lire est une pratique courante qui permet de réduire le temps nécessaire aux ingénieurs pour changer ou modifier le code.

Dans ce cas, les développeurs de Yandex semblent avoir remplacé l’ancien mot d’action par un langage offensant.

La raison pour laquelle ces mots ont été inclus n’est pas claire. Cependant, l’utilisation d’un langage offensant dans le code est une violation à la fois des meilleures pratiques et, comme l’a déclaré Yandex dans sa déclaration, du code d’éthique.

Yandex n’a pas fourni d’autres informations sur les raisons pour lesquelles le « mot N » a été utilisé dans l’incident, mais les observateurs ont noté qu’il était également utilisé pour remplacer les « employés » dans différentes catégories.

À Lire  Ukraine : six mois de guerre en images

Si Yandex admet l’utilisation d’un langage offensant dans son code, il rappelle la lutte qui a eu lieu sur Internet pour corriger un certain nombre de mots fréquemment utilisés en informatique. Pris dans son contexte, le langage n’était généralement pas considéré comme offensant, ce qui lui a permis de persister longtemps. Cependant, suite à la mort tragique de George Floyd en 2020, une onde de choc appelant au changement a atteint le domaine informatique.

Par exemple, l’agence britannique de cybersécurité a estimé que les termes « liste blanche » et « liste noire » évoquaient des stéréotypes raciaux et a décidé de les interdire et d’en inclure d’autres, notamment :

« Il est courant de dire liste blanche et liste noire pour décrire ce qui est nécessaire et ce qui n’est pas nécessaire en matière de cybersécurité », explique le National Cyber ​​​​​​Security Center (NCSC). « Cependant, il y a un problème avec les mots. Cela n’a de sens que si vous comparez le blanc avec « bon, permis, sûr » et le noir avec « mauvais, dangereux, interdit ». Cela pose des problèmes évidents. Cependant, au nom de la lutte contre le racisme dans le domaine de la cybersécurité, nous empêcherons ces mots offensants et offensants de notre site Web à l’avenir. Non, ce n’est pas le plus gros problème au monde ; mais pour emprunter un slogan ailleurs : un peu est important, vous ne voyez peut-être pas pourquoi c’est important. Si vous n’êtes pas affecté par les stéréotypes raciaux, considérez-vous chanceux. Pour certains collègues (et futurs collègues potentiels) cependant, c’est un changement important », ajoute-t-il. Au lieu de cela, le NCSC utilise les termes « approuver la liste » et « rejeter la liste », qui sont clairs, ambigus et surtout inclusifs.

Comme autre exemple démonstratif de ce combat, on peut citer Python qui a décidé de retirer les mots « maître/esclave » de ses articles et de sa base de code en 2018. Le programme Python n’est pas le seul à avoir pris ce leadership dans le monde de IL. . Il intègre uniquement des projets comme Django (2014), CouchDB (2014), Drupal (2014) et Redis (2017). Ils avaient tous le même argument : bien que ces mots soient utilisés depuis des décennies, ils peuvent avoir des significations racistes et autres pour les utilisateurs. Il serait donc bon de les éviter.

« Le mot ‘slave’ a des connotations négatives (bien que cela puisse ou non être approprié pour donner un nom technique), y compris l’histoire de siècles d’esclavage pour aider les puissances coloniales européennes, les travailleurs pénitentiaires sont aujourd’hui contraints de travailler dans parfois l’esclavage. des situations similaires, les jeunes filles sont vendues comme esclaves sexuelles dans de nombreuses régions du monde aujourd’hui « , a expliqué le projet Drupal. La nature sexiste de ces termes est apparue au premier plan lorsqu’une question a été soulevée sur le projet Django. Un ingénieur DevOps avait se plaignait en fait que ses collègues se moquaient de lui pour avoir utilisé les mots « maître » et « esclave ».

GitHub a décidé d’utiliser le terme « main » au lieu de « master » pour désigner la branche de projet par défaut

En juillet 2020, Linus Torvalds a ajouté le répertoire des mots à l’arborescence du projet Linux. Un document intitulé « Linux kernel inclusive technology » répertorie des termes tels que maître, esclave, liste noire et liste blanche comme protégés à l’avenir par la chaîne d’approvisionnement du noyau. Des modifications du code existant sont également envisagées, mais des exceptions sont faites lorsqu’il s’agit de protéger l’API utilisateur ou lors de la mise à jour du code des spécifications qui rendent ces termes obligatoires. .

Cette inclusion fait suite à un engagement pris par l’ingénieur principal d’Intel, Dan Williams. Il avait déjà le soutien d’autres mainteneurs Linux, dont Chris Mason et Greg Kroah-Hartman.