Un scientifique découvre des données de coronavirus supprimées de Chine
Treize séquences génétiques – isolées de personnes infectées par le COVID-19 au début de la pandémie en Chine – ont été mystérieusement supprimées d’une base de données en ligne l’année dernière mais ont maintenant été récupérées.
Jesse Bloom, biologiste informaticien et spécialiste de l’évolution virale au Fred Hutchinson Cancer Research Center de Seattle, a découvert que les séquences avaient été supprimées d’une base de données en ligne à la demande de scientifiques de Wuhan, en Chine. Mais avec quelques recherches sur Internet, il a pu récupérer des copies des données stockées sur Google Cloud.
Les séquences ne changent pas fondamentalement la compréhension des scientifiques sur les origines du COVID-19 – y compris la question épineuse de savoir si le coronavirus s’est propagé naturellement des animaux aux humains ou s’il s’est échappé dans un accident de laboratoire. Mais leur suppression ajoute aux inquiétudes selon lesquelles le secret du gouvernement chinois a entravé les efforts internationaux pour comprendre comment le COVID-19 a émergé.
Les résultats de Bloom ont été publiés dans un papier de préimpression, pas encore évalué par d’autres scientifiques, publié mardi. « Je pense que cela correspond certainement à une tentative de cacher les séquences », a-t-il déclaré à BuzzFeed News.
Bloom a appris les données supprimées après lire un papier d’une équipe dirigée par Carlos Farkas à l’Université du Manitoba au Canada sur certaines des premières séquences génétiques du SRAS-CoV-2. L’article de Farkas décrivait des séquences échantillonnées auprès de patients ambulatoires d’hôpitaux dans un projet de chercheurs de Wuhan qui développaient des tests de diagnostic pour le virus. Mais lorsque Bloom a essayé de télécharger les séquences du Archive de lecture de séquence, une base de données en ligne gérée par les National Institutes of Health des États-Unis, il a reçu des messages d’erreur indiquant qu’ils avaient été supprimés.
Bloom s’est rendu compte que les copies des données SRA sont également conservées sur des serveurs gérés par Google et a pu découvrir les URL où les séquences manquantes pouvaient être trouvées dans le cloud. De cette façon, il a récupéré 13 séquences génétiques qui peuvent aider à répondre aux questions sur l’évolution du coronavirus et d’où il vient.
Bloom a découvert que les séquences supprimées, comme d’autres collectées à des dates ultérieures en dehors de la ville, étaient plus similaires aux coronavirus de chauve-souris – présumés être les ancêtres ultimes du virus qui cause COVID-19 – qu’aux séquences liées au marché des fruits de mer de Huanan à Wuhan. Cela s’ajoute aux suggestions antérieures selon lesquelles le marché des fruits de mer pourrait avoir été une des premières victimes de COVID-19, plutôt que l’endroit où le coronavirus est passé pour la première fois des animaux aux humains.
« C’est une étude très intéressante réalisée par le Dr Bloom, et à mon avis l’analyse est tout à fait correcte », a déclaré Farkas à BuzzFeed News par e-mail. Scott Gottlieb, ancien chef de la Food and Drug Administration, a également salué les résultats sur Twitter.
Mais certains scientifiques ont été moins impressionnés. « Cela n’ajoute vraiment rien au débat sur les origines », a déclaré Robert Garry de l’université de Tulane à la Nouvelle-Orléans par e-mail à BuzzFeed News. Garry a fait valoir que le marché de Huanan ou d’autres marchés de Wuhan pourraient toujours être la source de COVID-19.
Bloom est l’un des 18 scientifiques qui, en mai publié une lettre critiquant l’étude de l’OMS et de la Chine sur les origines du SRAS-CoV-2. Les scientifiques ont fait valoir que le rapport de l’OMS-Chine n’avait pas pris en compte les idées concurrentes selon lesquelles le coronavirus se propagerait naturellement des animaux aux humains ou s’était échappé d’un laboratoire – une théorie que le rapport a jugée « extrêmement improbable ». Après la publication du rapport OMS-Chine, les États-Unis et 13 autres gouvernements plaint qu’il « n’avait pas accès à des données et à des échantillons complets et originaux ».
Les séquences virales supprimées ont été téléchargées pour la première fois sur le SRA début mars 2020, à peu près à l’époque où les chercheurs dirigés par Yan Li et Tiangang Liu de l’Université de Wuhan publié une prépublication décrivant leur travail en utilisant le séquençage génétique pour diagnostiquer COVID-19. Quelques jours avant, le Conseil d’État chinois avait commandé que tous les documents liés à COVID-19 soient approuvés au niveau central.
Les séquences ont ensuite été retirées de la SRA en juin, à peu près au moment où le version finale de l’article paru dans une revue scientifique. Selon le NIH, les auteurs ont demandé la suppression des séquences. « Le demandeur a indiqué que les informations de séquence avaient été mises à jour, étaient soumises à une autre base de données et souhaitait que les données soient supprimées de SRA pour éviter les problèmes de contrôle de version », a déclaré la porte-parole des NIH, Amanda Fine, à BuzzFeed News par e-mail.
Cependant, on ne sait pas si les séquences ont depuis été mises en ligne dans une autre base de données.
« Il n’y a aucune raison scientifique plausible pour la suppression », a écrit Bloom dans sa prépublication, arguant que les séquences étaient probablement « supprimées pour obscurcir leur existence ». Cela suggérait, a-t-il écrit, « un effort moins que sincère pour retracer la propagation précoce de l’épidémie ».
Bien que les séquences aient été supprimées, Garry a souligné que les mutations génétiques clés qu’elles contenaient étaient toujours publiées dans un tableau dans le document final de l’équipe de Wuhan. « Jesse Bloom n’a trouvé exactement rien de nouveau qui ne fasse déjà partie de la littérature scientifique », a déclaré Garry à BuzzFeed News, accusant Bloom d’avoir écrit sa prépublication d’une « manière incendiaire qui est non scientifique et inutile ».
Bloom a écrit aux chercheurs de Wuhan pour leur demander pourquoi les séquences avaient été supprimées mais n’a reçu aucune réponse. Li et Liu n’ont pas non plus répondu immédiatement à une requête de BuzzFeed News.
Ce n’est pas la première fois que des scientifiques s’inquiètent de la suppression de données qui pourraient aider à répondre aux questions sur les origines du COVID-19. La principale base de données contenant des informations sur les séquences de coronavirus maintenue par l’Institut de virologie de Wuhan – qui fait l’objet de spéculations sur une éventuelle « fuite de laboratoire » du virus – a été mis hors ligne en septembre 2019. Lorsque des membres de l’équipe OMS-Chine qui a étudié les origines de la pandémie ont visité l’institut en février, ils ont été informés de la base de données, qui aurait inclus des données sur 22 000 échantillons de coronavirus et enregistrements de séquences, avait été supprimé après des tentatives de piratage répétées.
Commentaires récents