Un code-barres moléculaire et web

Nouvelles

MaisonMaison / Nouvelles / Un code-barres moléculaire et web

Nov 10, 2023

Un code-barres moléculaire et web

Volume Biologie des communications

Communications Biology volume 5, Article number: 1411 (2022) Citer cet article

1834 accès

1 Citations

18 Altmétrique

Détails des métriques

Traditionnellement, les antécédents de voyage des patients ont été utilisés pour distinguer les cas de paludisme importés des cas autochtones, mais les stades hépatiques dormants de Plasmodium vivax compliquent cette approche. Les outils moléculaires offrent une méthode alternative pour identifier et cartographier les cas importés. À l'aide d'approches d'apprentissage automatique incorporant des analyses d'indice de fixation hiérarchique et d'arbre de décision appliquées à 799 génomes de P. vivax de 21 pays, nous avons identifié des codes-barres 33-SNP, 50-SNP et 55-SNP (GEO33, GEO50 et GEO55), avec une grande capacité de prédiction. le pays d'origine de l'infection. Le coefficient de corrélation de Matthews (MCC) pour un code à barres 38-SNP existant et couramment appliqué (BR38) dépassait 0,80 dans 62 % des pays. Les panels GEO ont surperformé BR38, avec des MCC médians > 0,80 dans 90 % des pays à GEO33, et 95 % à GEO50 et GEO55. Un cadre de classification en ligne, à accès libre et basé sur la vraisemblance a été créé pour soutenir l'analyse des données (vivaxGEN-geo). Les méthodes de sélection et de classification des SNP peuvent être facilement modifiées pour d'autres cas d'utilisation afin de soutenir les programmes de lutte contre le paludisme.

Les trois derniers rapports sur le paludisme dans le monde ont révélé une augmentation inquiétante des cas de paludisme et, en dehors de l'Afrique subsaharienne, une proportion croissante de paludisme due à Plasmodium vivax, sapant les efforts concertés pour réduire la transmission au cours de la dernière décennie1. Ces tendances mettent en évidence le besoin urgent de nouveaux outils de surveillance et la nécessité d'accorder une plus grande attention aux espèces de Plasmodium autres que falciparum. Un défi particulier pour le contrôle du paludisme sont les populations humaines très mobiles, conduisant à l'importation d'isolats de Plasmodium d'un pays à un autre (cas importés) qui peuvent entraver les efforts de contrôle locaux et augmenter les risques d'épidémies et la propagation de la résistance aux médicaments antipaludiques. Pour contrer ce défi, il est essentiel de développer des outils qui peuvent aider à déterminer où les patients ont contracté leur infection.

La distinction entre l'infection locale et importée est particulièrement difficile pour P. vivax, compte tenu de la capacité du parasite à former des stades hépatiques dormants (hypnozoïtes) qui peuvent se réactiver des semaines à des mois après l'infection initiale, ainsi que sa capacité à provoquer des lésions spléniques très persistantes. et les infections au stade sanguin circulant de faible densité qui peuvent échapper au diagnostic de routine2,3,4. La réémergence de P. vivax dans plusieurs régions où il était autrefois presque éliminé souligne l'importance d'une surveillance diligente5,6. Dans les milieux à faible endémie, la proportion relative de cas importés augmente généralement à mesure que l'incidence diminue, ce qui souligne l'importance des outils de surveillance capables d'identifier les cas importés de P. vivax dans ces régions en particulier5. Traditionnellement, les cas importés ont été identifiés et cartographiés à l'aide d'informations sur les antécédents de voyage des patients, mais les infections spléniques et sanguines persistantes et les rechutes tardives limitent la précision de cette approche pour P. vivax. Les outils moléculaires pour identifier et cartographier les cas importés de P. vivax offrent un complément intéressant aux outils épidémiologiques traditionnels.

Le séquençage basé sur les amplicons est devenu une approche privilégiée pour le génotypage ciblé des parasites du paludisme7,8. À l'aide de plates-formes de séquençage hautement parallèles, telles que la dernière génération de séquenceurs Illumina, le séquençage basé sur des amplicons peut être appliqué à un débit modéré à élevé, avec une précision et une sensibilité élevées. Ces plates-formes sont flexibles, permettant une amélioration itérative des codes à barres du polymorphisme de nucléotide unique (SNP), qui peuvent fournir une approche de génotypage abordable, se prêtant à la surveillance moléculaire basée sur la population.

Des études antérieures ont utilisé des marqueurs mitochondriaux et apicoplastes pour distinguer les isolats importés des isolats locaux de P. vivax, mais la résolution de ces génomes organites est limitée9,10,11. En 2015, un panel de 42 SNP, communément appelés code-barres Broad, a été identifié pour faciliter la prise d'empreintes digitales parasites et l'affectation géographique12. Le code-barres 42-SNP Broad a été dérivé des données génomiques disponibles à partir de 13 isolats de 7 pays et a été appliqué à plusieurs études utilisant des tests de génotypage ciblés12,13,14. Une étude plus récente a identifié un autre code-barres SNP de P. vivax en utilisant les données de 433 isolats de 17 pays15. Ce code-barres visait également à faciliter à la fois la prise d'empreintes digitales et l'attribution géographique, mais aucun test expérimental pour ce code-barres n'est disponible et il reste un outil in silico uniquement15. En outre, toutes les études de codes-barres géographiques sur le paludisme à ce jour se sont appuyées sur des méthodes visuelles telles que l'analyse en composantes principales pour évaluer le pays d'origine. Bien que cette approche ait une certaine utilité, elle est modérément subjective et ne répond pas aux besoins des utilisateurs finaux translationnels tels que les programmes nationaux de lutte contre le paludisme (PNLP), qui peuvent ne pas avoir l'épidémiologie génétique ou les compétences bioinformatiques nécessaires pour générer et interpréter ces parcelles.

Les principaux objectifs de notre étude étaient d'établir un cadre pour identifier les marqueurs moléculaires de P. vivax permettant d'identifier et de caractériser les cas importés de P. vivax en classant le pays d'origine et de développer une plate-forme informatique en ligne à accès libre permettant aux utilisateurs finaux d'analyser les données. généré à l'aide des marqueurs. Notre objectif est que ces nouveaux outils moléculaires et informatiques soutiennent la génération de preuves pouvant être utilisées par les chercheurs et les PNLP pour éclairer les décisions stratégiques sur où et comment déployer les interventions de lutte contre le paludisme. Nos outils moléculaires sont principalement adaptés aux cadres de surveillance utilisant des plateformes de séquençage telles qu'Illumina ou MinION (Oxford Nanopore Technologies), qui permettent le génotypage de dizaines de marqueurs en parallèle. Nos outils informatiques sont conçus pour permettre aux utilisateurs ayant peu ou pas de compétences en génétique ou en bioinformatique d'analyser et d'interpréter de manière indépendante les données de génotypage de codes à barres générées dans leur pays ou dans des laboratoires de référence régionaux. Les outils informatiques sont donc conçus pour accueillir des échantillons de paludisme du monde réel, y compris des infections polyclonales et des échantillons avec des données incomplètes résultant d'échecs de génotypage.

L'ensemble de données principal (ensemble de données 1) qui a été dérivé à l'aide des simulations de données manquantes pour minimiser les échecs de génotype (Fig. 1 supplémentaire) comprenait 229 317 SNP informatifs de haute qualité et 826 échantillons de haute qualité. Le pourcentage médian d'appels hétérozygotes dans chaque échantillon variait de 0,02 % à 0,08 %. Les détails sur les emplacements géographiques des échantillons de l'ensemble de données 1 sont présentés dans le tableau supplémentaire 1. En utilisant les affectations au niveau des pays dérivées de la classification des données à l'échelle du génome avec le classificateur de vraisemblance, 27 isolats ont présenté des classifications de pays différentes du pays de présentation. cas potentiellement importés (tableau complémentaire 1). Après exclusion de ces cas, ainsi que des pays représentés par un seul échantillon, il y avait un total de 799 isolats provenant de 21 pays, constituant l'ensemble de données 2 (tableau supplémentaire 1). L'analyse de voisinage a révélé un regroupement géographique distinct de la plupart des pays (Fig. 2 supplémentaire). Les exceptions comprenaient les isolats d'Afghanistan, d'Iran, d'Inde et du Sri Lanka, qui semblaient former un seul groupe ; une analyse plus approfondie de cette région géographique avec des ensembles d'échantillons plus importants est clairement nécessaire pour résoudre les différences entre les pays. Bien que plusieurs isolats dans les régions frontalières, dont le Vietnam par rapport au Cambodge et la Thaïlande par rapport au Myanmar, se chevauchent entre les pays, la plupart des isolats de ces pays pourraient être différenciés par les frontières nationales.

Le processus de sélection du panel SNP est résumé à la Fig. 1. Lorsque le sélecteur HFST a été appliqué avec un seuil FST de 0,90 (HFST-0,90), un ensemble de 33 nouveaux SNP candidats (ci-après dénommés GEO33) pour l'attribution géographique ont été identifiés ( Tableau supplémentaire 2). En augmentant le seuil FST à 0,95 (HFST-0,95), le modèle HFST a identifié 50 SNP (ci-après dénommés GEO50) (tableau supplémentaire 3). En utilisant le sélecteur DT seul, 55 SNP (ci-après dénommés GEO55) (tableau supplémentaire 4) ont été identifiés. Comme illustré dans la Fig. 3 supplémentaire et le tableau supplémentaire 5, il n'y a pas de chevauchement de marqueurs entre le panel large 38-SNP (ci-après dénommé BR38) et les trois nouveaux panels SNP, mais différents niveaux de chevauchement SNP sont présents entre les trois nouveaux panneaux. Trois SNP sont présents dans les trois panels ; un variant à PvP01_09_v1 : 1884013 dans le gène IMC1b (PVP01_0942600) qui provoque un changement d'acide aminé E141D, un variant à PvP01_10_v1:480601 dans le gène MDR1 (PVP01_1010900) qui provoque un changement d'acide aminé L845F, et un variant à PvP01_1 4_v1:1229487 dans PVP01_1428700 qui provoque un changement d'acide aminé S1136I. 6 autres SNP se chevauchaient entre les panneaux GEO33 et GEO50, et 13 SNP se chevauchaient entre les panneaux GEO50 et GEO55. Parmi les SNP qui se chevauchent entre deux panels, le plus notable est une variante à PvP01_14_v1:1270401 dans le gène PPPK-DHPS (PVP01_1429500) qui provoque un changement d'acide aminé A553G qui a été associé à la résistance à la sulfadoxine16.

Les hexagones reflètent les ensembles de données, les rectangles reflètent les processus, les triangles reflètent les ensembles de SNP, les ovales reflètent les résultats et le losange reflète l'application de classification basée sur le Web. Le code-barres large BR38 reflète 38 SNP dosables parmi les 42 SNP larges. L'ensemble GEO33 reflète les SNP hautes performances dérivés de l'approche HFST avec un seuil FST de 0,9. L'ensemble GEO50 reflète les SNP hautes performances de l'approche HFST avec un seuil FST de 0,95. L'ensemble GEO55 reflète les SNP sélectionnés par l'approche de l'arbre de décision.

Les performances de classification des BR38, GEO33, GEO50, GEO55 et des combinaisons de BR38 avec les trois nouveaux panels GEO (c'est-à-dire GEO33 + BR38, GEO50 + BR38 et GEO55 + BR38) ont été analysées par validation croisée 10 fois à l'aide du BALK classificateur sur les échantillons de l'ensemble de données 3. Les résultats des évaluations de l'ensemble de données 3 sont illustrés à la Fig. 2 (données sources fournies dans les données supplémentaires 1), et les MCC médians reflétant les résultats consensuels de la validation croisée sont résumés dans le tableau 1 Le code-barres BR38 présentait le MCC médian regroupé (à l'échelle du pays) le plus bas (MCC médian = 0,84), suivi de GEO33 (MCC médian = 0,94) et GEO50 et GEO55 (MCC médian = 1,00). Les MCC médians regroupés pour les panels combinés GEO et BR38 dépassaient tous 1,00 mais n'apportaient que des améliorations mineures pour GEO50 et GEO55. Le pourcentage de pays présentant des MCC médians supérieurs à 0,8 était de 62 % (13/21) au BR38, 90 % (19/21) au GEO33 et GEO33 + BR38, et de 95 % (20/21) au GEO50, GEO55, GEO50 + BR38 et GEO55 + BR38. Les pays avec les performances de prédiction les plus faibles étaient le Vietnam et le Cambodge. Le Vietnam présentait des MCC médians < 0,8 avec tous les panels SNP. Le Cambodge présentait des MCC médians < 0,8 à BR38, GEO33 et GEO33 + BR38. Six pays (Philippines, Myanmar, Malaisie, Thaïlande, Papouasie-Nouvelle-Guinée et Bangladesh) affichaient des MCC médians < 0,8 avec BR38 mais dépassaient 0,8 dans toutes les combinaisons GEO.

Les boîtes à moustaches présentent les scores MCC de 500 répétitions avec une validation croisée stratifiée de 10 fois pour chaque ensemble de SNP. Les étiquettes de pays sont fournies sur l'axe y ; la médiane et la valeur minimale reflètent les statistiques récapitulatives respectives pour les scores MCC regroupés dans tous les pays. Chaque barre présente la médiane, l'intervalle interquartile et le MCC min et max pour le pays et le modèle donnés. Le panel BR38 présentait généralement les scores MCC les plus bas (c'est-à-dire la précision de prédiction la plus faible). Parmi les panels nouvellement sélectionnés, GEO55 a généralement donné les scores MCC les plus élevés, suivi de GEO50, puis de GEO33. L'ajout du panneau BR38 aux panneaux GEO n'a généralement fourni qu'une augmentation modeste, voire nulle, du MCC médian. Les analyses étaient basées sur n = 799 échantillons biologiquement indépendants.

Pour comparer les performances du code-barres BR38, GEO33, GEO50, GEO55 et des combinaisons de BR38 avec les trois nouveaux panels GEO (c'est-à-dire GEO33 + BR38, GEO50 + BR38 et GEO55 + BR38) avec différents niveaux d'échecs de génotype, nous avons simulé 10 % , 20 % et 30 % des proportions de données manquantes dans chaque pays à l'aide de l'ensemble de données 3 et effectué des validations croisées 10 fois à l'aide du classificateur BALK. Les échecs de génotypage simulés ont eu le plus grand impact sur le code à barres GEO33 (Fig. 3 et données sources associées dans les données supplémentaires 2, tableau supplémentaire 6). Le MCC médian regroupé (à l'échelle du pays) pour GEO33 est passé de 0,96 sans données manquantes à 0,89, 0,81 et 0,73 avec respectivement 10 %, 20 % et 30 % de données manquantes. L'impact des données manquantes sur le panel combiné GEO33 + BR38 était plus faible, les MCC médians regroupés passant de 1,00 sans données manquantes à 0,98, 0,96 et 0,94 avec respectivement 10 %, 20 % et 30 % de données manquantes. Dans tous les autres panels, le MCC médian regroupé a chuté de ≥0,1 entre les simulations sans (0 %) contre 30 % d'appels de génotype manquants : de 0,87 à 0,77 à BR38, 0,96 à 0,85 à GEO50, 0,98 à 0,89 à GEO55 et 1,00 à 0,98 à GEO50 + BR38 et GEO55 + BR38.

Scores MCC générés à partir de 250 répétitions avec n = 25 échantillons biologiquement indépendants par pays sans (0%) données manquantes (a) et simulant des données manquantes (échec du génotype) de 10% (b), 20% (c) et 30% ( d); la médiane et la valeur minimale reflètent les statistiques récapitulatives respectives pour les scores MCC regroupés dans tous les pays. Chaque barre présente la médiane, l'intervalle interquartile et le MCC min et max pour le pays et le modèle donnés. Avec des données manquantes, les panels BR38 et GEO combinés (c'est-à-dire BR38 + GEO33, BR38 + GEO50 et BR38 + GEO55) ont montré de meilleurs résultats que les panels simples en ce qui concerne la conservation des performances de prédiction, probablement en raison de niveaux modérés de redondance entre certains des SNP.

Après exclusion des échantillons importés de mauvaise qualité et suspects, un total de 142 échantillons (jeu de données de validation indépendant) qui n'étaient pas inclus dans la formation (c'est-à-dire, pas dans le jeu de données 1, 2 ou 3) étaient disponibles pour évaluer de manière indépendante la performance du candidat Panels SNP avec les classificateurs entraînés. L'ensemble de données de validation indépendante comprenait des échantillons de chacun des 7 pays représentés dans l'ensemble de données de formation (ensemble de données 2). Les modèles de regroupement géographique de l'ensemble de données de validation indépendante par rapport à l'ensemble de données de formation sont illustrés dans les arbres de jonction voisins de la Fig. 3 supplémentaire. La performance de prédiction des échantillons de l'ensemble de données de validation indépendante sur les panels SNP avec les classificateurs formés est présentée Tableau 2. Le panel BR38 a présenté la précision de prédiction la plus faible, avec un MCC médian regroupé (à l'échelle du pays) de 0,44. Le panel GEO33 présentait également une précision de prédiction généralement faible (MCC médian regroupé = 0,64), mais cela a été amélioré dans le panel combiné GEO33 + BR38 (MCC médian regroupé = 0,81). Les panels GEO50, GEO55, GEO50 + BR38 et GEO55 + BR38 ont tous montré une précision de prédiction généralement élevée avec des MCC médians regroupés dépassant 0,80 (plage de 0,83 à 0,89). La figure 4 présente des cartes thermiques pour chacun des panels SNP illustrant la proportion de rappels corrects pour chaque pays d'origine (les données sources sont fournies dans les données supplémentaires 3). Les cartes thermiques démontrent que, dans tous les panels SNP, les classifications incorrectes reflétaient généralement les prédictions des pays voisins, conservant ainsi la précision de la cartographie géographique régionale.

Chaque tracé présente les performances de prédiction du panel SNP donné (panneaux a à g) dans l'ensemble de données de validation indépendante (n = 142 échantillons biologiquement indépendants) visualisé sous forme de carte thermique montrant la corrélation entre le pays d'origine et la prédiction. Chaque cellule est codée par couleur pour refléter la proportion d'échantillons du pays d'origine donné qui ont été correctement attribués au pays de prédiction correspondant. Codage couleur allant du bleu clair (faible proportion) au bleu foncé (forte proportion). Seuls les pays qui ont été prédits par au moins un des panels SNP sont présentés, et les pays de prédiction qui n'étaient pas représentés dans l'ensemble de validation indépendant (c'est-à-dire pas sur l'axe de l'origine) sont marqués en rouge. Lorsque le pays d'origine des échantillons ne correspondait pas directement au pays de prédiction, ils étaient généralement mappés aux pays voisins (c'est-à-dire toujours dans la bonne géographie régionale). Le panel BR38 présentait une précision de prédiction inférieure à celle des panels GEO et combinés GEO + BR38. Dans les panels SNP, la majorité des prédictions incorrectes se sont produites entre le Cambodge, le Vietnam et la Thaïlande.

L'objectif principal de l'étude était de développer des outils moléculaires adaptés aux cadres de surveillance basés sur la population qui peuvent être utilisés pour identifier et cartographier les infections à P. vivax importées. Trois nouveaux panels SNP (codes-barres GEO) ont été identifiés avec des performances de classification des pays élevées, capables de distinguer les infections à P. vivax importées dans une gamme de scénarios endémiques. Le panel le plus parcimonieux, GEO33, présentait une classification de pays élevée lorsqu'il n'y avait pas de données manquantes, et peut être ajouté de manière rentable aux 38 SNP de codes à barres larges dosables bi-alléliques (BR38) pour améliorer la capacité prédictive dans les échantillons avec des niveaux modérés de données manquantes. Le code-barres combiné GEO33 + BR38 a généré une classification robuste des pays dans la plupart des zones endémiques, même lorsque la proportion de données manquantes est passée à 30 %. Cependant, la capacité prédictive du code-barres GEO33 + BR38 entre le Cambodge et le Vietnam était modérée, reflétant probablement le flux fréquent de gènes humains et associés de P. vivax à travers la frontière entre ces deux pays. Les panels GEO50 et GEO55 ont obtenu une meilleure résolution que le panel GEO33 + BR38 dans ces zones, et une caractérisation encore plus grande de la transmission parasitaire à travers les frontières avec des niveaux élevés de flux de gènes peut être possible avec des marqueurs supplémentaires adaptés à une analyse de l'identité par descendance17. Dans certaines régions géographiques, où les frontières nationales n'ont que peu ou pas d'obstacles au flux de gènes parasitaires, même les données à l'échelle du génome ne permettront pas de résoudre les infections entre pays voisins : dans ces régions, la classification au niveau national de l'origine de l'infection peut avoir une utilité limitée. Cependant, l'utilisation de données génétiques pour démontrer que les parasites de différents côtés de la frontière forment une seule population homogène peut être utile pour renforcer les arguments en faveur d'efforts de collaboration entre pays pour lutter contre le paludisme à vivax. De plus, les outils décrits dans cette étude peuvent être adaptés pour caractériser d'autres limites de population qui peuvent être pertinentes pour les PNLP. À mesure que la densité des données génomiques disponibles sur P. vivax augmente, il peut également être possible d'utiliser des limites d'infection génétiquement définies à plus haute résolution à des fins de classification.

L'application et la validation plus large des nouveaux codes-barres GEO sont en cours, avec des tests de séquençage basés sur des amplicons Illumina déjà établis par le programme de lutte contre le paludisme du Wellcome Sanger Institute pour les SNP de code-barres 38-Broad13 et par des collaborateurs de l'Institut de médecine tropicale d'Anvers pour GEO -3318. Des travaux supplémentaires seront nécessaires pour établir des cadres pour la mise en œuvre du génotypage des parasites dans les activités quotidiennes des PNLP : des informations peuvent être tirées du cadre GenRe-Mékong, qui a mis en œuvre avec succès le génotypage des parasites dans les activités des PNLP dans plusieurs pays de la Grande Région. sous-région du Mékong dans le but de suivre la résistance aux médicaments antipaludiques chez P. falciparum7. Le cadre GenRe-Mekong se concentre actuellement sur la réalisation de génotypage à l'aide de la plateforme Illumina dans des laboratoires centralisés (tels que des laboratoires nationaux de référence) dotés d'une solide expertise et d'équipements en biologie moléculaire. Cependant, les tests pour les codes à barres géographiques décrits dans cette étude peuvent être facilement conçus pour d'autres plates-formes de génotypage telles que les séquenceurs minION hautement portables (Oxford Nanopore Technologies), qui peuvent théoriquement être mis en œuvre dans des environnements avec un équipement de laboratoire moléculaire minimal.

L'analyse et l'interprétation des données de génotypage "du monde réel" soulèvent des défis importants à partir d'échantillons de faible qualité tels que ceux collectés sur des taches de sang séché. En prévision de ces besoins, nous avons établi un cadre de classification basé sur la vraisemblance avec la capacité de traiter les infections polyclonales ainsi que les données manquantes. Ce cadre a été intégré à la plate-forme en ligne vivaxGEN-geo (http://geo.vivaxgen.org), afin que les utilisateurs puissent analyser et interpréter leurs données sans avoir besoin de compétences bioinformatiques complexes et en évitant l'inspection visuelle subjective des arbres voisins ou graphiques en composantes principales. Alors que les outils informatiques mis en œuvre dans vivaxGEN-geo sont adaptés à P. vivax, une approche similaire peut être adaptée à d'autres espèces. Pour faciliter une application plus large, le code source est accessible au public.

Les variants des panels GEO SNP sont situés dans des gènes représentant une gamme de fonctions, dont certaines peuvent être instables dans le temps, comme les variants dans les gènes associés à la résistance aux médicaments. Ces variantes peuvent facilement être remplacées par de nouvelles variantes à mesure que les populations évoluent. La vitesse à laquelle les fréquences alléliques changent dans une population dépendra de divers facteurs, notamment la taille de la population, l'étendue du flux de gènes et la dynamique de sélection.

Bien que notre ensemble de données représente l'un des panels les plus diversifiés géographiquement d'isolats de P. vivax actuellement disponibles, avec une représentation de toutes les principales régions endémiques de vivax, la capacité prédictive des outils dérivés est susceptible d'être limitée par la représentation géographique du panel de référence. . Le classificateur ne peut pas attribuer une prédiction à un pays qui n'est pas représenté dans le panel de référence génétique, et les pays qui ont un ensemble d'échantillons de référence petit ou non représentatif peuvent avoir une précision de classification limitée. La représentation limitée de régions telles que le sous-continent indien est une lacune importante qui doit être comblée. Cependant, le panel de référence a une bonne représentation des isolats provenant de régions pertinentes pour la santé publique, y compris l'épicentre de P. vivax résistant à la chloroquine en Papouasie-Indonésie, dans l'ouest de la Thaïlande et au Myanmar, où une fréquence élevée d'infections à P. vivax associées à la résistance à la méfloquine Des variantes du nombre de copies de MDR1 (PVP01_1010900) ont été signalées, et l'Éthiopie, qui comprend le plus grand réservoir de P. vivax en Afrique et où des infections capables d'envahir les globules rouges humains duffy négatifs ont été signalées19,20,21,22,23 ,24. La forte représentation de ces zones dans le panel de référence génétique garantit que les PNLP peuvent identifier avec précision quand des infections ont été importées de ces régions et effectuer des réponses de gestion de cas appropriées. Il est également important de reconnaître que le cadre de classification basé sur la vraisemblance se prête à la réévaluation des ensembles de fabricants actuels à mesure que de nouvelles données génomiques deviennent disponibles, facilitant le développement itératif de panels SNP raffinés. Au fur et à mesure que le panel de référence s'agrandit avec l'augmentation des données générées au niveau des SNP de code-barres, la précision des classifications basées sur la vraisemblance s'améliorera.

Le cadre de classification basé sur la vraisemblance a été conçu pour permettre d'attribuer des prédictions géographiques aux infections polyclonales porteuses de deux clones ou plus, comme cela est courant dans les régions à forte endémicité ; ces infections sont généralement omises des analyses génétiques des populations. Cependant, il convient de reconnaître que le classificateur ne tente pas de mettre en phase les clones individuels, mais l'infection est plutôt analysée comme un composite, ce qui donne une prédiction unique d'origine la plus probable. Néanmoins, il est important de noter que, de par leur conception, les panels GEO sélectionnés par le cadre devraient présenter une faible diversité au sein des pays (la diversité étant plutôt entre les pays). Les infections polyclonales provenant d'un seul pays devraient donc présenter une faible fréquence de positions hétérozygotes au niveau des codes-barres GEO sélectionnés. Dans les cas où une combinaison de clones provenant de différents pays est présente dans une même infection, produisant de nombreuses positions hétérozygotes, le classificateur sera limité dans sa capacité à détecter le pays d'origine et une faible confiance dans la prédiction sera donc attribuée. Les développements futurs qui combinent les marqueurs GEO avec des marqueurs d'empreintes digitales à haute résolution tels que les microhaplotypes peuvent permettre aux infections polyclonales d'être phasées et ensuite analysées pour l'origine géographique.

En plus de nouveaux marqueurs géographiques, de futures itérations du code-barres SNP sont en cours de développement pour répondre à d'autres cas d'utilisation. Ceux-ci comprendront des marqueurs de P. vivax résistant aux médicaments ainsi que des marqueurs pour caractériser les infections récurrentes, qui soutiendront l'interprétation des essais cliniques, des cohortes épidémiologiques et de la surveillance parasitaire (voir la description des microhaplotypes dans8). Alors que l'origine géographique d'une infection à P. vivax peut fournir des informations sur la périodicité probable des rechutes d'un parasite, les risques et la fréquence des infections récurrentes sont influencés par une série de facteurs, notamment l'intensité de la transmission, la charge d'hypnozoïte et l'immunité de l'hôte, qui confondent la corrélation entre le parasite génotype et le risque de rechute d'un individu4,25.

En 2017, jusqu'à 100 % de tous les cas de paludisme confirmés dans 17 pays d'endémie palustre de la région Asie-Pacifique, du Moyen-Orient et des Amériques, où prédominent les infections à P. vivax, ont été signalés comme étant des infections importées1. Dans ces pays, les programmes nationaux de lutte contre le paludisme peuvent utiliser les informations issues de nos outils moléculaires pour évaluer l'efficacité des interventions en cours dans la réduction de la transmission locale. L'une des principales exigences de l'Organisation mondiale de la santé pour certifier l'élimination du paludisme est la démonstration que tous les cas de paludisme détectés dans le pays pendant au moins trois années consécutives ont été importés. Notre approche de génotypage a le potentiel d'identifier les infections importées, réduisant ainsi l'ambiguïté dans la certification d'élimination. À cette fin, les pays qui approchent de l'élimination devront conserver des échantillons d'archives pour de futures comparaisons moléculaires avec des cas présumés importés.

Les outils de classification géographique moléculaire de P. vivax présentés sont conçus pour permettre aux utilisateurs des pays d'endémie palustre de comparer les données de génotypage locales avec les ensembles de données disponibles à l'échelle mondiale. Le séquençage basé sur l'amplicon des codes-barres géographiques sera combiné avec d'autres marqueurs de surveillance dans les laboratoires centraux des pays endémiques partenaires du Réseau Asie-Pacifique pour l'élimination du paludisme (www.apmen.org). Les données générées par ces centres informeront les chercheurs, les programmes nationaux de lutte contre le paludisme et d'autres parties prenantes clés sur l'incidence, l'épidémiologie et les principaux réservoirs de paludisme importé et, ce faisant, aideront à cibler les ressources là où elles sont le plus nécessaires.

Le projet visait à générer deux résultats majeurs : un nouveau cadre pour identifier les codes-barres géographiques de P. vivax (c'est-à-dire la sélection de marqueurs) et une plate-forme informatique en ligne à accès libre permettant aux utilisateurs finaux d'analyser les données générées à l'aide du code-barres. Un organigramme décrivant les étapes impliquées dans l'identification des codes à barres géographiques de P. vivax est fourni à la Fig. données (c'est-à-dire qu'aucun génotype n'échoue), 2) sélection de SNP à l'aide des approches d'arbre de décision et HFST pour obtenir des panels de SNP candidats adaptés au classificateur développé dans cette étude (un classificateur de probabilité bi-allèle, BALK) et, et 3) évaluation comparative du panels SNP candidats, évaluation de l'impact des données manquantes (c'est-à-dire, échec du génotype) et évaluation de la précision de la prédiction avec un ensemble de données indépendant. Une plate-forme informatique en ligne et en libre accès a ensuite été développée et équipée de classificateurs BALK formés sur les panels SNP candidats. Une description plus complète des méthodes est fournie dans les méthodes supplémentaires.

L'étude a utilisé des données génomiques sur P. vivax dérivées de la version 4 (Pv4) du projet de variation du génome de P. vivax sur l'épidémiologie génomique du paludisme (MalariaGEN), qui a récemment été publiée en tant qu'ensemble de données ouvert26. L'ensemble de données ouvertes Pv4 comprend des génomes de 26 pays. Au moment de la réalisation de notre analyse (c'est-à-dire avant la publication en libre accès Pv4), un ensemble de données comprenant 1873 (sur les 1895 échantillons décrits dans la publication) échantillons était disponible pour notre étude. Pour l'analyse de cette étude, l'ensemble de données a été divisé en deux parties, un ensemble de données d'apprentissage et un ensemble de données de validation. L'ensemble de validation comprenait des isolats de 7 pays (Brésil, Cambodge, Colombie, Éthiopie, Pérou, Thaïlande et Vietnam) issus d'un essai clinique mené par GlaxoSmithKline (GSK)26. Tous les isolats restants ont été inclus dans l'ensemble de données de formation, qui comprenait la représentation de tous les pays dans l'ensemble de validation. Les échantillons GSK ont été sélectionnés pour une validation indépendante pour des raisons de commodité, car les échantillons de cette étude ont été séquencés plus tard que les autres études et, par conséquent, les données ont été mises à disposition plus tard.

Un aperçu des étapes de préparation des données est décrit dans la section a) de l'organigramme présenté à la Fig. 1. En bref, l'ensemble de données de formation a été filtré pour exclure les infections récurrentes et les échantillons provenant de pays représentés par moins de 4 génomes indépendants de P. vivax, ce qui a entraîné un ensemble de données initial comprenant 1 348 échantillons de 21 pays (tableau supplémentaire 1, figure supplémentaire 4). Avec cet ensemble de données initial, à partir des 2 671 112 variants initiaux découverts dans le projet MalariaGEN Pv426, nous avons dérivé un ensemble de 662 641 SNP bi-alléliques de haute qualité avec un score VQSLOD > 0, une profondeur minimale de 1 et un nombre minimal d'allèles mineurs (MAC) de 2 pour produire l'ensemble de données 0. La restriction aux SNP bi-alléliques est une approche standard entreprise dans la génomique des populations du paludisme pour simplifier les calculs en aval et n'impose pas de contraintes sur l'analyse des infections polyclonales, qui sont toujours détectables par le composite de variants alléliques à travers les SNP (voir 27, 28, 29). Les appels de génotype individuels ont été définis comme hétérozygotes sur la base d'un seuil arbitraire d'un rapport d'allèles mineurs > 0,1 et d'un minimum de 2 lectures pour chaque allèle ; tous les autres appels de génotype ont été définis comme homozygotes pour l'allèle majeur. L'ensemble de données 0 a été filtré davantage pour exclure les échantillons non indépendants, définis arbitrairement comme des paires isolées avec une distance génétique inférieure à 0,001, ce qui a donné 1 227 échantillons avec 662 641 SNP, désignés comme l'ensemble de données 1. L'ensemble de données 1 a ensuite été soumis à un filtrage itératif de la qualité des données pour dériver le meilleur nombre représentatif d'échantillons et de SNP informatifs sans aucun manque de génotype en supprimant de manière itérative les échantillons avec un manque plus élevé et en calculant le nombre de SNP informatifs (définis comme SNP avec MAC> = 2), à partir des échantillons restants. Sur la base du tracé du résultat de ce filtrage de la qualité des données (Fig. 1 supplémentaire), nous avons identifié 826 échantillons et 229 317 SNP à inclure dans l'ensemble de données 2. Les isolats de l'ensemble de données 2 ont été initialement attribués au pays en fonction des métadonnées disponibles, qui a été évaluée plus en détail en utilisant 1) la prédiction au niveau du pays à l'aide du classificateur BALK contre tous les 229 317 SNP et 2) la confirmation manuelle en construisant un arbre de jonction voisin basé sur la distance génétique. Les isolats dont l'affectation au pays différait du résultat de la prédiction et qui n'étaient pas dans le même groupe de pays que celui observé manuellement à partir de l'arbre voisin ont été considérés comme des infections importées suspectées et supprimés de l'ensemble de données pour produire l'ensemble de données 3, comprenant 799 échantillons et 229 317 SNP. Pour l'évaluation comparative des panels de SNP candidats, un nouvel ensemble de données (ensemble de données 4) a été produit qui comprenait les échantillons de l'ensemble de données 3, mais seuls les SNP sélectionnés par le processus de sélection de SNP consécutif (nous appelons ces panels de SNP des codes-barres GEO) et 38 testables SNP d'un code-barres 42-SNP P. vivax couramment utilisé développé par le Broad institute12. Le panel de SNP comprenant les 38 SNP de codes à barres dosables du Broad Institute est appelé BR38. Le panel BR38 SNP a été intégré dans l'étude pour évaluation seul ainsi qu'en combinaison avec les panels GEO SNP nouvellement sélectionnés, car il a été mis en œuvre dans plusieurs pays.

Un processus de filtrage similaire a été appliqué à l'ensemble de validation. Toutes les infections récurrentes ont été supprimées et les positions des SNP ont été filtrées pour n'inclure que les 229 317 SNP définis dans l'ensemble de données de formation 4. Tous les échantillons non indépendants restants ont ensuite été supprimés en utilisant le même seuil de distance génétique de 0,001, en utilisant une procédure similaire à celle décrite. pour l'ensemble d'entraînement. L'affectation au niveau du pays a été évaluée à l'aide du même classificateur BALK formé que l'ensemble d'apprentissage, et un arbre de jonction voisin a été construit en le combinant avec l'ensemble de données 3 pour une confirmation manuelle. Après les différents filtres, un jeu de 142 échantillons est resté dans le jeu de validation. La Fig. 2 supplémentaire présente l'arbre de jonction voisin de l'ensemble de données 3 combiné avec les 142 échantillons de validation aux 229 317 SNP. Un filtrage SNP supplémentaire pour inclure uniquement le panel BR38 et les SNP GEO nouvellement sélectionnés a été effectué pour produire l'ensemble de données de validation indépendante. Des informations plus détaillées sur les méthodes de préparation des données sont disponibles dans les méthodes supplémentaires.

Notre étude a nécessité le développement de méthodes flexibles pour classer les infections/données génétiques à P. vivax par pays. À cette fin, nous avions besoin d'un classificateur avec les propriétés suivantes : 1) capable d'évaluer les panels de SNP existants, 2) prêt à de nouveaux ajouts de SNP pour s'adapter à de nouveaux pays ou à des changements génétiques au fil du temps, 3) capable de classer les entrées de données contenant des échecs de génotype et appels de génotype hétérozygote bi-allélique résultant d'infections polyclonales, et 4) capables de fournir des valeurs de confiance de prédiction. Nous avons identifié le classificateur Naive Bayes comme ayant les propriétés qui répondent aux exigences ci-dessus après l'application de plusieurs modifications. Nous avons dérivé un classificateur de probabilité bi-allèle (BALK) de Bernoulli Naive Bayes avec modification en remplaçant l'équation de vraisemblance de sa règle de classification de la distribution de probabilité de Bernoulli par une distribution binomiale N = 2 pour gérer les appels hétérozygotes et en fixant la probabilité a priori à a distribution uniforme, ce qui fait que le classificateur ne dépend que de la vraisemblance des données SNP. La règle de classification BALK est présentée dans l'équation 1.

Où X est l'ensemble de données SNP d'un échantillon, C est un groupe (ou un pays), xi est le nombre d'allèles alternatifs à la position i et pi est la fréquence de l'allèle alternatif à la position i du pays C compté comme échantillons diploïdes . Une description plus complète du développement du classificateur BALK est disponible en tant que méthodes supplémentaires.

Notre objectif était d'identifier les panels SNP les plus parcimonieux pour la classification au niveau des pays, visant moins de 60 SNP dans ces panels ; ce seuil pour les nouveaux panels SNP était basé sur plusieurs considérations. Conformément aux fonctionnalités de multiplexage de la plate-forme Illumina et compte tenu des coûts d'amorce, de préparation de bibliothèque et de séquençage, ainsi que des défis pratiques liés à la préparation de pools de PCR sur un grand nombre d'amorces, nous avons identifié un maximum de 100 SNP au total (sur le nouveau SNP panneaux et code-barres large décrit précédemment, c'est-à-dire BR38) comme seuil réalisable pour un code-barres géographique pour P. vivax.

Un aperçu des étapes de sélection des SNP candidats est décrit dans la section b) de l'organigramme présenté à la Fig. 1. Les SNP optimaux pour la classification des pays ont été sélectionnés à l'aide des approches suivantes : DecisionTree, HFST-0,90 et HFST-0,95 (HFST avec un seuil Fst de 0,9 et 0,95 respectivement), qui sont détaillés dans les méthodes supplémentaires. En bref, pour l'approche DecisionTree (DT), le jeu de données 3 a été soumis à une implémentation DT de la bibliothèque Python sklearn. L'ensemble de SNP sélectionné par DT a ensuite été réévalué avec le classificateur BALK dans l'ensemble d'apprentissage à l'aide des scores MCC (Matthew Correlation Coefficient) au niveau national ainsi que des scores MCC médian et minimum regroupés (entre pays). Le MCC fournit une mesure de la qualité des classifications, allant de -1 (désaccord total) à 1 (prédiction parfaite)30. Pour l'approche HFST (Hierarchical FST), en tant que guide d'arbre bifurquant, un arbre de population rejoignant le voisin a été construit sur la base de la matrice de distance génétique de la population moyenne nette de Nei, puis ré-enraciné au point médian (Fig. 5 supplémentaire). L'approche HFST impliquait de traverser l'arbre guide bifurquant et de sélectionner au hasard les SNP avec FST supérieur à un certain seuil entre les deux populations représentées par les deux nœuds de la branche. Si aucun des SNP n'était au-dessus du seuil lors de la traversée de l'arbre guide, la méthode DT a été utilisée pour obtenir des SNP supplémentaires pour séparer les deux nœuds de la branche. Comme avec l'approche DT, les scores MCC au niveau des pays et les scores MCC médians et minimaux regroupés (entre pays) de chacun des ensembles de SNP sélectionnés ont été calculés à l'aide du classificateur BALK formé par rapport aux SNP sélectionnés avec l'ensemble de données 3.

Pour chaque approche, l'ensemble de données 3 a été utilisé à la fois pour l'entraînement et l'ensemble de tests en 500 répétitions pour obtenir 500 ensembles de SNP. Les 25 meilleurs ensembles de SNP parmi les 500 ensembles de SNP, classés en fonction de la moyenne de leurs scores MCC minimum et médian par rapport aux scores MCC au niveau national, ont été collectés et soumis aux 500 répétitions de la validation croisée stratifiée 10 fois pour éviter sur-ajustant chaque ensemble de SNP en reclassant en fonction de leurs scores MCC minimum moyen et MCC médian pour dériver le meilleur ensemble de SNP pour chaque approche.

Un aperçu des étapes impliquées dans l'évaluation comparative des panels SNP est décrit dans la section c) de l'organigramme présenté à la Fig. 1. Pour comparer le panel SNP large aux trois nouveaux panels SNP candidats identifiés par DT, HFST-0.90, et approche HFST-0,95, une validation croisée stratifiée de 500 répétitions a été entreprise sur chaque panel SNP à l'aide de l'ensemble de données 3.

De plus, pour évaluer la durabilité des performances de prédiction des panels SNP candidats avec différents niveaux de données manquantes (analogues aux échecs de génotypage), des simulations ont été exécutées après avoir supprimé les données de génotype de manière aléatoire. Le classificateur BALK a été formé par rapport aux panels SNP candidats en utilisant tous les échantillons. Pour chaque pays, 25 échantillons ont été échantillonnés au hasard avec remplacement et les appels de génotype ont été retirés des ensembles de SNP dans des proportions de 10 %, 20 % et 30 %. Les échantillons aléatoires ont ensuite été soumis au classificateur formé. Ce processus a été exécuté en 250 répétitions et le score MCC de la prédiction pour chaque pays a été rapporté.

Pour évaluer les performances des panels SNP candidats avec de nouveaux ensembles d'échantillons (par opposition à l'utilisation de la technique de rééchantillonnage de la stratégie de validation croisée), les classificateurs BALK formés ont été exécutés sur l'ensemble de données de validation indépendant et les scores MCC rapportés pour chaque pays.

Afin d'établir des outils informatiques accessibles aux utilisateurs finaux, une plate-forme en ligne a été créée incorporant des outils de classification des données pour déterminer le pays d'origine le plus probable d'un échantillon à l'aide de données génétiques dérivées de différents codes à barres. Le code source existant, développé pour une plate-forme de partage et d'analyse de données sur P. vivax basée sur un microsatellite31, a été modifié pour créer une nouvelle plate-forme Web (vivaxGEN-geo), afin de rassembler les données SNP générées au niveau du code-barres géographique. Cette approche a été choisie en raison de la capacité à i) incorporer des ensembles de SNP manuels permettant des améliorations progressives du code à barres à l'avenir, ii) évaluer les codes à barres avec des données incomplètes en raison d'échecs de génotypage, et iii) évaluer les appels de génotype hétérozygote, qui reflètent les infections polyclonales. Pour une précision optimale, le classificateur BALK fourni sur la plateforme en ligne a été formé avec 941 échantillons, comprenant l'ensemble de données 2 (N = 799) plus l'ensemble de données de validation indépendante (N = 142). L'outil de classification rapporte les trois probabilités les plus élevées pour le pays d'origine et leurs probabilités associées. L'outil de classification rapporte les trois probabilités les plus élevées pour le pays d'origine et leurs probabilités associées. Les probabilités ont été calculées à l'aide de la méthode isotonique telle qu'implémentée dans CalibratedClassfierCV de la bibliothèque sklearn, avec une validation croisée stratifiée de 4 fois pour l'ensemble de données d'étalonnage. La plate-forme Web peut recevoir les données d'entrée dans une représentation de code-barres basée sur des chaînes, des fichiers texte délimités par des tabulations basés sur des colonnes et des fichiers VCF.

Tous les échantillons ont été prélevés avec le consentement éclairé écrit des patients ou de leurs tuteurs légaux, comme indiqué dans la note de données de la version 4 du Malaria Genomic Epidemiology (MalariaGEN) P. vivax Genome Variation Project26.

De plus amples informations sur la conception de la recherche sont disponibles dans le résumé des rapports sur le portefeuille Nature lié à cet article.

L'étude a utilisé les données génomiques de la version 4 (Pv4)26 du MalariaGEN P. vivax Genome Variation Project. Les fichiers au format VCF et zarr contenant les appels de génotype utilisés dans l'étude sont disponibles en libre accès sur la page de ressources de données MalariaGEN à l'adresse https://www.malariagen.net/resource/3026.

Tous les scripts internes personnalisés utilisés pour le filtrage, les analyses et la visualisation des données sont disponibles sur https://github.com/vivaxgen/geo. Le service Web VivaxGEN-geo est accessible à l'adresse http://geo.vivaxgen.org/. En plus des nouveaux panels SNP géographiques décrits dans cette étude, vivaxGEN-geo fournit une classification d'autres panels SNP, y compris un code-barres vietnamien publié (VN40)18.

OMS. Rapport mondial sur le paludisme 2016. Organisation mondiale de la Santé ; Genève 2016. (2016).

Tripura, R. et al. Infections persistantes à Plasmodium falciparum et Plasmodium vivax dans une population de l'ouest du Cambodge : implications pour les stratégies de prévention, de traitement et d'élimination. Malar. J. 15, 181 (2016).

Article Google Scholar

Kho, S. et al. Biomasse cachée des parasites intacts du paludisme dans la rate humaine. N. Engl. J. Med. 384, 2067-2069 (2021).

Article Google Scholar

Blanc, NJ et Imwong, M. Rechute. Adv. Parasitol. 80, 113-150 (2012).

Article Google Scholar

Auburn, S., Cheng, Q., Marfurt, J. & Price, RN L'évolution de l'épidémiologie de Plasmodium vivax : aperçu des outils de surveillance conventionnels et nouveaux. PLoS Med. 18, e1003560 (2021).

Article Google Scholar

Sattabongkot, J., Tsuboi, T., Zollner, GE, Sirichaisinthop, J. & Cui, L. Transmission de Plasmodium vivax : chances de contrôle. Tendances Parasitol. 20, 192-198 (2004).

Article Google Scholar

Jacob, CG et al. Surveillance génétique dans la sous-région du Grand Mékong et en Asie du Sud pour soutenir le contrôle et l'élimination du paludisme. eLife 10, https://doi.org/10.7554/eLife.62997 (2021).

Noviyati, R. et al. Mise en œuvre du génotypage des parasites dans les cadres de surveillance nationaux : retour d'expérience des programmes de contrôle et des chercheurs de la région Asie-Pacifique. Malar. J. 19, 271 (2020).

Article Google Scholar

Diez Benavente, E. et al. La variation génomique du paludisme à Plasmodium vivax révèle des régions sous pression sélective. PloS un 12, e0177134 (2017).

Article Google Scholar

Iwagami, M. et al. Origine géographique de Plasmodium vivax en République de Corée : Analyse du réseau d'haplotypes basée sur le génome mitochondrial du parasite. Malar. J. 9, 184 (2010).

Article Google Scholar

Rodrigues, PT et al. Utilisation de séquences du génome mitochondrial pour suivre l'origine des infections à Plasmodium vivax importées diagnostiquées aux États-Unis. Suis. J. Tropical Med. Hyg. 90, 1102-1108 (2014).

Article Google Scholar

Baniecki, ML et al. Développement d'un code-barres de polymorphisme nucléotidique unique pour génotyper les infections à Plasmodium vivax. PLoS négligé tropical Dis. 9, e0003539 (2015).

Article Google Scholar

Ba, H. et al. Le génotypage multi-locus révèle l'endémicité établie d'une population de Plasmodium vivax géographiquement distincte en Mauritanie, en Afrique de l'Ouest. PLoS négligé tropical Dis. 14, e0008945 (2020).

Article CAS Google Scholar

Dewasurendra, RL et al. Utilisation d'un code-barres génétique de Plasmodium vivax pour la surveillance génomique et le suivi des parasites au Sri Lanka. Malar. J. 19, 342 (2020).

Article CAS Google Scholar

Diez Benavente, E. et al. Un code-barres moléculaire pour informer l'origine géographique et la dynamique de transmission du paludisme à Plasmodium vivax. PLoS Genet. 16, e1008576 (2020).

Article Google Scholar

Price, RN, Auburn, S., Marfurt, J. & Cheng, Q. Caractérisation phénotypique et génotypique de Plasmodium vivax résistant aux médicaments. Tendances Parasitol. 28, 522-529 (2012).

Article CAS Google Scholar

Taylor, AR et al. Quantification de la connectivité entre les populations locales de parasites du paludisme Plasmodium falciparum en utilisant l'identité par descendance. PLoS Genet. 13, e1007065 (2017).

Article Google Scholar

Kattenberg, JH et al. Nouveau test ciblé AmpliSeq hautement multiplexé pour les cas d'utilisation de la surveillance génétique de Plasmodium vivax à plusieurs échelles géographiques. Front Cell Infect. Microbiol 12, 953187 (2022).

Article CAS Google Scholar

Auburn, S. et al. L'analyse génomique révèle un point de rupture commun dans les amplifications du locus de résistance multidrogue 1 de Plasmodium vivax en Thaïlande. J. Infecter. Dis., https://doi.org/10.1093/infdis/jiw323 (2016).

Auburn, S. et al. L'analyse génomique de Plasmodium vivax dans le sud de l'Éthiopie révèle des pressions sélectives dans plusieurs mécanismes parasitaires. J. Infecter. Dis. 220, 1738-1749 (2019).

Article CAS Google Scholar

Ménard, D. et al. Le paludisme clinique à Plasmodium vivax est couramment observé chez les Malgaches Duffy-négatifs. Proc. Natl Acad. Sci. États-Unis 107, 5967–5971 (2010).

Article CAS Google Scholar

Zimmerman, PA Infection à Plasmodium vivax chez les personnes Duffy-négatives en Afrique. Suis. J. Tropical Med. Hyg. 97, 636–638 (2017).

Article Google Scholar

Prix, RN et al. Étendue mondiale de Plasmodium vivax résistant à la chloroquine - Réponse des auteurs. Le Lancet. Infecter. Dis. 15, 630–631 (2015).

Google Scholar

Ratcliff, A. et al. Réponse thérapeutique de Plasmodium falciparum et P. vivax multirésistants à la chloroquine et à la sulfadoxine-pyriméthamine dans le sud de la Papouasie, en Indonésie. Trans. R. Soc. Méditerranée tropicale. Hyg. 101, 351–359 (2007).

Article CAS Google Scholar

Commons, RJ, Simpson, JA, Watson, J., White, NJ et Price, RN Estimation de la proportion de récidives de Plasmodium vivax causées par une rechute : revue systématique et méta-analyse. Suis. J. Tropical Med. Hyg. 103, 1094–1099 (2020).

Article CAS Google Scholar

Malaria Gen et al. Un ensemble de données ouvert sur la variation du génome de Plasmodium vivax dans 1 895 échantillons mondiaux. Bienvenue Open Res. 7, 136 (2022).

Article Google Scholar

Pearson, RD et al. Analyse génomique de la variation locale et de l'évolution récente de Plasmodium vivax. Nat. Genet. 48, 959–964 (2016).

Article CAS Google Scholar

Auburn, S. et al. Caractérisation de la diversité intra-hôte de Plasmodium falciparum à l'aide de données de séquence de nouvelle génération. PloS un 7, e32891 (2012).

Article CAS Google Scholar

Manske, M. et al. Analyse de la diversité de Plasmodium falciparum dans les infections naturelles par séquençage profond. Nature 487, 375–379 (2012).

Article CAS Google Scholar

Jurman, G., Riccadonna, S. & Furlanello, C. Une comparaison des mesures d'erreur MCC et CEN dans la prédiction multi-classes. PloS un 7, e41882 (2012).

Article CAS Google Scholar

Télécharger les références

Nous tenons à remercier les patients qui ont fourni leurs échantillons à l'étude, ainsi que les agents de santé et les équipes de terrain qui ont participé aux prélèvements d'échantillons. Nous remercions également le personnel des installations de logistique, de séquençage et d'informatique du Wellcome Sanger Institute Sample pour leurs contributions. Aux fins du libre accès, l'auteur a appliqué une licence de droit d'auteur public CC BY à toute version du manuscrit accepté par l'auteur découlant de cette soumission. Cette recherche a été financée en partie par le Wellcome Trust (Senior Fellowship in Clinical Science attribué à RNP, 200909). La recherche a également été financée en partie par le ministère australien des Affaires étrangères et du Commerce (TDCRRI 72904), le Conseil national australien de la santé et de la recherche médicale (NHMRC) (APP2001083 attribué à SA) et la Fondation Bill et Melinda Gates (OPP1164105). HT a été soutenu par une bourse de doctorat internationale de l'Université Charles Darwin (CDIPS). L'échantillonnage des patients et la collecte des métadonnées ont été financés par le Réseau Asie-Pacifique pour l'élimination du paludisme (108-07), le ministère malaisien de la Santé (BP00500420) et le NHMRC (1037304 et 1045156 ; bourses à la NMA [1042072 et 1135820], BEB [ 1088738] et MJG [1074795]). MJG a également été soutenu par une bourse de carrière «Hot North» Earth Career (1131932). MUF est soutenu par une bourse de chercheur principal du Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq), Brésil. L'ensemble de la composante de séquençage du génome de l'étude a été financé par des subventions du Conseil de la recherche médicale et du Département britannique pour le développement international (M006212) et du Wellcome Trust (204911) accordées à DPK, et une subvention du Wellcome Trust (206194/Z/17/Z ) attribué à DPK et JCR Ce travail a été soutenu par le Centre australien d'excellence en recherche sur l'élimination du paludisme (ACREME), financé par le NHMRC (APP 1134989).

Division de la santé mondiale et tropicale, Menzies School of Health Research et Charles Darwin University, Darwin, NT, Australie

Hidayat Trimarsanto, Jutta Marfurt, Zuleima Pava, Matthew J. Grigg, Bridget Barber, Nicholas M. Anstey, Benedikt Ley, Kamala Thriemer, Ric N. Price et Sarah Auburn

Institut Eijkman de biologie moléculaire, Jakarta, Indonésie

Hidayat Trimarsanto, Edwin Sutanto, Rintis Noviyanti & Leily Trianty

Wellcome Sanger Institute, Wellcome Genome Campus, Cambridge, Royaume-Uni

Robert Amato, Richard D. Pearson, Julian C. Rayner, Eleanor Drury, Sonia Gonzales, Victoria Simpson, Olive Miotto, Alistair Miles et Dominic P. Kwiatkowski

Exeins Health Initiative, Jakarta, Indonésie

Edwin Sutanto

Centre international de formation et de recherche médicale (CIDEIM), Cali, Colombie

Diego F. Echeverry

Département de microbiologie, Universidad del Valle, Cali, Colombie

Diego F. Echeverry

Université Icesi, Cali, Colombie

Diego F. Echeverry

Groupe Paludisme, Université d'Antioquia, Medellin, Colombie

Tatiana M. Lopera-Mesa, Lidia M. Montenegro, Alberto Tobón-Castaño & Iván D. Vélez

Infectious Diseases Society Sabah-Menzies School of Health Research Clinical Research Unit, Kota Kinabalu, Sabah, Malaisie

Matthew J.Grigg, Bridget Barber et Timothy William

Centre de recherche clinique, Hôpital Queen Elizabeth, Sabah, Malaisie

Timothée Guillaume

Collège des sciences naturelles, Université d'Addis-Abeba, Addis-Abeba, Éthiopie

Sisay Getachew & Beyene Petros

Institut de recherche Armauer Hansen

Sisay Getachew et Abraham Aseffa

Institut éthiopien de santé publique, Addis-Abeba, Éthiopie

Ashenafi Assefa

Unité de recherche en médecine tropicale Mahidol-Oxford, Université Mahidol, Bangkok, Thaïlande

Awab G. Rahim, Cindy S. Chu, Olivo Miotto, Nicholas J. White, Ric N. Price et Sarah Auburn

Faculté de médecine de Nangarhar, Université de Nangarhar, Ministère de l'enseignement supérieur, Jalalabad, Afghanistan

Awab G.Rahim

Unité de recherche clinique de l'Université d'Oxford, Hôpital des maladies tropicales, Hô-Chi-Minh-Ville, Vietnam

Nguyen H. Chau & Tran T. Hien

Division des maladies infectieuses, Centre international de recherche sur les maladies diarrhéiques, Dhaka, Bangladesh

Mohammad S. Alam et Wasif A. Khan

Centre royal de contrôle des maladies, Département de la santé publique, Ministère de la santé, Thimphu, Bhoutan

Sonam Wangchuck

Centre de recherche sur les maladies infectieuses et tropicales, Université des sciences médicales d'Hormozgan, Bandar Abbas, province d'Hormozgan, Iran

Yaghob Hamidi

Faculté de médecine, Université de Khartoum, Khartoum, Soudan

Ishag Adam

Laboratoire clé de contrôle et de prévention des maladies parasitaires de la Commission nationale de la santé, Laboratoire clé de la province du Jiangsu sur la technologie de contrôle des parasites et des vecteurs, Institut des maladies parasitaires du Jiangsu, Wuxi, Chine

Yaobao Liu et Qi Gao

École de santé publique, Université médicale de Nanjing, Nanjing, Chine

Yaobao Liu

Unité de recherche sur le paludisme Shoklo, Faculté de médecine tropicale, Université Mahidol, Mae Sot, Thaïlande

Kanlaya Sriprawat, Cindy S. Chu & François Nosten

Département de parasitologie, Institut des sciences biomédicales, Université de Sao Paulo, Sao Paulo, Brésil

Marcelo U. Ferreira

Santé mondiale et médecine tropicale, Institut d'hygiène et de médecine tropicale, Université NOVA de Lisbonne, Lisbonne, Portugal

Marcelo U. Ferreira

Institut de recherche médicale de Papouasie-Nouvelle-Guinée, Madang, Papouasie-Nouvelle-Guinée

Moïse Laman

Université Deakin, Victoria, Australie

Alyssa Barry

Division de la santé et de l'immunité de la population, The Walter and Eliza Hall Institute of Medical Research, Victoria, Australie

Alyssa Barry et Ivo Mueller

Département de biologie médicale, Université de Melbourne, Victoria, Australie

Alyssa Barry

Département Parasites et Insectes Vecteurs, Institut Pasteur, Paris, France

Ivo Muller

Fondation de médecine tropicale, Manaus, Brésil

Marcus VG Lacerda

Fondation Oswaldo Cruz, Manguinhos, Rio de Janeiro, Brésil

Marcus VG Lacerda

Université péruvienne Cayetano Heredia, Lima, Pérou

Alejandro Llanos-Cuentas

Université Mahidol, Bangkok, Thaïlande

Srivicha Krudsood

Institut de recherche sur les sciences médicales des forces armées, Bangkok, Thaïlande

Chanthap Lon

Université de Gondar, Gondar, Éthiopie

Rezika Mohammed

Université Jimma, Jimma, Éthiopie

Daniel Yilma

Centre de recherche en médecine tropicale, Porto Velho, Brésil

Dhélio B. Pereira

Institut de recherche en médecine tropicale, Manille, Philippines

Foi EJ Aubépine

Hôpital Umphang, Tak, Thaïlande

Chayadol Namaik-GN

Centre de recherche clinique, Cali, Colombie

Maria F. Villegas

GlaxoSmithKline, Brentford, Royaume-Uni

Justin A. Green et Gavin Koh

Institut de recherche médicale de Cambridge, École de médecine clinique, Université de Cambridge, Cambridge, Royaume-Uni

Julian C. Rayner

Centre de médecine tropicale et de santé mondiale, Nuffield Department of Medicine, Université d'Oxford, Oxford, Royaume-Uni

Nicholas J. White, François Nosten, Ric N. Price et Sarah Auburn

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

SA, HT, RA, RDP et RNP ont conçu et conçu l'étude et rédigé la première ébauche du manuscrit. SA, HT, RA, RDP et ES ont procédé à l'analyse des données. RN, LT, JM, ZP, DEF, TML-M., LMM, AT-C., MJG, BB, TW, NMA, SG, BP, A.Aseffa, A.Assefa, AGR, NHC, TTT, MSA, WAK, BL, KT, SW, YH, IA, YL, QG, KS, MUF, ML, AB, IM, MVGL, AL-C., SK, CL, RM, DY, DBP, FEJE, CSC, IDV, CN -L., MFV, JAG, GK, NJW et FN ont fourni des collections et des métadonnées essentielles sur le paludisme sur le terrain. DPK, JCR, RA, RDP, ED, SG, VS, OM et AM ont contribué au séquençage, à la production de données et au soutien informatique.

Correspondance avec Sarah Auburn.

Les auteurs ne déclarent aucun intérêt concurrent.

Communications Biology remercie Alfred Amambua-Ngwa et les autres examinateurs anonymes pour leur contribution à l'examen par les pairs de ce travail. Rédacteur en chef de la gestion principale : Luke R. Grinham. Les rapports des pairs examinateurs sont disponibles.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Trimarsanto, H., Amato, R., Pearson, RD et al. Un code-barres moléculaire et un outil d'analyse de données basé sur le Web pour identifier le paludisme à Plasmodium vivax importé. Commun Biol 5, 1411 (2022). https://doi.org/10.1038/s42003-022-04352-2

Télécharger la citation

Reçu : 01 décembre 2021

Accepté : 08 décembre 2022

Publié: 23 décembre 2022

DOI : https://doi.org/10.1038/s42003-022-04352-2

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.