banner

Noticias

Apr 09, 2024

Inferencia directa y control de la estructura genética de la población a partir de datos de secuenciación de ARN.

Biología de las comunicaciones volumen 6, número de artículo: 804 (2023) Citar este artículo

2275 Accesos

21 altmétrica

Detalles de métricas

Los datos de RNAseq se pueden utilizar para inferir variantes genéticas, pero su uso para estimar la estructura genética de la población sigue sin explorarse. Aquí, construimos una herramienta computacional disponible gratuitamente (RGStraP) para estimar los componentes principales genéticos basados ​​en RNAseq (RG-PC) y evaluar si los RG-PC se pueden usar para controlar la estructura de la población en los análisis de expresión génica. Utilizando muestras de sangre total de poblaciones nepalesas poco estudiadas y el estudio de Geuvadis, mostramos que los RG-PC tuvieron resultados comparables a los genotipos basados ​​en matrices pareadas, con una alta concordancia de genotipo y altas correlaciones de los componentes genéticos principales, capturando subpoblaciones dentro del conjunto de datos. En el análisis diferencial de expresión genética, encontramos que la inclusión de RG-PC como covariables redujo la inflación estadística de la prueba. Nuestro artículo demuestra que la estructura genética de la población se puede inferir y controlar directamente mediante el uso de datos de RNAseq, lo que facilita mejores análisis retrospectivos y futuros de los datos transcriptómicos.

La secuenciación de ARN (RNAseq) ha revolucionado nuestra comprensión del transcriptoma, ofreciendo un método de cuantificación preciso para la expresión génica, así como la identificación de sitios de empalme alternativos específicos y transcripciones específicas de tipo celular1,2. Su aplicación se extiende al entorno clínico, lo que nos permite dilucidar aún más enfermedades complejas e identificar posibles biomarcadores en enfermedades transmisibles y no transmisibles3.

Sin embargo, los estudios que utilizan RNAseq rara vez consideran la variación genética de la línea germinal también contenida en los conjuntos de lectura de RNAseq. Los estudios que no aprovechan esta información pueden ser vulnerables a sesgos y factores de confusión, como la estratificación de la población, que puede afectar la transcripción entre grupos4,5,6,7. Para superar este problema, los investigadores generalmente se han basado en datos de una matriz de todo el genoma o de una secuencia del genoma completo (WGS) coincidentes para los mismos individuos con RNAseq. Esto permite a los investigadores implementar enfoques para controlar la estratificación de la población, como el cálculo de los componentes genéticos principales (PC) y su uso como covariables en modelos de asociación estadística posteriores8,9,10. Se considera que las PC genéticas representan la estructura genética latente dentro y entre poblaciones, lo que introduce confusión debido a diferencias en el entorno social11 o (en el caso de la expresión genética diferencial) debido a la heterogeneidad de loci de rasgos cuantitativos entre grupos. Sin embargo, la necesidad de una matriz de todo el genoma o WGS para coincidir con los datos de RNAseq es potencialmente innecesaria y, de hecho, puede no ser posible en entornos donde los recursos son limitados, como los países de ingresos bajos y medianos bajos (PIBM) con poblaciones muy diversas y poco estudiadas.

Se ha demostrado que se pueden realizar llamadas de genotipo a partir de datos de RNAseq utilizando herramientas como GATK12,13,14. El enfoque de utilizar datos de RNAseq para capturar la estructura genética se ha aplicado con fines ganaderos y agrícolas15,16,17,18, por ejemplo, para investigar la estructura poblacional, la historia y la adaptación de la cebada domesticada (Hordeum vulgare)17. Si bien se ha demostrado la prueba de concepto y la utilidad posterior de los genotipos basados ​​en RNAseq, por ejemplo para variantes específicas de tejido19, su aplicación para inferir la estructura de la población humana es prometedora, pero sigue estando relativamente poco explorada20.

Los objetivos de este estudio son (i) demostrar que los genotipos basados ​​en RNAseq pueden capturar la estructura genética de la población de una población humana diversa pero poco estudiada, y (ii) mostrar que el uso de componentes genéticos principales basados ​​en RNAseq (RG-PC) puede controlar eficazmente la estructura de la población en el análisis de asociación. Aquí, reclutamos y generamos datos de RNAseq de sangre total de 376 personas de Nepal, un país sin salida al mar situado en el Himalaya con más de 125 grupos étnicos21,22. Desarrollamos un proceso de análisis de RNAseq (RGStraP) para calcular los componentes genéticos principales directamente a partir de datos de RNAseq, luego validamos el rendimiento de RGStraP con datos de genotipos de todo el genoma de los mismos individuos nepaleses. También probamos el proceso en muestras del consorcio Geuvadis, que contiene 465 muestras con datos de genotipo-RNAseq emparejados de cinco de las 1000 poblaciones de genomas23. Finalmente, mostramos la validez del ajuste por RG-PC en un análisis de asociación para identificar la expresión genética específica del sexo. En general, nuestro estudio establece que la estructura de la población humana, particularmente de una población poco estudiada pero diversa, se puede capturar y controlar de manera efectiva directamente utilizando datos de RNAseq.

En este estudio, construimos el canal RGStraP para calcular RG-PC a partir de variantes genéticas obtenidas a partir de datos de RNAseq. RGStraP se basa en GATK para su conjunto de llamadas de variantes, así como en PLINK y flashPCA para filtrar los SNP y calcular los componentes genéticos principales a partir de ellos, respectivamente (Métodos). Ponemos RGStraP a disposición de la comunidad a través de github (https://github.com/fachrulm/RGStraP)24.

Recolectamos muestras de sangre completa de 376 personas reclutadas en Latlipur, Nepal, como parte del estudio STRATAA, luego realizamos RNAseq de sangre completa utilizando Illumina Novaseq (Métodos). La cohorte incluyó personas con y sin infección confirmada por S. Typhi; A los efectos de este estudio, los grupos de enfermedades se utilizaron como covariable de regresión para ajustar la expresión genética durante los análisis posteriores. El origen étnico autoinformado mostró individuos pertenecientes a 6 amplios grupos étnicos/castas.

Ejecutamos el proceso RGStraP (Fig. 1) en 376 muestras de RNAseq de sangre completa, de las cuales 362 pasaron el control de calidad después de la llamada de variante genética. Se identificaron un total de 4.921.472 variantes genéticas en todas las muestras (Métodos). Con una mediana de 92.782.803 lecturas por muestra (rango 21.545.569 a 182.140.303), las profundidades de secuenciación se correlacionaron moderadamente (ρ = 0,487) con las variantes genéticas totales llamadas por muestra (Figura complementaria 1a).

Luego se realizó un filtrado adicional basado en faltantes, MAF y LD antes de generar componentes principales (PC) que representan la estructura de la población.

Para determinar la eficiencia de estimar las PC genéticas a partir de datos de RNAseq, investigamos los efectos de la frecuencia de alelos menores (MAF), el desequilibrio de ligamiento (LD) y el uso de un conjunto preespecificado de variantes genéticas. Descubrimos que la selección de un umbral MAF de> 0,05 y un umbral LD ​​por pares de r2 <0,05 logró el equilibrio óptimo al ofrecer la mayor cantidad de variantes para el análisis y la correlación más alta entre las PC genéticas basadas en RNAseq y basadas en matrices (Figura 2 complementaria). ). Del total de 4.921.472 variantes genéticas, 152.072 SNP pasaron el filtro MAF (MAF > 0,05) y 36.440 SNP pasaron el filtro LD (LD <0,05). Hay variantes genéticas a partir de datos genómicos pareados disponibles para 299 de los 376 individuos iniciales; Se identificaron un total de 552,758 SNP y pasaron los filtros de control de calidad iniciales (Métodos), de los cuales 315,615 SNP y 29,943 SNP pasaron filtros MAF> 0,05 y otros filtros LD <0,05, respectivamente. De las 299 muestras con RNAseq y genotipos de matriz emparejada, 280 de ellas pasaron el control de calidad y se utilizaron para análisis posteriores posteriores.

Entre las 280 muestras con genotipos coincidentes basados ​​en matriz y RNAseq, encontramos 7343 SNP superpuestos entre los conjuntos de SNP de matriz y RNAseq filtrados con MAF en función de sus posiciones cromosómicas exactas. Luego se calculó la concordancia genética a partir de los SNP comunes basándose en genotipos de alelos coincidentes para cada posición, teniendo en cuenta el cambio de cadena. Se encontró que la mayoría de las muestras de RNAseq concordaban con sus respectivos genotipos de matriz emparejada, con una concordancia media de 0,925 para todas las muestras y 232 pares de muestras (82,8%) tenían una concordancia superior a 0,90 (Fig. 2a). Descubrimos que una alta profundidad de RNAseq se correlacionaba positivamente con una alta concordancia genética con genotipos de matriz pareada; sin embargo, también estuvieron presentes valores atípicos de baja concordancia genética a grandes profundidades (ρ = 0,1926; figura complementaria 1b).

Se encontró que la concordancia de genotipo de SNP comunes entre muestras de matriz y RNAseq era alta, y la mayoría de las muestras (232 de 280) alcanzaron concordancias >0,90. b El análisis de correlación canónica entre diez RG-PC y diez PC de matriz mostró correlaciones significativas (Lambda de Wilks, valor p <0,05) para las primeras 7 variables canónicas (CV) entre los dos conjuntos. Los primeros 3 CV de 10 RG-PC capturaron fuertemente la información genética de las PC de matriz (Rc1 = 0,946, Rc2 = 0,864, Rc3 = 0,853), en los que la proporción acumulada de varianza compartida entre los dos conjuntos alcanzó hasta 0,956 solo desde el 3 CV.

Al observar las correlaciones entre las PC genéticas basadas en matrices y las RG-PC, encontramos que el simple filtrado basado en MAF y LD no era adecuado, ya que las principales RG-PC (específicamente las PC 1 y 2) no representaban la estructura genética encontrada. en las PC basadas en matrices, y solo se encontró una correlación significativa a partir de RG-PC3 en adelante (Figura complementaria 3). Descubrimos que el enfoque común de subconjunto de llamadas de genotipo a las variantes en HapMap325 ofrecía llamadas de genotipo de mayor calidad y una mejor correlación entre RNAseq y las PC genéticas basadas en matrices (Figura complementaria 4). Se encontró una superposición de 23.227 SNP bien definidos entre HapMap3 y las variantes filtradas por MAF (MAF > 0,05), de los cuales 4887 pasaron el filtro LD (LD <0,05) y se utilizaron para calcular RG-PC. También calculamos las PC genéticas a partir de los 29,943 SNP de matriz de genotipos emparejados como una medida de la verdadera estructura genética que se comparará con las RG-PC. Para evaluar la consistencia de la estructura poblacional inferida entre los dos enfoques, calculamos la correlación de Spearman entre las PC genéticas de los SNP de matriz de genotipos emparejados y las RG-PC. PC1 de RNAseq y conjuntos de matrices se correlacionaron fuertemente entre sí (|ρ| = 0,93), seguido de RG-PC3 y PC2 de los datos de la matriz (|ρ| = 0,61) y RG-PC2 y PC3 de los datos de la matriz (|ρ| = 0,6) (Figura complementaria 4). Como era de esperar, las PC genéticas de un enfoque no corresponden exclusivamente a una sola PC del otro enfoque, como se puede ver con correlaciones significativas de una sola PC de matriz con varias RG-PC. Para investigar esto más a fondo, realizamos un análisis de correlación canónica entre las 10 PC de matriz principales y las RG-PC y descubrimos que las RG-PC explicaban completamente la variación de las 10 PC de matriz principales (Fig. 2b).

La PCA tanto de matriz como de RG-PC mostró una agrupación visible según el origen étnico autoinformado del paciente. La matriz PC1 vs PC2 capturó la agrupación de los grupos Janajati-Hill, Newar y Madhesi, y la matriz PC3 muestra una clara distinción entre las muestras de Newar y otras muestras (Fig. 3). De acuerdo con sus correlaciones de Spearman, RG-PC1, RG-PC2 y RG-PC3 también capturaron la agrupación de los grupos mostrada por los datos de la matriz, pero carecían de cierta distancia entre los grupos debido principalmente a la matriz PC2.

Los SNP de la superposición de los resultados de llamadas de variantes de RNAseq y HapMap3 pudieron capturar la estructura genética que separa las etnias autoinformadas en Nepal en comparación con los genotipos de matriz emparejada, que se muestran en las agrupaciones en los gráficos de PCA.

También probamos el rendimiento de RGStraP en un conjunto de datos de 465 muestras del consorcio Geuvadis, distribuidas en 5 poblaciones diferentes: británicos en Inglaterra y Escocia (GBR), residentes de Utah con ascendencia del norte y oeste de Europa (CEU), finlandeses en Finlandia (FIN), toscani en Italia (TSI) y yoruba en Ibadán, Nigeria (YRI)23. Un total de 463 muestras pasaron el filtrado posterior como parte del proceso de llamada de variantes (Métodos). La agrupación por cada población se puede ver en las PC principales a partir de datos de matriz emparejada y de RNAseq: la PC1 separa las muestras europeas (EUR) y africanas (AFR), mientras que la PC2 separa las muestras EUR, y se observan agrupaciones más distintas para las muestras FIN y TSI. (Figura complementaria 5A). El análisis de correlación canónica entre las 10 principales PC de matriz y RG-PC mostró que las RG-PC explicaban completamente la varianza de las PC de matriz, con CV1 de RG-PC representando una proporción de varianza compartida de 0,903 y los primeros 3 CV (Rc1 = 0,994, Rc2 = 0,942, Rc3 = 0,752) alcanzando una proporción acumulada de varianza compartida de 0,998 (Fig. 4a).

Un análisis de correlación canónica entre diez RG-PC y diez PC de matriz de las muestras de Geuvadis mostró correlaciones significativas (Lambda de Wilks, valor de p <0,05) para las primeras 4 variables canónicas (CV) entre los dos conjuntos. Los primeros 3 CV de 10 RG-PC capturaron fuertemente la información genética de las PC de matriz (Rc1 = 0,994, Rc2 = 0,942, Rc3 = 0,752). La proporción acumulada de varianza compartida entre los tres conjuntos alcanzó 0,998 de solo los 3 CV, 0,903 de ellos representados por CV1. b Gráficos PCA de las muestras de Nepal y Geuvadis que muestran una estructura poblacional comparable entre las PC basadas en matrices y las RG-PC, separando los grupos de ascendencia (europeos, africanos y del sur de Asia) en las PC principales.

Para proyectar las muestras de Nepal en el espacio de PC con otras poblaciones, realizamos PCA de las muestras de Nepal y Geuvadis juntas. Al igual que las PC de matriz, los resultados de RGStraP pudieron distinguir los grupos de ascendencia amplia; RG-PC1 pudo separar entre AFR y otras muestras, mientras que RG-PC2 distinguió las muestras de EUR y Nepal (en este caso, que representan el sur de Asia) (Fig. 4b). La separación dentro de las muestras EUR también fue visible en RG-PC4, mostrando distintos grupos de muestras FIN y TSI (Fig. 4b). Cuando se proyectaron con las muestras de Geuvadis, los grupos de grupos étnicos autoinformados por los nepaleses también eran visibles (Figura complementaria 5b). Este análisis valida aún más el rendimiento de RGStraP en la captura de estructuras genéticas comparables a genotipos de matriz en diversas poblaciones, lo que también está respaldado por los resultados del análisis de correlación canónica (Figura complementaria 5c).

Para evaluar hasta qué punto las PC genéticas controlan la estratificación de la población en el análisis diferencial de expresión genética (DGE) de estos individuos, realizamos DGE en las 280 muestras de Nepal para identificar la expresión genética específica del sexo, con y sin ajuste para las PC genéticas utilizando cualquiera de las PC de matriz. o RG-PC (Métodos). Antes de utilizar edgeR para el análisis DGE, filtramos genes de baja expresión en función de recuentos por millón (CPM> 0,05) para tener en cuenta las diferencias en la profundidad de secuenciación. En los análisis sólo se incluyeron genes autosómicos.

Una reducción sistemática fue evidente al ajustar la estructura de la población en el análisis DGE. Un total de 3038 (valor de p <0,05) y 325 (FDR <0,05) genes se expresaron diferencialmente al ajustar solo por edad y grupos de enfermedades, mientras que el número disminuyó después de ajustar con PC genéticas; La inclusión de PC de matriz redujo el número de genes expresados ​​diferencialmente a 2585 (valor p <0,05) y 144 (FDR <0,05), mientras que el número disminuyó a 2778 (valor p <0,05) y 272 (FDR <0,05) al incluir PC RG. La mayoría de los genes expresados ​​diferencialmente identificados sin considerar las PC genéticas todavía se encontraron después de incluir las PC de matriz o las RG-PC (2478 y 2381 con un valor de p <0,05, respectivamente; 138 y 213 con FDR <0,05, respectivamente). La mayoría de los genes DE se compartieron entre los resultados que utilizaron matrices de PC y RG-PC (2175 con valor de p <0,05 y 130 con FDR <0,05). Al tener en cuenta el cambio logarítmico, 4 genes pasaron el filtro (FDR <0,05, |logFC| > 1) en el conjunto sin considerar las PC genéticas, y el número disminuyó a 3 al incluir la matriz o las RG-PC. Esto demuestra cómo las RG-PC controlan la estratificación de la población en el análisis de RNAseq posterior de manera similar a las PC genéticas calculadas a partir de genotipos de matriz pareada, lo que reduce las asociaciones significativas que reflejaban variaciones en la estructura de la población en lugar de la biología de interés.

Los efectos de la estructura de la población fueron visibles en los gráficos cuantil-cuantil (QQ), con estadísticas de prueba atenuadas en todo el transcriptoma en el análisis con RG-PC (Fig. 5a). Esto se ve respaldado cuantitativamente por una menor inflación sistemática (m); Al comparar la proporción de medianas de las estadísticas de chi-cuadrado entre los resultados de DGE sin PC genéticas y con RG-PC como covariables, encontramos una ligera reducción sistemática de las estadísticas de la prueba después de incluir RG-PC (m = 0,935). También se encuentra una reducción similar cuando se utilizan PC de matriz como covariables (m = 0,92; figura complementaria 6). Finalmente, evaluamos un modelo lineal mixto (MLM) con una matriz de relaciones genómicas (GRM) construida a partir de SNP (métodos) basados ​​en RNAseq. De manera similar, encontramos que las RG-PC pudieron controlar la estructura de la población en el GRM basado en RNAseq (m = 0,985) (Fig. 5b).

Los resultados del análisis de expresión genética diferencial entre muestras de diferente sexo muestran (a) una reducción sistemática en las estadísticas de las pruebas cuando se incluyen PC genéticas basadas en RNAseq como covariables en comparación con sin ellas, lo que se demuestra por la métrica de inflación sistemática baja (m); b También se encontró que la distribución de probabilidades después del modelo lineal mixto (MLM) en una matriz de relaciones genéticas (GRM) estaba ligeramente deflactada en el análisis con PC genéticas en comparación con el que no las tenía, aunque no en la medida del análisis DGE.

La estructura de la población generalmente se captura mediante matrices de genotipos, lo que no siempre se realiza en proyectos centrados en análisis de expresión genética. La genotipificación puede no ser práctica cuando los recursos son limitados o cuando se analizan conjuntos de datos de RNAseq existentes y/o disponibles públicamente que casi siempre no ofrecen acceso a muestras originales. En este estudio, demostramos cómo los SNP adquiridos únicamente a partir de la llamada de variantes de RNAseq pudieron capturar una estructura de población comparable a los resultados de los datos de la matriz. Además, demostramos que los componentes principales genéticos basados ​​en RNAseq (RG-PC) pudieron controlar la estructura de la población en el análisis de expresión genética diferencial, y que el análisis de modelo lineal mixto utilizando una matriz de relación genética basada en llamadas de genotipo de RNAseq pudo lograr resultados similares. Para facilitar el uso de RG-PC, también construimos y ponemos a disposición de forma gratuita la herramienta RGStraP (https://github.com/fachrulm/RGStraP) para la comunidad de investigación en general.

Nuestro estudio permite el control de la estructura genética de la población en análisis de conjuntos de datos transcriptómicos actuales e históricos, que con frecuencia no vienen con genotipos coincidentes. Esto es particularmente importante en entornos de bajos recursos, en particular en países de ingresos bajos y medianos (por ejemplo, Nepal) con poblaciones muy diversas y estructuradas o para rasgos donde la estructura genética de la población a pequeña escala puede ser confusa.

Nuestro estudio tiene varias limitaciones. El principal desafío de construir PC genéticas a partir de los resultados de llamadas de variantes de RNAseq es cómo seleccionar adecuadamente los SNP que se incluirán, ya que el filtrado MAF y LD no son suficientes para eliminar los SNP no informativos, lo que da como resultado que los PC principales no correspondan al origen étnico autoinformado. Esto se solucionó mediante el uso de SNP superpuestos entre los resultados de llamada de la variante RNAseq y las variantes de HapMap3, lo que nos permitió adquirir un conjunto de SNP bien establecidos; sin embargo, este conjunto de SNP aún puede pasar por alto una estructura genética importante, por ejemplo, variantes raras y de baja frecuencia. Debido a la naturaleza de las plataformas RNAseq que solo capturan variantes en regiones transcritas, las variantes más raras que se encuentran en regiones funcionales cruciales, como las regiones promotoras y potenciadoras, no se contabilizan25. Estas variantes raras y no transcritas están relacionadas principalmente con un mayor riesgo de diversas enfermedades y están enriquecidas dentro de loci de rasgos cuantitativos expresados ​​(eQTL)26,27,28.

Se ha informado que las variantes extraídas a partir de datos de RNAseq utilizando un método GATK comparable son confiables para el mapeo de eQTL específico de tejido y los análisis de expresión específica de alelo (ASE)19. Sin embargo, el enfoque se basó en gran medida en la imputación del genotipo utilizando un panel de referencia que sigue siendo predominantemente europeo, lo que hace que el enfoque aún sea subóptimo para el análisis de eQTL en otras poblaciones, especialmente aquellas que están poco estudiadas. Por lo tanto, el método descrito en nuestro estudio no debe utilizarse como reemplazo uno a uno de la matriz de genotipado convencional o la secuenciación del genoma completo.

En resumen, hemos desarrollado un enfoque y una herramienta para inferir la estructura genética de la población directamente a partir de datos de RNAseq en diversas poblaciones y luego demostramos su uso en el análisis diferencial de expresión genética para controlar la estructura genética cuando los datos de genotipado no están disponibles. Esperamos que nuestros resultados permitan un mejor control de la confusión en los análisis de RNAseq y faciliten retrospectivos y metanálisis más rigurosos de los datos de RNAseq.

El estudio STRATAA fue aprobado por el Consejo de Investigación en Salud de Nepal (NHRC, ref 306/2015) y OxTREC (Comité de Ética de Investigación Tropical de Oxford, ref 39-15). Todos los participantes dieron su consentimiento informado para las pruebas genéticas humanas. El equipo de STRATAA en Nepal anonimizó las muestras de sangre y ácido nucleico, y los datos asociados, antes de enviarlas al extranjero para su análisis.

Este estudio utilizó muestras de sangre recolectadas en Lalitpur, Nepal, como parte del estudio de la Alianza Estratégica contra la Tifoidea en África y Asia (STRATAA), que incluyó vigilancia pasiva de la fiebre entérica y una encuesta serológica basada en la población29,30. Se extrajo sangre de los participantes febriles reclutados en el estudio de vigilancia pasiva, específicamente aquellos que presentaban una temperatura >38,5 °C o antecedentes de fiebre durante >72 h. De los volúmenes totales de muestra de sangre (≤16 ml para pacientes >16 años, ≤7 ml para ≤16 años), se sometieron alícuotas a (i) cultivo bacteriológico para identificar la presencia de Salmonella enterica serovares Typhi (S. Typhi); (ii) almacenamiento en tubos PAXgene para su posterior extracción de ARN; y (iii) extracción de ADN y posterior genotipado humano. También se extrajo sangre de participantes sanos en la encuesta serológica (≤8 ml para pacientes >16 años, ≤7 ml para ≤16 años), de los cuales también se sometieron alícuotas a (i) análisis serológico; (ii) almacenamiento de PAXgene para análisis de ARN; y (iii) extracción de ADN.

Analizamos el ARN de 49 participantes con cultivo positivo de S. Typhi y 275 participantes con cultivo negativo de S. Typhi de la vigilancia pasiva, y 52 controles sanos de la encuesta serológica. Los tubos PAXgene se enviaron a la Universidad de Monash en Melbourne, Australia, donde se extrajo el ARN utilizando el kit PAXgene Blood RNA. Se envió una alícuota de ARN (60 µl, 10–20 ng/ul) para cada muestra al Instituto Wellcome Sanger en Hinxton, Inglaterra, para su secuenciación. La preparación de la biblioteca se realizó utilizando el kit personalizado de ARN NEBNext Ultra II realizado en una plataforma de automatización Agilent Bravo WS, bajando las colas de poli(A). Después de los ciclos de reacción en cadena de la polimerasa (PCR) (14 ciclos estándar), las placas se purificaron utilizando perlas Agencourt AMPure XP SPRI y luego se cuantificaron las bibliotecas utilizando el kit cuantitativo de ADNds de alta sensibilidad Biotium Accuclear Ultra. Las bibliotecas agrupadas se cuantificaron utilizando un bioanalizador Agilent y se normalizaron a 2,8 nM. Luego, las muestras se sometieron a agotamiento de globina utilizando el kit KAPA RNA HyperPrep con RiboErase (HMR) Globin. Las bibliotecas se sometieron a una secuenciación de extremos emparejados de 2 × 100 pb utilizando la plataforma Illumina Novaseq. Dependiendo del nivel de multiplexación, cada biblioteca se secuenció hasta tres veces para generar un promedio de hasta 80 millones de lecturas por muestra.

Para 299 de los participantes nepaleses con datos de RNAseq, se extrajo con éxito ADN humano (en el Hospital Patan en Nepal) utilizando el kit midi de sangre QIAamp DNA (QIAGEN) y se envió una alícuota de ADN al Instituto del Genoma de Singapur para el genotipado de SNP. El genotipado se realizó utilizando el kit Illumina Infinium Global Screening Array-24 (chip GSAMD-24v2_A1). Se utilizaron filtros de control de calidad estrictos para eliminar los marcadores SNP de bajo rendimiento. Los SNP se eliminaron según los siguientes parámetros; SNP con una tasa de llamadas <95%; SNP con tasa de llamadas diferencial entre casos versus valor de control P <0,001; SNP con un valor P de equilibrio de Hardy-Weinberg <1e-07 en los controles; SNP con un valor P de equilibrio de Hardy-Weinberg <1e-11 en los casos. Se eliminaron las muestras con una tasa de llamadas <95%, aquellas con una tasa de llamadas más baja de cada par de muestras que tenían una relación de identidad por descendencia (IBD) de primer o segundo grado y aquellas que eran muestras atípicas de PCA.

También utilizamos un conjunto de datos de validación del consorcio Geuvadis, que contiene 465 muestras de líneas celulares linfoblastoides (LCL) de cinco de las 1000 poblaciones de genomas: británicos en Inglaterra y Escocia (GBR), residentes de Utah con ascendencia del norte y oeste de Europa (CEU), Finlandés en Finlandia (FIN), Toscani en Italia (TSI) y yoruba en Ibadan, Nigeria (YRI)23,31. Después de la extracción del ARN total con el reactivo TRIzol (Ambion) y la evaluación de la calidad del ARN con el Nano kit Agilent Bioanalyzer RNA 6000, la preparación de la biblioteca se realizó utilizando el TruSeq RNA Sample Prep Kit v2 para secuenciación de ARNm de extremos pares de 2 × 75 pb en la plataforma Illumina HiSeq200023 . Los datos de genotipos emparejados disponibles se obtuvieron del conjunto de datos de la Fase 3 del Proyecto 1000 Genomas31.

Los análisis computacionales se realizaron en un clúster HPC con 6 nodos, cada uno equipado con CPU de 2 × 16 núcleos (32 subprocesos) y 512 GB de memoria. Se recomienda ejecutar RGStraP en un clúster de computación de alto rendimiento (HC), ya que el paso de alineación por sí solo requiere una RAM mínima de 32 GB. Recomendamos al menos 100 GB de memoria, un procesador multinúcleo con al menos 8 núcleos y amplio almacenamiento dependiendo de la cantidad de muestras procesadas. También se recomienda un sistema de gestión de carga de trabajo como SLURM para una mejor gestión de los recursos.

Se realizó control de calidad (QC) de los datos de secuenciación de acuerdo con las lecturas de FastQC (bioinformatics.babraham.ac.uk/projects/fastqc). Luego, los adaptadores de Illumina se recortaron con Trim Galore. (bioinformatics.babraham.ac.uk/projects/trim_galore) y los duplicados ópticos se eliminaron utilizando Clumpify de bbmap. Luego seguimos el proceso de mejores prácticas de GATK para el descubrimiento de variantes cortas de RNAseq, que comenzó con un proceso de mapeo de dos pasos al genoma humano GRCh38 usando STAR32, a partir del cual los archivos del mapa de alineación de secuenciación (BAM) resultantes de las diferentes ejecuciones de cada muestra se fusionaron usando Picard33. Las lecturas de baja calidad (MAPQ <20) se filtraron de los archivos fusionados usando SAMtools34, seguido de pasos adicionales de control de calidad, llamada de variantes y filtrado con GATK412. Las variantes listas para el análisis luego se filtraron usando PLINK35,36, eliminando las variantes duplicadas y palindrómicas y manteniendo solo los polimorfismos de un solo nucleótido (SNP) autosómicos. Excluimos a los individuos con más del 20% de genotipos faltantes y filtramos aún más los SNP basados ​​en RNAseq, después de eliminar variantes en la región HLA, según la frecuencia de alelos menores (MAF; maf = 0,01, hwe = 0, geno = 0,1, mente = 0,2). así como desequilibrio de vinculación (LD; win = 1000, paso = 50, r2 = 0,05). Se capturaron con éxito RG-PC para 351 y 463 individuos en las cohortes de Nepal y Geuvadis, respectivamente. También se aplicaron los mismos filtros de SNP a los SNP basados ​​en matrices, y para los análisis de correlación a nivel de SNP convertimos las anotaciones del genoma de los SNP de matriz de GRCh37 a GRCh38 (//genome.ucsc.edu/cgi-bin/hgLiftOver ). La fusión de los conjuntos de SNP de las muestras de Nepal y Geuvadis se realizó mediante PLINK35,36.

Para calcular la concordancia a nivel de SNP, tomamos SNP superpuestos entre la matriz filtrada por MAF y los resultados de RNAseq según la posición del cromosoma y calculamos la concordancia de muestras pareadas según el genotipo coincidente (considerando la heterocigosidad y el posible cambio de cadena) para cada SNP en ambos resultados. Para este análisis se utilizó un total de 280 muestras nepalesas con RG-PC y genotipo de matriz coincidente.

Para mantener solo los SNP significativos de la variante de RNAseq que llama a los resultados para generar componentes genéticos principales (PC), tomamos SNP superpuestos (posiciones cromosómicas idénticas y genotipos coincidentes teniendo en cuenta posibles cambios de cadena) entre los SNP de RNAseq filtrados por MAF y las variantes de HapMap3 para obtener una conjunto de SNP bien definidos, después de lo cual se realizó el filtrado LD en el conjunto. Luego generamos PC genéticas para los conjuntos de SNP de matriz y RNAseq filtrados con LD por separado usando flashPCA37, a partir de los cuales se crearon gráficos de PCA con ggplot238 y las correlaciones de Spearman entre los dos conjuntos de PC se calcularon usando la función del paquete de estadísticas de R39. También calculamos coeficientes de correlación canónica 40,41,42 entre las PC de matriz y las RG-PC para evaluar qué tan bien estas últimas capturaron la información de la estructura genética presentada por las primeras, ya que una sola PC de matriz puede estar representada por múltiples RG-PC.

Los datos del recuento de secuenciación de las muestras nepalesas se extrajeron de los archivos de secuencia alineados utilizando featureCounts (http://bioinf.wehi.edu.au/featureCounts/), de los cuales conservamos solo genes autosómicos y genes con CPM > 0,05 en al menos 20 % de las muestras de los análisis. Se realizaron análisis de expresión genética diferencial (DGE) contrastando hombres y mujeres utilizando edgeR43,44, teniendo en cuenta la edad, el grupo de enfermedad y los lotes de secuenciación; Realizamos los análisis con y sin PC con estructura poblacional como una covariable adicional para luego comparar cómo la estructura genética puede estratificar la expresión genética. A partir de ambos resultados, también trazamos el gráfico QQ y calculamos la inflación sistemática (m), que es la relación entre la mediana de las estadísticas de prueba de chi-cuadrado observadas empíricamente (en nuestro caso, los resultados del análisis DGE con RG-PC) y la mediana esperada de las estadísticas de la prueba de chi-cuadrado (resultados del análisis DGE sin RG-PC), para cuantificar la estratificación debida a la estructura de la población en los datos de expresión génica.

También creamos una matriz de relaciones genéticas (GRM) y ejecutamos un modelo lineal mixto (MLM) en los SNP de RNAseq con y sin PC de estructura poblacional como efectos aleatorios con fastGWA45. A partir de los dos resultados, se creó un gráfico cuantil-cuantil (QQ) y luego se calculó la inflación sistemática (m) para cuantificar el efecto de las PC de estructura poblacional en los datos genómicos46.

Más información sobre el diseño de la investigación está disponible en el Resumen del informe de Nature Portfolio vinculado a este artículo.

Los datos de secuencia asociados con este estudio se depositaron en el Archivo Europeo Genoma-Fenóma (EGA) con el número de acceso EGAD00001011131. Todos los demás datos que respaldan los hallazgos se presentan como Datos complementarios 1 o se pueden obtener del grupo de estudio STRATAA (comuníquese con la Dra. Mila Shakya en [email protected]).

El canal RGStraP está disponible en https://github.com/fachrulm/RGStraP y Zenodo en https://doi.org/10.5281/zenodo.808023024.

Kukurba, KR y Montgomery, SB Secuenciación y análisis de ARN. Puerto de primavera fría. Protocolo. 2015, pdb.top084970 (2015).

Artículo de Google Scholar

Wang, Z., Gerstein, M. & Snyder, M. RNA-Seq: una herramienta revolucionaria para la transcriptómica. Nat. Rev. Genet. 10, 57–63 (2009).

Artículo CAS PubMed PubMed Central Google Scholar

Byron, SA y cols. Traducir la secuenciación de ARN al diagnóstico clínico: oportunidades y desafíos. Nat. Rev. Genet. 17, 257–271 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Storey, JD y cols. Variación de la expresión genética dentro y entre poblaciones humanas. Soy. J. Hum. Gineta. 80, 502–509 (2007).

Artículo CAS PubMed PubMed Central Google Scholar

Thami, PK y Chimusa, ER Estructura poblacional e implicaciones en la arquitectura genética de los fenotipos del VIH-1 en el sur de África. Frente. Gineta. 10, 905 (2019).

Artículo PubMed PubMed Central Google Scholar

Li, J., Liu, Y., Kim, T., Min, R. y Zhang, Z. Variabilidad de la expresión genética dentro y entre poblaciones humanas e implicaciones para la susceptibilidad a enfermedades. Computación PLoS. Biol. 6, e1000910 (2010).

Artículo PubMed PubMed Central Google Scholar

Jovov, B. et al. Expresión genética diferencial entre pacientes con cáncer colorrectal afroamericanos y europeos americanos. MÁS UNO 7, e30168 (2012).

Artículo CAS PubMed PubMed Central Google Scholar

Precio, AL y col. El análisis de componentes principales corrige la estratificación en estudios de asociación de todo el genoma. Nat. Gineta. 38, 904–909 (2006).

Artículo CAS PubMed Google Scholar

Kryvokhyzha, D. y col. La influencia de la estructura poblacional en la expresión genética y la variación del tiempo de floración en la ubicua maleza Capsella bursa-pastoris (Brassicaceae). Mol. Ecológico. 25, 1106-1121 (2016).

Artículo CAS PubMed Google Scholar

Sillanpää, MJ Descripción general de las técnicas para tener en cuenta la confusión debida a la estratificación de la población y la relación críptica en los análisis de asociación de datos genómicos. Herencia 106, 511–519 (2010).

Artículo PubMed PubMed Central Google Scholar

Tian, ​​C., Gregersen, PK y Seldin, MF Contabilización de la ascendencia: subestructura de la población y estudios de asociación de todo el genoma. Tararear. Mol. Gineta. 17, R143 (2008).

Artículo CAS PubMed PubMed Central Google Scholar

Equipo GATK. Descubrimiento de variantes cortas de RNAseq (SNP + Indels). Disponible en: https://gatk.broadinstitute.org/hc/en-us/articles/360035531192-RNAseq-short-variant-discovery-SNPs-Indels- (Consulta: 30 de julio de 2021).

Brouard, JS, Schenkel, F., Marete, A. y Bissonnette, N. El flujo de trabajo de genotipado conjunto de GATK es apropiado para llamar a variantes en experimentos de secuencia de ARN. J.Anim. Ciencia. Biotecnología. 10, 44 (2019).

Artículo PubMed PubMed Central Google Scholar

Piskol, R., Ramaswami, G. & Li, JB Identificación confiable de variantes genómicas a partir de datos de RNA-seq. Soy. J. Hum. Gineta. 93, 641–651 (2013).

Artículo CAS PubMed PubMed Central Google Scholar

Rogier, O. y col. Precisión del descubrimiento y genotipado de SNP basados ​​en RNAseq en Populus nigra. BMC Genomics 19, 909 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Bakhtiarizadeh, MR y Alamouti, AA El descubrimiento de variantes genéticas basado en RNA-Seq proporciona nuevos conocimientos sobre el control de la deposición de grasa en la cola de las ovejas. Ciencia. Rep. 10, 13525 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Takahagi, K. y col. Análisis de polimorfismos de un solo nucleótido basado en datos de secuenciación de ARN de diversas accesiones biogeográficas en cebada. Ciencia. Representante 6, 1-11 (2016).

Artículo de Google Scholar

Wang, W. y col. Estructura genética de seis poblaciones de ganado revelada por SNP de todo el transcriptoma y expresión génica. Genes Genomics 40, 715–724 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Deelen, P. y col. Llamar a genotipos a partir de datos públicos de secuenciación de ARN permite la identificación de variantes genéticas que afectan los niveles de expresión genética. Genoma Med. 7, 1-13 (2015).

Artículo de Google Scholar

Barral-Arca, R., Pardo-Seco, J., Bello, X., Martinón-Torres, F. & Salas, A. Ancestry patterns inferred from massive RNA-seq data. RNA 27, 857–868 (2019).

Artículo de Google Scholar

Ministerio de Relaciones Exteriores de Nepal. Perfil de Nepal - Ministerio de Relaciones Exteriores MOFA de Nepal. Disponible en: https://mofa.gov.np/about-nepal/nepal-profile/ (Consulta: 12 de marzo de 2021).

Fondo de Población de las Naciones Unidas. Análisis de la situación demográfica de Nepal (con respecto al desarrollo sostenible). Unfpa Nepal 47 (2017).

Lappalainen, T. y col. La secuenciación del transcriptoma y del genoma descubre variaciones funcionales en humanos. Naturaleza 501, 506–511 (2013).

Artículo CAS PubMed PubMed Central Google Scholar

Fachrul, M. fachrulm/RGStraP: RGStraP v1.0.0. https://doi.org/10.5281/ZENODO.8080230 (2023).

Consorcio, TIH 3. Integración de variaciones genéticas comunes y raras en diversas poblaciones humanas. Naturaleza 467, 52 (2010).

Artículo de Google Scholar

Huyghe, J.R. et al. Descubrimiento de variantes genéticas de riesgo comunes y raras para el cáncer colorrectal. Nat. Gineta. 51, 76–87 (2018).

Artículo PubMed PubMed Central Google Scholar

Li, X. y col. El impacto de una variación rara en la expresión genética entre tejidos. Naturaleza 550, 239–243 (2017).

Artículo PubMed PubMed Central Google Scholar

Lange, M., Begolli, R. y Giakountis, A. Variantes no codificantes en el cáncer: conocimientos mecanicistas y potencial clínico para la medicina personalizada. ARN no codificante 7, 47 7–4747 (2021).

Artículo de Google Scholar

Darton, TC y cols. El protocolo del estudio STRATAA: un programa para evaluar la carga de la fiebre entérica en Bangladesh, Malawi y Nepal mediante censos de población prospectivos, vigilancia pasiva, estudios serológicos y encuestas de utilización de la atención sanitaria. BMJ Abierto 7, e016283 (2017).

Artículo PubMed PubMed Central Google Scholar

Meiring, JE et al. Carga de fiebre entérica en tres sitios urbanos de África y Asia: un estudio poblacional multicéntrico. Globo de lanceta. Sanar. 9, e1688–e1696 (2021).

Artículo CAS Google Scholar

Auton, A. et al. Una referencia mundial para la variación genética humana. Naturaleza 526, 68–74 (2015).

Artículo PubMed Google Scholar

Dobin, A. y col. STAR: Alineador universal ultrarrápido de RNA-seq. Bioinformática https://doi.org/10.1093/bioinformatics/bts635 (2013).

Instituto Amplio. Kit de herramientas de Picard. Broad Institute, Repositorio GitHub (2019). Disponible en: https://github.com/broadinstitute/picard. (Consulta: 30 de julio de 2021).

Danecek, P. y col. Doce años de SAMtools y BCFtools. Gigaciencia 10, giab008 (2021).

Purcell, S. y col. PLINK: un conjunto de herramientas para análisis de asociación de genoma completo y análisis de vinculación poblacional. Soy. J. Hum. Gineta. 81, 559 (2007).

Artículo CAS PubMed PubMed Central Google Scholar

Purcell, S. y Chang, C. PLINK 1.9. https://www.cog-genomics.org/plink2 (2015).

Abraham, G., Qiu, Y. & Inouye, M. FlashPCA2: análisis de componentes principales de conjuntos de datos de genotipos a escala de biobanco. Bioinformática 33, 2776–2778 (2017).

Artículo CAS PubMed Google Scholar

Wickham, H. ggplot2: Gráficos elegantes para análisis de datos. (Springer-Verlag Nueva York, 2016).

Equipo central de R. R: un lenguaje y un entorno para la informática estadística. Fundación R para la Computación Estadística de Viena (2018).

Rozeboom, WW Correlaciones lineales entre conjuntos de variables. Psicometrika 30, 57–71 (1965).

Artículo CAS PubMed Google Scholar

Alpert, MI & Peterson, RA Sobre la interpretación del análisis canónico. J. Marcos. Res. 9, 187 (1972).

Artículo de Google Scholar

Sherry, A. y Henson, RK Realización e interpretación de análisis de correlación canónica en la investigación de la personalidad: un manual fácil de usar. J. Pers. Evaluar. 84, 37–48 (2005).

Artículo PubMed Google Scholar

McCarthy, DJ, Chen, Y. & Smyth, GK Análisis de expresión diferencial de experimentos multifactoriales de RNA-Seq con respecto a la variación biológica. Ácidos nucleicos res. https://doi.org/10.1093/nar/gks042 (2012).

Robinson, MD, McCarthy, DJ y Smyth, GK edgeR: un paquete de bioconductores para el análisis de expresión diferencial de datos de expresión génica digital. Bioinformática 26, 139-140 (2010).

Artículo CAS PubMed Google Scholar

Jiang, L. y col. Una herramienta que utiliza eficientemente los recursos para el análisis de asociación de modelos mixtos de datos a gran escala. Nat. Gineta. 51, 1749-1755 (2019).

Artículo CAS PubMed Google Scholar

Devlin, B. & Roeder, K. Control genómico para estudios de asociación. Biometría 55, 997–1004 (1999).

Artículo CAS PubMed Google Scholar

Descargar referencias

Reconocemos las contribuciones de las personas y organizaciones que han organizado y participado en los estudios, así como de los equipos de laboratorio y de campo en el sitio, incluido el Grupo de Estudio STRATAA y el equipo de la Fundación para el Desarrollo Familiar de Nepal. Agradecemos a los equipos de secuenciación de Sanger. Esta investigación fue financiada total o parcialmente por Wellcome Trust [STRATAA, 106158/Z/14/Z y Sanger, 098051]. A los efectos del acceso abierto, el autor ha aplicado una licencia pública de derechos de autor CC BY a cualquier versión del manuscrito aceptado por el autor que surja de este envío. Esta investigación también fue financiada por NHMRC [subvención de proyecto APP1101728] y respaldada por fondos básicos de la British Heart Foundation (RG/18/13/33946) y el NIHR Cambridge Biomedical Research Center (BRC-1215-20014; NIHR203312)[*] . *Las opiniones expresadas son las del autor(es) y no necesariamente las del NIHR o el Departamento de Salud y Atención Social. MI cuenta con el respaldo de la Cátedra Munz de Predicción y Prevención Cardiovascular y el Centro de Investigación Biomédica NIHR de Cambridge (BRC-1215-20014; NIHR203312) [*]. MI también contó con el apoyo del Consejo 878 de Investigación Económica y Social del Reino Unido (ES/T013192/1). MF recibió el apoyo de una beca de investigación de Melbourne de la Universidad de Melbourne financiada conjuntamente por el Baker Heart and Diabetes Institute. Este trabajo fue apoyado por Health Data Research UK, que está financiado por el Consejo de Investigación Médica del Reino Unido, el Consejo de Investigación en Ingeniería y Ciencias Físicas, el Consejo de Investigación Económica y Social, el Departamento de Salud y Atención Social (Inglaterra), la Oficina Científica Principal del Gobierno Escocés. Direcciones de Atención Sanitaria y Social, División de Investigación y Desarrollo de Atención Sanitaria y Social (Gobierno de Gales), Agencia de Salud Pública (Irlanda del Norte), British Heart Foundation y Wellcome. Este estudio también contó con el apoyo del programa de Apoyo a la Infraestructura Operativa (OIS) del gobierno de Victoria. *Las opiniones expresadas son las de los autores y no necesariamente las del NIHR o el Departamento de Salud y Atención Social. Los financiadores no tuvieron ningún papel en el diseño del estudio, la recopilación y análisis de datos, la decisión de publicar o la preparación del manuscrito. Las opiniones expresadas en este manuscrito son las del autor (es) y no necesariamente las del NIHR o el Departamento de Salud y Atención Social.

Iniciativa de Genómica de Sistemas Baker de Cambridge, Instituto Baker del Corazón y la Diabetes, Melbourne, VIC, Australia

Muhamad Fachrul y Michael Inouye

Departamento de Patología Clínica, Universidad de Melbourne, Parkville, VIC, Australia

Muhamad Fachrul y Michael Inouye

Escuela de Biociencias, Universidad de Melbourne, Parkville, VIC, Australia

Muhammad Fachrul

Unidad de Investigación Clínica de la Universidad de Oxford, Academia de Ciencias de la Salud de Patan, Katmandú, Nepal

Abhilasha Karkey, Mila Shakya, Sabina Dongol, Anup Adhikari, Maheshwar Ghimire y Buddha Basnyat

Academia de Ciencias de la Salud de Patan, Hospital de Patan, Lalitpur, Nepal

Abhilasha Karkey, Mila Shakya, Sabina Dongol y Rajendra Shrestha

Departamento de Enfermedades Infecciosas, Escuela Clínica Central, Universidad de Monash, Melbourne, VIC, Australia

Louise M. Judd, Taylor Harshegyi y Kathryn E. Holt

Instituto del Genoma de Singapur, Singapur, Singapur

Haga clic en Descargar para guardar Kar Seng Sim & Chiea Chuen Khor mp3 youtube com

Grupo de Vacunas de Oxford, Departamento de Pediatría, Universidad de Oxford y Centro de Investigación Biomédica NIHR de Oxford, Oxford, Reino Unido

Susan Tonks, Christoph Blohmke, Thomas C. Darton, Yama Farooq, Jennifer Hill, James Meiring, Merryn Voysey y Andrew J. Pollard

Centro de Epidemiología y Bioestadística, Escuela de Población y Salud Global de Melbourne, Universidad de Melbourne, Melbourne, VIC, Australia

y salim

Escuela de Matemáticas y Estadística, Universidad de Melbourne, Melbourne, VIC, Australia

y salim

Departamento de Salud de la Población, Instituto Baker del Corazón y la Diabetes, Melbourne, VIC, Australia

y salim

Departamento de Medicina, Universidad de Cambridge, Cambridge, Reino Unido

Esteban panadero

Departamento de Medicina de Nuffield, Centro de Medicina Tropical y Salud Global, Universidad de Oxford, Oxford, Reino Unido

Christiane Dolecek y Buda Basnyat

Unidad de Investigación de Medicina Tropical Mahidol Oxford, Universidad Mahidol, Bangkok, Tailandia

Christiane Doleček

Instituto Peter Doherty para la Infección y la Inmunidad, Universidad de Melbourne, Melbourne, VIC, Australia

Sara J. Dunstan

Departamento de Biología de Infecciones, Escuela de Higiene y Medicina Tropical de Londres, Londres, Reino Unido

Kathryn E. Holt

Iniciativa de Genómica de Cambridge Baker Systems, Departamento de Salud Pública y Atención Primaria, Universidad de Cambridge, Cambridge, Reino Unido

Michael Inouye

Health Data Research UK Cambridge, Wellcome Genome Campus y Universidad de Cambridge, Cambridge, Reino Unido

Michael Inouye

Unidad de Epidemiología Cardiovascular de la Fundación Británica del Corazón, Departamento de Salud Pública y Atención Primaria, Universidad de Cambridge, Cambridge, Reino Unido

Michael Inouye

Centro de Excelencia en Investigación de la Fundación Británica del Corazón, Universidad de Cambridge, Cambridge, Reino Unido

Michael Inouye

Instituto de Investigación del Corazón y los Pulmones Victor Phillip Dahdaleh, Universidad de Cambridge, Cambridge, Reino Unido

Michael Inouye

Programa de Bienvenida Malawi-Liverpool, Blantyre, Malawi

Happy Chimphako Banda, Tikhala Makhaza Jere, Moses Kamzati, Clemens Masesa, Maurice Mbewe, Harrison Msuku, Patrick Munthali, Rose Nkhata, Deus Thindwa, James Meiring y Melita A. Gordon

Hospital de Enfermedades Tropicales, Programa Principal Wellcome Trust en el Extranjero, Unidad de Investigación Clínica de la Universidad de Oxford, Ciudad Ho Chi Minh, Vietnam

Nhu Tran Hoang, Tran Vu Thieu Nga y Trinh Van Tan

Departamento de Epidemiología de Enfermedades Microbianas y Unidad de Modelización de Salud Pública, Escuela de Salud Pública de Yale, Universidad de Yale, New Haven, CT, EE. UU.

Yu-Han Cao, Neil J. Saad y Virginia E. Pitzer

Centro Internacional para la Investigación de Enfermedades Diarreicas, Dhaka, Bangladesh

Farhana Khanam, John D. Clemens y Firdausi Qadri

Departamento de Infección, Inmunidad y Enfermedades Cardiovasculares, Universidad de Sheffield, Sheffield, Reino Unido

James Meiring

Instituto Internacional de Vacunas, Seúl, Corea del Sur

Juan D. Clemens

Departamento de Medicina, Instituto de Inmunología Terapéutica y Enfermedades Infecciosas de Cambridge (CITIID), Universidad de Cambridge, Cambridge, Reino Unido

Gordon Dougan

Instituto Nacional de Investigación en Salud Unidad de Investigación en Salud Global sobre Patógenos de las Mucosas, División de Infección e Inmunidad, University College London, Londres, Reino Unido

Robert S. Heyderman

Instituto de Infecciones, Ciencias Veterinarias y Ecológicas, Universidad de Liverpool, Liverpool, Reino Unido

Melita A. Gordon

Universidad Kamuzu de Ciencias de la Salud, Blantyre, Malawi

Melita A. Gordon

Departamento de Ciencias Clínicas, Escuela de Medicina Tropical de Liverpool, Liverpool, Reino Unido

Melita A. Gordon

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

MF y MI concibieron la idea de RGStraP y escribieron este manuscrito. ST, SB, AJP, CD, BB, SJD y KEH son parte del equipo central de SSG que contribuyó a la concepción y diseño del marco principal de varios estudios de S. Typhi, incluido el conjunto de datos principal utilizado en este proyecto. AK, MS, SD, RS y BB son parte del equipo de Nepal y participaron en el diseño y ejecución del trabajo de campo en Nepal, incluida la participación comunitaria, la planificación logística y el muestreo, entre otras cosas. LMJ, TH y KEH fueron responsables de la preparación de la muestra Nepal RNAseq, incluida la extracción de ARN y la preparación de la biblioteca de secuenciación. CCK y KSS procesaron y analizaron previamente los datos de genotipado emparejados de las muestras de Nepal. MF realizó los experimentos computacionales, analizó los datos, preparó las figuras y construyó el oleoducto destacado en el estudio. MI, SJD y AS supervisaron los experimentos computacionales. Todos los autores leyeron y aprobaron el manuscrito.

Correspondencia a Muhamad Fachrul o Michael Inouye.

CCK es miembro del consejo editorial de Communications Biology, pero no participó en la revisión editorial ni en la decisión de publicar este artículo. Todos los demás autores no declaran tener intereses en competencia.

Communications Biology agradece a los revisores anónimos por su contribución a la revisión por pares de este trabajo. Editores principales: Kaoru Ito y George Inglis. Un archivo de revisión por pares está disponible.

Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado al autor(es) original(es) y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Fachrul, M., Karkey, A., Shakya, M. et al. Inferencia directa y control de la estructura genética de la población a partir de datos de secuenciación de ARN. Común Biol 6, 804 (2023). https://doi.org/10.1038/s42003-023-05171-9

Descargar cita

Recibido: 09 de noviembre de 2022

Aceptado: 24 de julio de 2023

Publicado: 02 de agosto de 2023

DOI: https://doi.org/10.1038/s42003-023-05171-9

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.

COMPARTIR