RAMBO puede reducir el tiempo de indexación para grandes bases de datos de ADN

Prudencia Febojunio 29, 2021

0 50 3 minutos de lectura

RAMBO puede reducir el tiempo de indexación para grandes bases de datos de ADN

Los científicos informáticos de la Universidad de Rice están enviando RAMBO para rescatar a los investigadores genómicos que a veces esperan días o semanas para obtener resultados de investigación en bases de datos masivas de ADN.

La secuenciación de ADN es tan popular que los conjuntos de datos genómicos duplican su tamaño cada dos años y las herramientas para buscar los datos simplemente no siguen el ritmo. Los investigadores que comparan ADN entre genomas o estudian la evolución de organismos como el virus que causa el COVID-19 a menudo esperan semanas para que el software indexe grandes bases de datos «metagenómicas», que crecen mes a mes y ahora se miden en petabytes.

RAMBO, que es la abreviatura de «filtro de floración combinado y repetido», es un nuevo método que puede reducir el tiempo de indexación de dichas bases de datos de semanas a horas y el tiempo de búsqueda de horas a segundos. Los científicos informáticos de la Universidad de Rice presentaron RAMBO la semana pasada en la conferencia de ciencia de datos SIGMOD 2021 de la Asociación de Maquinaria de Computación.

«Consultar millones de secuencias de ADN en una gran base de datos con enfoques tradicionales puede llevar varias horas en un gran clúster de cómputo y varias semanas en un solo servidor», dijo el co-creador de RAMBO Todd Treangen, científico informático de Rice cuyo laboratorio se especializa en metagenómica. . «Reducir los tiempos de indexación de bases de datos además de los tiempos de consulta es de vital importancia, ya que el tamaño de las bases de datos genómicas sigue creciendo a un ritmo increíble».

Para resolver el problema, Treangen se asoció con el científico informático de Rice, Anshumali Shrivastava, que se especializa en la creación de algoritmos que hacen que los macrodatos y el aprendizaje automático sean más rápidos y escalables, y los estudiantes graduados Gaurav Gupta y Minghao Yan, coautores de la conferencia revisada por pares. artículo sobre RAMBO.

RAMBO utiliza una estructura de datos que tiene un tiempo de consulta significativamente más rápido que los métodos de indexación del genoma de última generación, así como otras ventajas como la facilidad de paralelización, una tasa cero de falsos negativos y una baja tasa de falsos positivos.

«El tiempo de búsqueda de RAMBO es hasta 35 veces más rápido que los métodos existentes», dijo Gupta, estudiante de doctorado en ingeniería eléctrica e informática. En experimentos que utilizaron un conjunto de datos de 170 terabytes de genomas microbianos, Gupta dijo que RAMBO redujo los tiempos de indexación de «seis semanas en un grupo sofisticado y dedicado a nueve horas en un grupo de productos básicos compartidos».

Yan, un estudiante de doctorado en ciencias de la computación, dijo: «En este enorme archivo, RAMBO puede buscar una secuencia de genes en unos pocos milisegundos, incluso submilisegundos, utilizando un servidor estándar de 100 máquinas».

RAMBO mejora el rendimiento de los filtros Bloom, una técnica de búsqueda de medio siglo que se ha aplicado a la búsqueda de secuencias genómicas en varios estudios anteriores. RAMBO mejora los métodos de filtrado de Bloom anteriores para la búsqueda genómica al emplear una estructura de datos probabilística conocida como un talón de conteo mínimo que «conduce a un mejor tiempo de consulta e intercambio de memoria» que los métodos anteriores y «supera a las filas de memoria». estructura de datos de indexación muy robusta, con poca memoria y ultrarrápida «, escribieron los autores del estudio.

Gupta y Yan dijeron que RAMBO tiene el potencial de democratizar la investigación genómica, lo que hace posible que casi cualquier laboratorio busque archivos genómicos enormes con computadoras disponibles comercialmente de manera rápida y rentable.

«RAMBO puede acortar el tiempo de espera para toneladas de investigaciones bioinformáticas, como buscar la presencia de SARS-CoV-2 en metagenomas de aguas residuales en todo el mundo», dijo Yan. «RAMBO podría volverse fundamental en el estudio de la genómica del cáncer y la evolución del genoma bacteriano, por ejemplo».

Fuente:

Referencia de la revista:

Gupta, G., et al. (2021) Procesamiento y consulta rápidos de 170 TB de datos genómicos a través de un filtro BloOm combinado y repetido (RAMBO). SIGMOD / PODS ’21. doi.org/10.1145/3448016.3457333.