in

Una navaja suiza de software para datos genómicos


Crédito: Caltech

Una buena manera de averiguar qué está haciendo una célula, ya sea que esté creciendo fuera de control como en los cánceres, o que esté bajo el control de un virus invasor, o que simplemente se dedique a la rutina de una célula sana, es mirar su expresión genética. Aunque la gran mayoría de las células de un organismo contienen todos los mismos genes, la forma en que se expresan esos genes es lo que da lugar a diferentes tipos de células: la diferencia entre una célula muscular y una neurona, por ejemplo.

En la última década, las tecnologías para medir la expresión génica en células individuales han revolucionado la biología. Los biólogos ya no necesitan promediar la expresión génica de muchas células dentro de los tejidos; ahora pueden detectar qué genes están activos en cada célula en cualquier momento.

Sin embargo, el poder computacional ha luchado por mantenerse al día con esta explosión de datos. Por ejemplo, un solo experimento puede observar 100.000 celdas y medir información de cientos de miles de transcripciones (fragmentos de ARN producido cuando un gen está activo), lo que da como resultado decenas de miles de millones de fragmentos secuenciados. Los datos genómicos de la secuenciación de una sola celda pueden ocupar terabytes de espacio y tardar horas o días en procesarse en grandes servidores informáticos.

Ahora, una nueva herramienta de software permite el procesamiento de grandes conjuntos de datos genómicos en aproximadamente 30 minutos, utilizando la potencia informática de una computadora portátil promedio. Al igual que una navaja suiza, la herramienta se puede utilizar de innumerables formas para diferentes necesidades biológicas y ayudará a garantizar la reproducibilidad de los estudios científicos.

La herramienta, que está disponible en línea y abierta para que cualquiera la use, ahora está siendo adaptada por otro equipo de investigación para estudiar el SARS-CoV-2 virus en muestras recolectadas de pruebas de detección.

La investigación se llevó a cabo como una colaboración entre el laboratorio de Lior Pachter (BS ’94), profesor Bren de Biología Computacional y Ciencias de la Computación y Matemáticas, y Páll Melsted, profesor de informática en la Universidad de Islandia. Melsted es co-primer autor junto con la estudiante de posgrado Sina Booeshaghi (MS ’19). Un artículo que describe la investigación aparece en la revista. Biotecnología de la naturaleza el 1 de abril de 2021.

“Hay muchos ejemplos de diferentes grupos que utilizan diferentes tecnologías para estudiar los mismos tejidos, por ejemplo, el cerebro”, dice Booeshaghi. “Procesar todos estos datos con el mismo motor, nuestra técnica, facilita la integración de los datos. Nuestra herramienta es rápida, eficiente y permite un fácil reprocesamiento, lo cual es muy importante para la coherencia y la reproducibilidad en la ciencia ”.

El desarrollo de esta compleja herramienta de software “internamente” fue importante para abordar realmente las preocupaciones de los usuarios potenciales, porque los usuarios potenciales estaban allí en el laboratorio.

“La interdisciplinariedad de nuestro equipo fue crucial para concebir y ejecutar este proyecto”, dice Pachter. “Hay personas en el laboratorio que son científicos en computación, biólogos, ingenieros. Sina está en el departamento de ingeniería mecánica y aporta la perspectiva de su experiencia en diseño e ingeniería; Páll tiene una sólida formación en informática teórica e ingeniería de software ”.

La facilidad de uso, el bajo costo y la modularidad de estas herramientas permitirán un preprocesamiento consistente y reproducible de datos genómicos para grandes consorcios como Human Cell Atlas y Brain Initiative Cell Census Network.

Referencia: “Preprocesamiento modular, eficiente y de memoria constante de ARN-seq de una sola célula” por Páll Melsted, A. Sina Booeshaghi, Lauren Liu, Fan Gao, Lambda Lu, Kyung Hoi (Joseph) Min, Eduardo da Veiga Beltrame, Kristján Eldjárn Hjörleifsson, Jase Gehring y Lior Pachter, 1 de abril de 2021, Biotecnología de la naturaleza.
DOI: 10.1038 / s41587-021-00870-2

El artículo se titula “Preprocesamiento modular, rápido y de memoria constante de datos de secuencia de ARN de una sola célula”. Además de Melsted, Booeshaghi y Pachter, otros coautores son la licenciada Lauren Liu, la directora de bioinformática Fan Gao, el estudiante de posgrado Lambda Lu, el ex estudiante de pregrado Joseph Min (BS ’20), el estudiante de posgrado Eduardo da Veiga Beltrame, el ex estudiante de posgrado Kristján Eldjárn Hjörleifsson y el investigador postdoctoral Jase Gehring. El financiamiento fue proporcionado por el Centro de Recursos de Bioinformática de Caltech del Instituto Beckman y los Institutos Nacionales de Salud.



Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Los pacientes con COVID-19 se pueden clasificar en tres grupos: aquí están los 3 fenotipos

Lo que Mario Kart nos enseña sobre cómo reducir la pobreza mundial y mejorar la sostenibilidad