Uso de SnapATAC para analizar datos de secuencia ATAC de una sola celda (1): Introducción e instalación de SnapATAC
Fang Rongxin, Sebastian Pressl, Hou, Jessetta Lucero, Amir Motamedi, Andrew Shaw, Elan Mukarmel, Zhang, Margarita Borens, Joseph Ecker, Ren Bing. La agrupación rápida y precisa de epigenomas unicelulares revela elementos reguladores en cis en tipos de células raras. bior XIV 615179; doi: mandado).
Agregue información de códigos de barras antes de hacer coincidir los nombres leídos.
El código de barras de la unidad está incrustado en la etiqueta CB:Z:ggttgcgagcccgcaaa-1, puedes modificar el archivo bam agregando el código de barras de la unidad ggttgcgagcccgcaaa-1 al comienzo de la lectura
Presiona leer nombre Ordenar archivos bam.
Luego ordene los archivos bam por nombre de lectura:
Utilice snaptools para preprocesar los datos y generar archivos de captura.
Luego genere archivos de instantáneas
Elimine archivos intermedios
Elimine archivos temporales
(2) Utilice archivos tsv fragmentados. Los archivos de fragmentos se han filtrado, lo que evitará que Snaptools genere métricas de control de calidad.
En muchos casos, podemos usar directamente la subrutina previa de snaptools para ordenar los archivos bam o bed coincidentes por sus nombres leídos como entrada para generar archivos en formato snap. Se recomienda encarecidamente utilizar archivos de comparación sin filtrar como entrada.
(1) Para archivos bam, necesitamos agregar la información del código de barras de la celda antes del nombre leído, como se muestra en la siguiente figura:
(2) Para archivos en la cama formato, debe estar en Agregar información de código de barras a la cuarta columna de la siguiente manera:
(1) El grupo lee desde una celda ATACAGCCTCGC en el archivo de instantánea sample1.snap.
(2) Lectura grupal de múltiples códigos de barras en un archivo instantáneo.
(3) Lectura grupal de múltiples códigos de barras y múltiples archivos de instantáneas.
Debido a que el software SnapATAC utiliza una matriz bin por bin para agrupar las células, le permite combinar fácilmente múltiples muestras y realizar análisis comparativos. Requiere crear una matriz celda por celda con el mismo tamaño de contenedor para todas las muestras. Aquí tomamos datos de PBMC_5K y PBMC_10K como ejemplos para el análisis.
La función createSnap creará un objeto de instantánea que contiene el nombre de cada archivo de instantánea y la información del código de barras correspondiente.
El software SnapATAC agrupa las celdas basándose en una matriz bin por bin, por lo que elegir diferentes tamaños de bin puede tener un gran impacto en la agrupación de celdas. No existe una respuesta absoluta a la pregunta de cómo elegir el mejor tamaño de contenedor.
Por un lado, encontramos que los cambios en el tamaño del contenedor en el rango de 5 kb a 50 kb no cambiaron significativamente los resultados de la agrupación de células (como se muestra en la siguiente figura). Por otro lado, hemos observado que un contenedor grande suele producir relativamente pocos grupos. Esta diferencia en la agrupación se puede compensar utilizando el algoritmo de agrupación de Louvain con una resolución más pequeña.
La ventaja de utilizar un tamaño de contenedor más grande es que puede ahorrar algo de memoria, lo que resulta especialmente útil para algunos conjuntos de datos grandes. Aquí hay una recomendación subjetiva con respecto a la selección del tamaño de la posición.