Domanda:
Come si generano i grafici della lunghezza di lettura e della qualità di lettura per i dati di sequenziamento a lettura lunga (ad esempio, MinION)?
Mark Ebbert
2017-06-24 23:16:50 UTC
view on stackexchange narkive permalink

Come si genera il grafico della lunghezza di lettura e della qualità di lettura (mappa termica con istogrammi a margine) per i dati di sequenziamento a lettura lunga dal MinION di Oxford Nanopore Technologies (ONT)? Il software MinKNOW di ONT fornisce una trama come questa durante l'identificazione delle basi.

Ciò sarebbe molto utile anche per i dati PacBio.

Due risposte:
#1
+5
Wouter De Coster
2017-06-26 14:51:54 UTC
view on stackexchange narkive permalink

Ho anche scritto un pacchetto per creare vari grafici da dati di sequenziamento e allineamenti di Oxford Nanopore: NanoPlot. Può essere installato tramite pip (vedi anche README su Github). Oltre a più grafici, viene creato anche un output NanoStats limitato (vedere anche NanoStat). I dati possono essere presentati utilizzando:

  • Un file fastq (opzionalmente compresso)
  • Un file bam
  • Il file sequencing_summary.txt generato da albacore

Usando i flag opzionali puoi:

  • Log trasforma le lunghezze di lettura
  • Usa letture allineate invece di letture sequenziali
  • Sottocampiona le letture
  • Imposta una lunghezza di lettura massima

Ho aggiunto un esempio sotto, tracciando la lunghezza di lettura trasformata del log rispetto alla qualità di lettura media (usando una stima della densità del kernel ). Altri esempi possono essere trovati nella galleria sul mio blog.

Accolgo con favore tutti i commenti e suggerimenti!

enter image description here

#2
+4
Mark Ebbert
2017-06-24 23:16:50 UTC
view on stackexchange narkive permalink

È importante considerare sempre la lunghezza e la qualità della lettura insieme ai dati di lettura ad alto errore e le attuali tecnologie di lettura lunga (ad esempio, MinION e PacBio) hanno tassi di errore elevati. Considerare insieme la lunghezza e la qualità delle letture ti aiuterà a determinare il successo della corsa, quante letture erano "di alta qualità", se le letture più lunghe sono "reali" (o solo rumore dei pori), ecc.

Recentemente ho avuto un picco di interesse per trame simili e mi sono imbattuto in un progetto chiamato pauvre (francese per "povero", gioca su "poro ') attraverso la comunità di Oxford Nanopore Technologies (ONT) che penso sia persino migliore del complotto di identificazione delle basi di MinKNOW. Inoltre, puoi generare questi grafici da un file fastq quando vuoi, a differenza di MinKNOW.

[Nota: non sono l'autore originale, ma ora contribuisco perché mi è piaciuto (e ne avevo bisogno).]

My description

Pauvre riporterà anche statistiche utili:

  statistiche fastq per fastq_runid_bb8b8ddedb22bdd6802b2bfa2b4e424c92c30d28_0.fastqnumReads: 2164829numBasepairs: 4970613enLe: : 1495.0minLen: 5maxLen: 392031N50: 3450L50: 402786 Parti di basi > = bin per PHRED medio e lunghezza minLen Q0 Q5 Q10 Q15 Q17.5 Q20 Q21.5 Q25 Q25.5 Q30 0 4970615217 4970611559 4835461771 270324 160128 50729 50729 0 0 0 0100000 6260554 6260554 0 0 0 0 0 0 0 0150000 3504240 3504240 0 0 0 0 0 0 0 0200000 2501101 2501101 0 0 0 0 0 0 0 0
250000 1609592 1609592 0 0 0 0 0 0 0 0300000 1033423 1033423 0 0 0 0 0 0 0 0350000 392031 392031 0 0 0 0 0 0 0 0 Numero di letture > = bin per media Phred + LenminLen Q0 Q5 Q10 Q15 Q17.5 Q20 Q21.5 Q25 Q25.5 Q30 0 2164829 2164605 2083436 1626706 1183812 435687 77341 1 0 0 50000 109109 5 3 1 1 0 0 0 0100000 36 36 0 0 0 0 0 0 0 0150000 15 15 0 0 0 0 0 0 0200000 9 9 0 0 0 0 0 0 0 0250000 5 5 0 0 0 0 0 0 0 0300000 3 3 0 0 0 0 0 0 0 0350000 1 1 0 0 0 0 0 0 0 0  

Questi grafici e statistiche sarebbero ugualmente utili con PacBio, ma non è super facile (sebbene sia possibile) con l'attuale output non elaborato dal sequel di Sequel: Quale codifica del punteggio di qualità usa PacBio?

Pauvre attualmente usa Biopython per analizzare fastq e matplotlib per il grafico effettivo e ti consentirà di scegliere il formato dell'immagine di output (ad esempio, .png, .pdf, ecc.). Puoi anche scegliere se lo sfondo è trasparente o bianco (per l'output .png).

Il parser è attualmente super lento perché utilizza SeqIO.parse , ma stiamo cambiando i parser per velocizzarlo. Stiamo anche aggiungendo alcune funzionalità extra (ad esempio, scegliere se includere gli assi y negli istogrammi dei margini, stampare alcune statistiche direttamente nel grafico per la documentazione, ecc.)

Il viola è attualmente l'unica scelta di colore (che personalmente amo), ma aggiungere opzioni per cambiare sarà semplicissimo.



Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...