Domanda:
Qual è la differenza tra i formati di file FASTA, FASTQ e SAM?
kenorb
2017-05-16 23:37:28 UTC
view on stackexchange narkive permalink

Mi piacerebbe conoscere le differenze tra 3 formati comuni come FASTA, FASTQ e SAM. In che modo sono diversi? Ci sono vantaggi nell'usarne uno rispetto all'altro?

Sulla base delle pagine di Wikipedia, non posso distinguere tra loro.

Quattro risposte:
Konrad Rudolph
2017-06-02 17:16:25 UTC
view on stackexchange narkive permalink

Cominciamo con ciò che hanno in comune: tutti e tre i formati memorizzano

  1. dati di sequenza e
  2. metadati di sequenza.

Inoltre, tutti e tre i formati sono basati su testo.

Tuttavia, oltre a ciò, tutti e tre i formati sono diversi e hanno scopi diversi.

Cominciamo con il formato più semplice:

FASTA

FASTA memorizza un numero variabile di record di sequenza e per ogni record memorizza la sequenza stessa e un ID di sequenza. Ogni record inizia con una riga di intestazione il cui primo carattere è > , seguito dall'ID sequenza. Le righe successive di un record contengono la sequenza effettiva.

Il articolo di Wikipedia fornisce diversi esempi di sequenze peptidiche, ma poiché FASTQ e SAM sono usati esclusivamente (?) Per sequenze nucleotidiche, ecco un esempio di nucleotidi:

  >Mus_musculus_tRNA-AlaAGC-1-1 (chr13.trna34-AlaAGC) GGGGGTGTAGCTCAGTGGTAGAGCGCGTGCTTAGCATGCACGAGGcCCTGGGTTCGATCCCCAGCACCTCCA>Mus_musculus_tRNA-AlaAGC-10-1 (chr13.trna457-AlaAGC) GGGGGATTAGCTCAAATGGTAGAGCGCTCGCTTAGCATGCAAGAGGtAGTGGGATCGATGCCCACATCCTCCA  

L'ID può essere in qualsiasi formato arbitrario, sebbene esistano diverse convenzioni.

Nel contesto delle sequenze nucleotidiche, FASTA viene utilizzato principalmente per memorizzare dati di riferimento; cioè, dati estratti da un database curato; quanto sopra è adattato da GtRNAdb (un database di sequenze di tRNA).

FASTQ

FASTQ è stato concepito per risolvere un problema specifico che sorge durante il sequenziamento: a causa di come funzionano le diverse tecnologie di sequenziamento, la fiducia in ciascuna identificazione delle basi (ovvero la probabilità stimata di aver identificato correttamente un dato nucleotide) varia. Questo è espresso nel punteggio di qualità Phred. FASTA non aveva un modo standardizzato di codificare questo. Al contrario, un record FASTQ contiene una sequenza di punteggi di qualità per ogni nucleotide.

Un record FASTQ ha il seguente formato:

  1. Una riga che inizia con @ , contenente l'ID della sequenza.
  2. Una o più righe che contengono la sequenza.
  3. Una nuova riga che inizia con la carattere + ed essere vuoto o ripetere l'ID sequenza.
  4. Una o più righe che contengono i punteggi di qualità.

Ecco un esempio di un file FASTQ con due record:

  @ 071112_SLXA-EAS1_s_7: 5: 1: 817: 345GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC + IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC @ 071112_SLXA-EAS1_s_7: 5: 1: 801: 338GTTCAGGGATACGACGTTTGTATTTTAAGAATCTGA + IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII6IBI  

I file FASTQ sono utilizzati principalmente per memorizzare dati di lettura breve da esperimenti di sequenziamento ad alto rendimento. La sequenza e i punteggi di qualità sono solitamente inseriti in una singola riga ciascuno, e in effetti molti strumenti presumono che ogni record in un file FASTQ sia lungo esattamente quattro righe, anche se questo non è garantito.

Come con FASTA , il formato dell'ID sequenza non è standardizzato, ma diversi produttori di FASTQ utilizzano notazioni fisse che seguono rigide convenzioni.

SAM

I file SAM sono così complessa che una descrizione completa [PDF] richiede 15 pagine. Quindi ecco la versione breve.

Lo scopo originale dei file SAM è memorizzare le informazioni di mappatura per le sequenze da sequenze ad alto rendimento. Di conseguenza, un record SAM deve memorizzare più della semplice sequenza e la sua qualità, ma deve anche memorizzare informazioni su dove e come una sequenza viene mappata nel riferimento.

A differenza dei formati precedenti, SAM è basato su tabulazioni e ogni record, costituito da 11 o 12 campi, riempie esattamente una riga. Ecco un esempio (tabulazioni sostituite da spaziatura a larghezza fissa):

  r001 99 chr1 7 30 17M = 37 39 TTAGATAAAGGATACTG IIIIIIIIIIIIIIIr002 0 chrX 9 30 3S6M1P1I4M * 0 0 AAAAGATAAGGATA IIIIIIIIIIIIIIIIIIII  

Per una descrizione dei singoli campi, fare riferimento alla documentazione. Il bit rilevante è questo: SAM può esprimere esattamente le stesse informazioni di FASTQ, più, come accennato, le informazioni di mappatura. Tuttavia, SAM viene utilizzato anche per memorizzare i dati letti senza informazioni di mappatura.

Oltre ai record di sequenza, i file SAM possono anche contenere un intestazione , che memorizza le informazioni sul riferimento a cui sono state mappate le sequenze e lo strumento utilizzato per creare il file SAM. Le informazioni di intestazione precedono i record della sequenza e sono costituite da righe che iniziano con @.

SAM stesso non viene quasi mai utilizzato come formato di archiviazione; invece, i file vengono archiviati in formato BAM, che è una rappresentazione binaria compatta di SAM. Memorizza le stesse informazioni, solo in modo più efficiente e, in combinazione con un indice di ricerca, consente il recupero rapido dei singoli record dal centro del file (= rapido accesso casuale) . I file BAM sono anche molto più compatti dei file FASTQ o FASTA compressi.


Quanto sopra implica una gerarchia in ciò che i formati possono memorizzare: FASTA ⊂ FASTQ ⊂ SAM.

In un tipico flusso di lavoro di analisi ad alto rendimento, incontrerai tutti e tre i tipi di file:

  1. FASTA per memorizzare il genoma / trascrittoma di riferimento su cui verranno mappati i frammenti di sequenza.
  2. FASTQ per memorizzare i frammenti di sequenza prima della mappatura.
  3. SAM / BAM per memorizzare i frammenti di sequenza dopo la mappatura.
Perché c'è un segno "+" nel formato FASTQ?
@charlesdarwin Non ne ho idea. La riga con il segno più è completamente ridondante. Gli sviluppatori originali del formato FASTQ probabilmente lo intendevano come una ridondanza per semplificare il controllo degli errori (= per vedere se il record era completo) ma fallisce. Con il senno di poi non avrebbe dovuto essere incluso. Sfortunatamente per ora ci siamo fermati.
@KonradRudolph per quanto ne so fastq è una combinazione di file fasta e qual, vedere anche https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2847217/ Questo spiega l'intestazione della parte di qualità. Tuttavia, non ha senso che siamo bloccati con esso ...
eastafri
2017-05-16 23:57:28 UTC
view on stackexchange narkive permalink

In poche parole,

FASTA è un formato di sequenza di DNA per specificare o rappresentare sequenze di DNA ed è stato descritto per la prima volta da Pearson (Pearson, WR e Lipman , DJ (1988) Strumenti migliorati per il confronto di sequenze biologiche. Proc. Natl Acad. Sci. USA, 85, 2444–2448)

FASTQ è un'altra sequenza di DNA formato di file che estende il formato FASTA con la possibilità di memorizzare la qualità della sequenza. I punteggi di qualità sono spesso rappresentati in caratteri ASCII che corrispondono a un punteggio phred)

Sia FASTA che FASTQ sono formati di rappresentazione di sequenza comuni e sono emersi come formati chiave di scambio di dati per la biologia molecolare e la bioinformatica.

SAM è il formato per rappresentare le informazioni sull'allineamento della sequenza da un allineatore di lettura. Rappresenta le informazioni sulla sequenza rispetto a una data sequenza di riferimento. Le informazioni vengono memorizzate in una serie di colonne ASCII delimitate da tabulazioni. La specifica completa del formato SAM è disponibile su http://samtools.sourceforge.net/SAM1.pdf

In una nota storica, il Sanger Institute ha utilizzato per la prima volta il formato FASTQ.
SAM può anche (ed è sempre più utilizzato per questo, vedere PacBio) memorizzare informazioni sulla sequenza non allineata e, a questo proposito, equivalente a FASTQ.
Si noti che fasta viene spesso utilizzato anche per i dati sulle proteine, non solo per il DNA.
BaCh
2017-05-16 23:53:39 UTC
view on stackexchange narkive permalink

Per inciso, la prima parte della tua domanda è qualcosa che avresti potuto cercare tu stesso quando i primi risultati su Google del "formato NAME" ti indirizzano ai primer su Wikipedia, nientemeno. In futuro, fallo prima di porre una domanda.

  1. FASTA
  2. FASTQ
  3. SAM

FASTA (ufficialmente) memorizza solo il nome di una sequenza e la sequenza, ufficialmente le persone aggiungono anche campi di commento dopo il nome della sequenza. FASTQ è stato inventato per memorizzare sia la sequenza che i valori di qualità associati (ad esempio dagli strumenti di sequenziamento). SAM è stato inventato per memorizzare allineamenti di (piccole) sequenze (ad esempio generate dal sequenziamento) con valori di qualità associati e alcuni ulteriori dati su sequenze più grandi, chiamate sequenze di riferimento, queste ultime sono qualsiasi cosa, da una piccola sequenza di virus a sequenze di piante ultra-grandi.

Alon Gelber
2017-05-17 00:50:21 UTC
view on stackexchange narkive permalink

I formati FASTA e FATSQ sono entrambi formati di file che contengono letture sequenziali mentre i file SAM sono queste letture allineate a una sequenza di riferimento. In altre parole, FASTA e FASTQ sono i "dati grezzi" del sequenziamento mentre SAM è il prodotto dell'allineamento delle letture del sequenziamento a un refseq.

Un file FASTA contiene un nome di lettura seguito dalla sequenza. Un esempio di una di queste letture per RNASeq potrebbe essere:

  >Flow cell number: lane number: chip coordinate etc.ATTGGCTAATTGGCTAATTGGCTAATTGGCTAATTGGCTAATTGGCTAATTGGCTAATTGGCTA   

La versione FAST read avrà altre due righe, una + come contenitore di spazio e quindi una riga di punteggi di qualità per le identificazione delle basi. Le qualità sono date come caratteri con "!" essendo il più basso e '~' è il più alto, in valore ASCII crescente. Sarebbe simile a questo

  @Flow cell number: lane number: chip coordinate etc.ATTGGCTAATTGGCTAATTGGCTAATTGGCTAATTGGCTAATTGGCTAATTGGCTAATTGGCTA +! '' * ((((*** +)) %%% ++) ( %%%%). 1 *** - + * '')) ** 55CCF>>>>>>CCCCCCC65  

Un file SAM ha molti campi di caratteri per ogni allineamento. L'allineamento contiene 11 campi obbligatori e vari campi opzionali. Puoi trovare il file delle specifiche qui: https://samtools.github.io/hts-specs/SAMv1.pdf.

Spesso vedrai file BAM che sono solo versioni binarie compresse dei file SAM. È possibile visualizzare questi file di allineamento utilizzando vari strumenti, come SAMtools, IGV o USCS Genome browser.

Per quanto riguarda i vantaggi, FASTA / FASTQ e SAM / BAM stanno confrontando mele e arance. Svolgo molto lavoro RNASeq, quindi generalmente prendiamo i file FASTQ e li allineiamo a refseq usando un allineatore come STAR che emette file SAM / BAM. C'è molto che puoi fare solo con questi file di allineamento, guardando l'espressione, ma di solito userò uno strumento come RSEM per "contare" le letture di vari geni per creare una matrice di espressione, campioni come colonne e geni come righe. Se ottieni file FASTQ o FASTA dipende solo dalla tua piattaforma di sequenziamento. Non ho mai sentito parlare di nessuno che utilizzi davvero i punteggi di qualità.

Attenzione, la descrizione del formato FASTQ è sbagliata: un record FASTQ può occupare più di quattro righe; inoltre, "+" non è un segnaposto, è un separatore tra la sequenza e il punteggio di qualità, seguito da una ripetizione facoltativa dell'ID del record. Infine, la stringa del punteggio di qualità deve essere della stessa lunghezza della sequenza.


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...