Domanda:
variante che richiede dati in stile ChIP-seq: samtools mpileup con filtri minimi
719016
2017-05-26 18:23:01 UTC
view on stackexchange narkive permalink

Sto eseguendo samtools mpileup (v1.4) su un file bam con una copertura molto discontinua (dati in stile ChIP-seq). Voglio ottenere un elenco di primo passaggio di posizioni con SNV e la loro frequenza come riportato dai conteggi di lettura, ma qualunque cosa faccia, continuo a filtrare tutti gli SNV perché non superano il controllo di qualità.

Che cosa il parametro magico impostato per un elenco iniziale di SNV e frequenze?

EDIT: questa è una domanda che ho postato su "l'altro" sito web, ma non ho avuto risposta lì.

Saresti in grado di provare un altro chiamante solo per controllare? Qualcosa come [varscan] (http://dkoboldt.github.io/varscan/)?
@nuin Posso provarlo, varscan consente di disattivare il filtro?
Potresti aggiungere alcuni esempi di comandi che hai provato?
@719016 Prova questo [comando] (http://dkoboldt.github.io/varscan/using-varscan.html#v2.‌ 3_pileup2snp) e modifica opzioni come _-- min-coverage _, _-- min-reads2_ e _-- min-avg-qual_. Questo ti aiuterà anche a verificare se il tuo problema è correlato a samtools o al file BAM
Sono solo un po 'preoccupato che se la profondità non è elevata e anche i dati ChIP-Seq hanno dei bias, non si tratta di SNP ad alta affidabilità. Il punto centrale di HC SNP è anche la profondità di lettura, che non è tanto nel ChIP-Seq tradizionale
Sì, forse la chiamata dovrebbe essere limitata alle vette vicine ai picchi, quindi confrontare un campione con un campione nel sottoinsieme di tali SNV
Due risposte:
#1
+7
burger
2017-05-27 06:16:16 UTC
view on stackexchange narkive permalink

L'ho usato in passato per i dati ChIP-seq e ha generato SNV:

  samtools mpileup \ - non compresso --max-depth 10000 --min-MQ 20 --ignore -RG --skip-indels \ - fasta-ref.fa file.bam \ | bcftools chiama --consensus-caller \ > out.vcf  

Questo era samtools 1.3 nel caso facesse la differenza.

Devo farlo funzionare con questi parametri. Grazie!
#2
+5
user172818
2017-05-29 19:47:27 UTC
view on stackexchange narkive permalink

Un altro approccio è htsbox. Puoi ottenere una lista di candidati con:

  htsbox pileup -Cvcf ref.fa -q20 -Q20 -s5 file.bam > out.vcf  

Qui , -q imposta la qualità minima della mappatura, -Q imposta la qualità minima di base, -v restituisce solo le varianti -c restituisce VCF, -C fornisce i conteggi di base su entrambi i filamenti e infine -s5 richiede almeno 5 basi di alta qualità per richiamare un allele. È utile quando i tuoi dati non soddisfano le ipotesi fatte dai tipici chiamanti varianti.

Perché non samtools + bcftools o varscan? Trasparenza e velocità. Questa riga di comando conta semplicemente in base ai parametri utilizzati. Non applica operazioni aggiuntive. E per questo motivo è più veloce di un ordine di grandezza rispetto a samtools mpileup o varscan. Vale la pena notare che samtools utilizza BAQ per impostazione predefinita, che riduce i FP occasionalmente. Tuttavia, BAQ non è del tutto necessario per letture Illumina più lunghe e allo stesso tempo danneggia la sensibilità.

Proverò sicuramente htsbox, come dici tu funziona semplicemente contando in base ai parametri.


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...