Domanda:
Come calcolare in modo efficiente la percentuale esatta di k-meri non univoci in un genoma per un dato k?
Jens
2018-03-14 13:44:03 UTC
view on stackexchange narkive permalink

Sto cercando un software in grado di calcolare "efficacemente" (tempo e memoria) la percentuale esatta di k-meri non univoci in un genoma per un dato k. Non ho bisogno dei k-mers o delle abbondanze stesse, ho solo bisogno della percentuale.

In alternativa, il risultato potrebbe essere:

  1. il numero di diversi k- meri osservati nel genoma
  2. il numero di k-meri univoci, ovvero k-meri che si verificano solo una volta nel genoma, o il numero di k-meri non univoci, cioè, k-meri che si verificano più di una volta nel genoma.

che può essere facilmente utilizzato per calcolare la percentuale richiesta.

Caratteristiche richieste:

  • non contare k-mer con nucleotidi ambigui
  • contare un k-mer e il suo complemento inverso insieme
  • k fino a 50 o 100
  • per genomi di grandi dimensioni (fino a qualche GB)
  • efficienza

Per lo studio in mente, mi piace variare k. Quindi, eseguirò il software più volte con k differenti.

Qualsiasi aiuto è il benvenuto.

Benvenuto nel sito. Qual è la tua soluzione attuale? Quali programmi non efficienti hai trovato (per evitare di proporli)? Le altre risposte nel [tag: k-mer] non possono aiutarti a realizzare quel programma?
Una risposta:
Devon Ryan
2018-03-14 17:05:00 UTC
view on stackexchange narkive permalink

Puoi fare tutto questo con khmer. Ad esempio, abbondance-dist-single.py produce un file con colonne: k-mer abbondance , k-mer count , conteggio cumulativo e frazione di k-meri distinti totali . Quindi per la domanda 1 dovresti sommare la colonna 2. Per la domanda 2 dovresti semplicemente ottenere il conteggio k-mer associato a un k-mer abbondanza` di 1.

Quel pacchetto fornisce anche un'API python (vedi il link leggi la documentazione sopra) se hai bisogno di personalizzare di più le cose.

Grazie mille per quel suggerimento. Ho fatto un primo test di khmer usando A.thaliana: `python abbondance-dist-single.py -k -b `. Sembra grandioso. È veloce e facile da usare. Tuttavia, ricevo un errore per k> 32. C'è un modo per andare oltre 32?
Non sono sicuro che sia possibile con lo script della riga di comando, ma sembra che sia [possibile nell'API] (https://github.com/dib-lab/khmer/pull/1511).
Grazie per quel suggerimento, lo controllerò. Tuttavia, ho anche scoperto per alcuni esempi (e leggendo la documentazione / i documenti in seguito;) che non è esatto. Quindi, attualmente uso anche i parametri `-N 20 -x 1E7` per evitare troppi errori. Nel caso qualcuno volesse fare un caso di studio simile. Inoltre, ho alcuni problemi con alcune specie in cui khmer afferma `ERRORE: la distribuzione dell'abbondanza è uniformemente zero; nulla da segnalare. Verificare che i file di input siano validi. I file sembrano a posto e sono stati utilizzati in altre analisi. Qualche idea?
No, scusa, non ho mai visto quell'errore.


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...