Sto cercando un software in grado di calcolare "efficacemente" (tempo e memoria) la percentuale esatta di k-meri non univoci in un genoma per un dato k. Non ho bisogno dei k-mers o delle abbondanze stesse, ho solo bisogno della percentuale.
In alternativa, il risultato potrebbe essere:
- il numero di diversi k- meri osservati nel genoma
- il numero di k-meri univoci, ovvero k-meri che si verificano solo una volta nel genoma, o il numero di k-meri non univoci, cioè, k-meri che si verificano più di una volta nel genoma.
che può essere facilmente utilizzato per calcolare la percentuale richiesta.
Caratteristiche richieste:
- non contare k-mer con nucleotidi ambigui
- contare un k-mer e il suo complemento inverso insieme
- k fino a 50 o 100
- per genomi di grandi dimensioni (fino a qualche GB)
- efficienza
Per lo studio in mente, mi piace variare k. Quindi, eseguirò il software più volte con k differenti.
Qualsiasi aiuto è il benvenuto.