La configurazione
Immagina che io lavori su un organismo senza un genoma di riferimento e che il genoma di riferimento più vicino che posso ottenere sia abbastanza divergente. Per esempio. ~ 10% divergeva in termini di SNV quando misurato con letture brevi e ha anche molte varianti strutturali.
Ora immagina di ottenere una lettura lunga di 1 milione di coppie di basi (ad esempio dai dati Nanopore) per il mio organismo. La domanda è questa:
come posso stimare la proporzione della lettura che è sequenza significativa rispetto a spazzatura?
Alcune cose che probabilmente non funzioneranno
La maggior parte degli approcci standard non funzionerà qui. Per esempio. Potrei provare a mappare la lettura al riferimento, ma anche se la lettura fosse perfettamente buona non mi sarei aspettato che la maggior parte fosse mappata grazie alle vere variazioni strutturali tra la lettura e il riferimento. Lo stesso vale per l'allineamento standard o BLAST.
Alcune cose che potrebbero funzionare
Il miglior metodo ingenuo qui sembra essere quello di tagliare la lettura in parti più piccole (sovrapposte o meno) e usare approcci standard per mappare / allineare ciascuno di questi.
Allora, cosa hanno provato le persone per questo? E quali strumenti hai utilizzato e perché?