Quina diferència hi ha entre FASTA i FASTQ en bioinformàtica?


Resposta 1:

Tots dos són formats de fitxers de text.

El format de fitxer FASTA és un format fet per representar seqüències (àcids nucleics, proteïnes), que s’assembla molt a:

> gi | 373251181 | ref | NG_001742.2 | Mus musculus olfactiu receptor GA_x5J8B7W2GLP-600-794 (LOC257854) Pseudogèn al cromosoma 2 AGCCTGCCAAGCAAACTTCACTGGAGTGTGCGTAGCATGCTAGTAACTGCATCTGAATCTTTCAGCTGCT TGTTGGGCCTCTCACAAGGCAGAGTGTCTTCATGGGACTTTGATATTTATTTTTGTACAACCTAAGAGGA ACAAATCCTTTGACACTGACAAATTGGCTTCCATATTTTATACCTTAATCATCTCCATGTTGAATTCATT GATCAACAGTTTAAGAAAAAAAGATGTAAAAATGCTTTTAGAAAGAGAGGCAAAGTTATGCACAATAACT TCTCATGAAGTCACAGTTTGTTAAAAGTTGCCTTAGTTCACAATAAATAATTATGTATGCTCTATAATTT CAGTGA

Si teniu una línia d'informació que comença amb ">" seguida de la seqüència de la següent línia. Aquestes dues línies es poden repetir en un fitxer determinat moltes vegades (per exemple, disseny d’imprimació PCR) o només una vegada si teniu tot el genoma d’un determinat organisme. En aquest darrer cas, també podeu tenir una única línia de capçalera que comenci per ">" i després diverses línies que només siguin seqüències; és la presència de la ">" que indica una nova seqüència.

Els fitxers Fasta són convenient per desar informació de seqüències, independentment de la seva font, es poden utilitzar com a base per alinear seqüències.

I FASTQ:

@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT +! '' * ((((+ +)) %%% ++) (%%%%). 1 *** - + * '')) ** 55CCF >>>>>> > CCCCCCC65

la segona línia és una seqüència d’ADN i la quarta una cadena que representa la qualitat de la seqüència amb una codificació específica. El primer i el tercer són línies d’informació / comentari. Aquest bloc de quatre línies es repeteix en un fitxer determinat diverses vegades, una vegada per fragment seqüenciat.

Els fitxers Fastq són un format de fitxer típic que surt d'una màquina de seqüenciació, per tant, la necessitat de representar la base identificada, però també la qualitat de la identificació.

Podeu trobar descripcions completes a wikipedia: FASTA i FASTQ (d’on vaig treure aquests exemples)

De manera que tots dos representen seqüències, però en fitxers fastq, també teniu una idea de qualitat de seqüència.