本文目录一览:
FASTQ文件解读
Illumina测序技术使用 簇生成和边合成边测序(SBS)化学技术对流动槽(flow cell)上数百万或数十亿簇(cluster)进行测序,具体簇的数目取决于测序平台。 在边合成边测序化学过程中,仪器上的实时分析(RTA)软件对每个簇的每个循环进行碱基检出和存储。 RTA以单个读取碱基(base call,或称BCL)文件的形式存储碱基检出数据。 测序完成后,必须将BCL文件中的测定的碱基转换为序列数据。 此过程称为BCL到FASTQ的转换。
FASTQ文件是一个文本文件,其中包含通过流动槽(flow cell)上质控参数的簇(cluster)的测序数据(有关簇的质控参数,请参阅本公告的“其他信息”部分)。如果样本是multiplexed,则FASTQ文件生成的第一步是demultiplexing。 demultiplexing根据簇的index序列将簇分配给样本。 demultiplexing后,将每个样本的组合序列写入FASTQ文件。 如果未对样品进行multiplex,则不会发生demultiplexing,并且对于每个流动槽每个通道(Lane)中的所有簇都分配给一个样品。
对于单端测序的运行,将为每个流动槽上每条通道的每个样品创建一个Read 1(R1)FASTQ文件。 对于双端测序的运行,将为每个流动槽上每条通道的每个样品各创建一个R1和一个Read 2(R2)FASTQ文件。 FASTQ文件是使用扩展名*.fastq.gz压缩和创建的。-fastq文件取子集
FASTQ文件是什么样的?
对于每个通过质控参数的簇,一个序列被写入相应样本的R1 FASTQ文件,而对于双端测序运行,另外一个序列也被写入该样本的R2 FASTQ文件。 FASTQ文件中的每个条目包含4行:
这是R1 FASTQ文件中单个记录条目的示例:
有关FASTQ格式的更多详细信息,请参见此处。
如何查看FASTQ文件
FASTQ文件最多可以包含数百万个条目,大小可
根据seqid提取fastq序列
从fasta/fastq文件中提取子集
seqtk subseq head40.fq a.list
提取fq时需要其文件开头用: sed -i 's/@/@/g' head40.fq
seqkit grep -f a.list head40.fq [输出格式没有楼上好]
samtools view WT-1.validpairs.bam | head
提取valid_seqid:
提取原始fq_seqid:
提取补集:
提取 validpairs :
提取 discard:
[基因组工具]seqkit的使用
SeqKit是一种跨平台的、极快的,全面的fasta/q处理工具。SeqKit为所有的主流操作系统提供了一种可执行的双元文件,包括Windows,Linux,Mac OS X,并且不依赖于任何的配置或预先配置就可以直接使用。-fastq文件取子集
Sequence ID
大部分的软件,包括seqkit默认将主导的非空格字母作为ID。
对fastq文件进行一个概括浏览
在fasta/q文件中获取每条序列的GC含量
从fastq/a中根据名字和ID提取序列子集
从fasta/q序列中找到合并碱基并找到它的位置 (这个仿佛有点难度,不报错也不打印内容到屏幕)??
移去相同序列中重复的fasta/q记录
在fastq/a序列中定位motif/子序列/酶切位点
怎样通过长度来对大量的fasta文件进行排序
根据标题信息来拆分fasta序列
从一个text文件已知的字符串中搜索并替换fasta标题
从两个配对端读数的文件提取配对的reads
将两个fasta文件连接成一个
关于Fastq格式的一些想法
FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。-fastq文件取子集
FASTQ文件中每个序列通常有四行:
例如:
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
++
!'' (((( +))%%%++)(%%%%).1 -+ ''))**55CCFCCCCCCC65
质量评分指的是一个碱基的错误概率的对数值。其最初在Phred拼接软件中定义与使用,其后在许多软件中得到使用。其质量得分与错误概率的对应关系见下表:
Phred quality scores are logarithmically linked to error probabilities
Phred quality scores Q are defined as a property which is logarithmically related to the base-calling error probabilities P.-fastq文件取子集
除了Phred质量得分换算标准,还有就是Solexa标准:
Relationship between Q and p using the Sanger (red) and Solexa (black) equations (described above). The vertical dotted line indicates p = 0.05, or equivalently, Q ≈ 13.-fastq文件取子集
对于每个碱基的质量编码标示,不同的软件采用不同的方案,目前有5种方案:
SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS.....................................................
..........................XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX......................
...............................IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII......................
.................................JJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJ......................
LLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLL....................................................
!"#$%'()*+,-./0123456789:;=?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[]^_`abcdefghijklmnopqrstuvwxyz{|}~
没有特别的规定,通常使用.fq, .fastq, .txt等
FASTQ格式的序列一般都包含有四行,第一行由@开始,后面跟着序列的描述信息,这点跟FASTA格式是一样的。第二行是序列。第三行由'+'开始,后面也可以跟着序列的描述信息。第四行是第二行序列的质量评价(quality values,注:应该是测序的质量评价),字符数跟第二行的序列是相等的。-fastq文件取子集
FASTQ格式例子:
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
++
!'' (((( +))%%%++)(%%%%).1 -+ ''))**55CCFCCCCCCC65
例如在NCBI看到的FASTQ格式如下:
@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC
+SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC
FASTQ格式与Fasta格式、GenBank等格式的相互转换
Fastq文件格式解析
Fastq是测序数据下机格式,其中包含测序序列(reads)的序列信息及其对应的测序质量信息。
FASTQ格式文件中每个read由四行描述,如下:
其中第一行以“@”开头,随后为Illumina 测序标识符(Sequence Identifiers)和描述文字(选择性部分);第二行是碱基序列;第三行以“+”开头,随后为Illumina 测序标识符(选择性部分);第四行是对应序列的测序质量。-fastq文件取子集
Illumina 测序标识符详细信息如下:
第四行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。如果测序错误率用e表示,Illumina测序平台的碱基质量值用Qphred表示,则有下列关系:
ASCII - 33 = Qphred = -10log10(e)
此公式可说明,质量值越大测序错误率(e)越低,准确性越高