×

fastq文件取子集

fastq文件取子集的简单介绍

admin admin 发表于2023-03-29 07:44:09 浏览77 评论0

抢沙发发表评论

本文目录一览:

FASTQ文件解读

Illumina测序技术使用 簇生成和边合成边测序(SBS)化学技术对流动槽(flow cell)上数百万或数十亿簇(cluster)进行测序,具体簇的数目取决于测序平台。 在边合成边测序化学过程中,仪器上的实时分析(RTA)软件对每个簇的每个循环进行碱基检出和存储。 RTA以单个读取碱基(base call,或称BCL)文件的形式存储碱基检出数据。 测序完成后,必须将BCL文件中的测定的碱基转换为序列数据。 此过程称为BCL到FASTQ的转换。

FASTQ文件是一个文本文件,其中包含通过流动槽(flow cell)上质控参数的簇(cluster)的测序数据(有关簇的质控参数,请参阅本公告的“其他信息”部分)。如果样本是multiplexed,则FASTQ文件生成的第一步是demultiplexing。 demultiplexing根据簇的index序列将簇分配给样本。 demultiplexing后,将每个样本的组合序列写入FASTQ文件。 如果未对样品进行multiplex,则不会发生demultiplexing,并且对于每个流动槽每个通道(Lane)中的所有簇都分配给一个样品。

对于单端测序的运行,将为每个流动槽上每条通道的每个样品创建一个Read 1(R1)FASTQ文件。 对于双端测序的运行,将为每个流动槽上每条通道的每个样品各创建一个R1和一个Read 2(R2)FASTQ文件。 FASTQ文件是使用扩展名*.fastq.gz压缩和创建的。-fastq文件取子集

FASTQ文件是什么样的?

对于每个通过质控参数的簇,一个序列被写入相应样本的R1 FASTQ文件,而对于双端测序运行,另外一个序列也被写入该样本的R2 FASTQ文件。 FASTQ文件中的每个条目包含4行:

这是R1 FASTQ文件中单个记录条目的示例:

有关FASTQ格式的更多详细信息,请参见此处。

如何查看FASTQ文件

FASTQ文件最多可以包含数百万个条目,大小可

根据seqid提取fastq序列

从fasta/fastq文件中提取子集

            seqtk subseq head40.fq a.list

提取fq时需要其文件开头用:  sed -i 's/@/@/g' head40.fq

           seqkit grep -f a.list head40.fq [输出格式没有楼上好]

samtools view WT-1.validpairs.bam | head

提取valid_seqid:

提取原始fq_seqid:

提取补集:

提取 validpairs :

提取 discard:

[基因组工具]seqkit的使用

SeqKit是一种跨平台的、极快的,全面的fasta/q处理工具。SeqKit为所有的主流操作系统提供了一种可执行的双元文件,包括Windows,Linux,Mac OS X,并且不依赖于任何的配置或预先配置就可以直接使用。-fastq文件取子集

Sequence ID

大部分的软件,包括seqkit默认将主导的非空格字母作为ID。

对fastq文件进行一个概括浏览

在fasta/q文件中获取每条序列的GC含量

从fastq/a中根据名字和ID提取序列子集

从fasta/q序列中找到合并碱基并找到它的位置 (这个仿佛有点难度,不报错也不打印内容到屏幕)??

移去相同序列中重复的fasta/q记录

在fastq/a序列中定位motif/子序列/酶切位点

怎样通过长度来对大量的fasta文件进行排序

根据标题信息来拆分fasta序列

从一个text文件已知的字符串中搜索并替换fasta标题

从两个配对端读数的文件提取配对的reads

将两个fasta文件连接成一个

关于Fastq格式的一些想法

FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。-fastq文件取子集

FASTQ文件中每个序列通常有四行:

例如:

@SEQ_ID

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT

++

!'' (((( +))%%%++)(%%%%).1 -+ ''))**55CCFCCCCCCC65

质量评分指的是一个碱基的错误概率的对数值。其最初在Phred拼接软件中定义与使用,其后在许多软件中得到使用。其质量得分与错误概率的对应关系见下表:

Phred quality scores are logarithmically linked to error probabilities

Phred quality scores Q are defined as a property which is logarithmically related to the base-calling error probabilities P.-fastq文件取子集

除了Phred质量得分换算标准,还有就是Solexa标准:

Relationship between Q and p using the Sanger (red) and Solexa (black) equations (described above). The vertical dotted line indicates p = 0.05, or equivalently, Q ≈ 13.-fastq文件取子集

对于每个碱基的质量编码标示,不同的软件采用不同的方案,目前有5种方案:

SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS.....................................................

..........................XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX......................

...............................IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII......................

.................................JJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJ......................

LLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLL....................................................

!"#$%'()*+,-./0123456789:;=?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[]^_`abcdefghijklmnopqrstuvwxyz{|}~

没有特别的规定,通常使用.fq, .fastq, .txt等

FASTQ格式的序列一般都包含有四行,第一行由@开始,后面跟着序列的描述信息,这点跟FASTA格式是一样的。第二行是序列。第三行由'+'开始,后面也可以跟着序列的描述信息。第四行是第二行序列的质量评价(quality values,注:应该是测序的质量评价),字符数跟第二行的序列是相等的。-fastq文件取子集

FASTQ格式例子:

@SEQ_ID

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT

++

!'' (((( +))%%%++)(%%%%).1 -+ ''))**55CCFCCCCCCC65

例如在NCBI看到的FASTQ格式如下:

@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36

GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC

+SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36

IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC

FASTQ格式与Fasta格式、GenBank等格式的相互转换

Fastq文件格式解析

Fastq是测序数据下机格式,其中包含测序序列(reads)的序列信息及其对应的测序质量信息。

FASTQ格式文件中每个read由四行描述,如下:

其中第一行以“@”开头,随后为Illumina 测序标识符(Sequence Identifiers)和描述文字(选择性部分);第二行是碱基序列;第三行以“+”开头,随后为Illumina 测序标识符(选择性部分);第四行是对应序列的测序质量。-fastq文件取子集

Illumina 测序标识符详细信息如下:

第四行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。如果测序错误率用e表示,Illumina测序平台的碱基质量值用Qphred表示,则有下列关系:

ASCII - 33 = Qphred = -10log10(e)

此公式可说明,质量值越大测序错误率(e)越低,准确性越高