NGS术语表

与大多数专业领域一样,下一代测序也启发了许多首字母缩略词。我们正在努力追踪那些 缩写 我们大量使用。如果有什么不清楚的地方,一定要在 github

缩写

参考基因组通常用其缩写来表示,例如:

  • hg19=人类基因组,第19版

  • MM9= 小肌肉 基因组,第9版

  • DM3= 黑腹果蝇 ,版本3

  • CE10= 秀丽隐杆线虫 ,版本10

有关可用参考基因组及其缩写的更全面列表,请参见 UCSC data base .

首字母缩略词

完整短语

同义词/解释

<anything>-序列

-排序

表明一个实验是通过DNA测序完成的。

芯片序列

染色质免疫沉淀测序

检测转录因子结合位点和组蛋白修饰的NGS技术(见条目 输入 更多信息)

DNase

脱氧核糖核酸酶I

dnase I消化用于确定活性(“开放”)染色质区域。

HTS

高通量测序技术

下一代测序、大规模并行短读测序、深度测序

MNase

微细胞核酸酶

用酶消化法测定核小体的位置。

NGS

下一代测序

高通量(DNA)测序、大规模并行短读测序、深度测序

RPGC

读取每个基因组内容

标准化读取到1X序列深度,序列深度定义为:(映射读取X片段长度)/有效基因组大小

RPKM

每千基读取/百万读取

标准化读取数:rpkm(每bin)=reads per bin/(映射读取(百万)x bin长度(kb))

对流行音乐的评论 * -Seq应用程序,请参见 Zentner and Henikoff .

NGS和通用术语

以下是一些人可能不熟悉的术语:

箱子

  • 同义词:窗口,区域

  • “bin”是较大分组的子集。许多计算是通过首先将基因组划分为小区域(bins)来进行的,计算实际上是在小区域(bins)上进行的。

输入

  • 控制实验通常用于芯片序列实验

  • 尽管Chip Seq依赖抗体来丰富与某一蛋白质结合的DNA片段,但输入样本的处理方式应完全相同,不包括抗体。这就可以解释样本处理带来的偏差和细胞的一般染色质结构。

阅读

  • 同义词:标记

  • 这个术语是指由测序者测序(“读取”)的DNA片段。我们试图区分“读取”和“DNA片段”,因为放入测序器的片段往往在200-1000碱基的范围内,其中只有前50-300碱基是典型的测序。大多数deeptools不仅考虑到这些读取,而且扩展它们以匹配原始DNA片段大小。(原始大小将由您给出,或者,如果您使用成对的端点排序,则将从两个读取伙伴之间的距离计算得出)。

文件格式

从下一代测序数据中获得的数据必须进行多次处理。大多数处理步骤的目的都是只提取特定下游分析所需的信息,而冗余条目常常被丢弃。因此, 特定的数据格式通常与数据处理管道的不同步骤相关联。 .

在这里,我们只想给出文件的非常简短的关键描述,为了获得详细的信息,我们将链接到外部网站。请注意,此处的文件名排序是按字母顺序排列的,而不是根据它们在此处描述的分析管道中的用法进行的:

../_images/flowChart_FileFormats.png

有关图中提到的不同工具集合的更多信息,请遵循链接:

samtools | UCSCtools | BEDtools |

2位

  • 通常存储在 FASTA

  • 大多数2bit格式的基因组都可以找到 at UCSC

  • FASTA 可以使用UCSC程序将文件转换为2bit 法托沃比特 ,可用于不同的平台 UCSC

  • 可以找到更多信息 here

BAM

  • 典型文件扩展名: .bam

  • 二元的 文件格式(对 SAM

  • 包含有关顺序读取的信息(通常) 对齐后 参考基因组

  • 每行=1个映射读取,包含以下信息:
    • 其映射质量(报告的对齐是否正确的可能性)

    • 其排序质量(每个基数正确的概率)

    • 它的顺序

    • 它在基因组中的位置

    • 等。

  • 强烈推荐的数据存储格式

  • 例如,要使BAM文件具有人类可读性,可以使用该程序 samtools视图

  • 有关详细信息,请参见下面的定义 SAM 文件夹

BED

  • 典型文件扩展名: .bed

  • 文本文件

  • 用于基因组间期,如基因、峰区等。

  • 格式可在 UCSC

  • 对于deeptools,前3列很重要:染色体,区域的起始位置,基因组的结束位置。

  • 不要把它和 床面描记器 格式(尽管它们是相关的)

  • 来自鼠标基因床文件的示例行(请注意,起始位置基于0,结束位置基于1,遵循床文件的UCSC约定)::

    chr1    3204562 3661579 NM_001011874 Xkr4   -
    chr1    4481008 4486494 NM_011441    Sox17  -
    chr1    4763278 4775807 NM_001177658 Mrpl15 -
    chr1    4797973 4836816 NM_008866    Lypla1 +
    

床面描记器

  • 典型文件扩展名: .bg.bedGraph

  • 文本文件

  • 类似于bed文件(不同!),它可以 only 包含4列和第4列 must 得分

  • 再次阅读 UCSC description 有关详细信息

  • 4个床位图文件的示例行(如遵循UCSC惯例的床位文件,开始位置基于0,结束位置基于1,在床位图文件中):

chr1 10 20 1.5
chr1 20 30 1.7
chr1 30 40 2.0
chr1 40 50 1.8

大人物

  • 典型文件扩展名: .bw.bigwig

  • 二元的 A的版本 床面描记器wig 文件

  • 包含间隔和相关分数的坐标

  • 分数可以是任何东西,例如平均阅读覆盖率

  • UCSC description 有关详细信息

FASTA

  • 典型文件扩展名: .fasta

  • 文本文件,通常为gzip格式 (.fasta.gz

  • 非常简单的格式 DNA/RNA蛋白质 序列,这可以是从小片段的DNA或蛋白质到整个基因组的任何东西(最有可能的是,你会得到你的有机体对FASTA格式感兴趣的基因组序列)。

  • 2位 压缩替代项的文件格式项

  • 示例来自 wikipedia 仅显示一个序列:

>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]
 LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV
 EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG
 LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL
 GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX
 IENY

FASTQ

  • 典型文件扩展名: .fastq.fq

  • 文本文件,通常是gzip(-> .fastq.gz

  • 包含原始读取信息--每次读取4行:
    • 读取ID

    • 基本通话

    • 附加信息或空行

    • 排序质量度量-每次基本调用1个

  • 请注意,目前还没有关于读取源于哪里的基因组的信息。

  • 示例来自 wikipedia page ,其中包含更多信息:

    @read001                                                                                                            # read ID
    GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT        # read sequence
    +                                                                                                                           # usually empty line
    !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65        # ASCII-encoded quality scores
    
  • 如果您需要了解.fastq文件包含的ASCII编码类型,只需运行 FastQC --它的摘要文件会告诉你

SAM

  • 典型文件扩展名: .sam

  • 通常是序列读取与参考基因组比对的结果。

  • 包含一个短标题部分(条目用@符号标记)和一个对齐部分,其中每行对应一个读(因此,可能有数百万行这样的行)

../_images/glossary_sam.png

sam头段

  • 制表符分隔的行,以@开头,后跟标记:值对

  • tag =两个字母的字符串,用于定义 价值

SAM对齐部分

  • 每一行包含有关其绘图质量、序列、在基因组中的位置等信息:

    r001 163 chr1 7 30 8M2I4M1D3M = 37 39 TTAGATAAAGGATACTG *
    r002 0 chr1 9 30 3S6M1P1I4M * 0 0 AAAAGATAAGGATA *
    
  • 这个 第二个字段中的标志 包含对以单个数字编码的几个“是/否”评估的答案

  • 有关标志的更多详细信息,请参阅 this thorough explanationthis more technical explanation

  • 这个 第六场雪茄串 表示将读取与特定基因组位置对齐所需的操作类型:

    • 插入

    • 删除(用 D ,更大的删除,例如,对于拼接读取,用表示 N

    • 剪切(在读取结束时删除)

警告

尽管对SAM/BAM格式进行了相当细致的定义和记录,但是校准程序是否会生成符合这些原则的SAM/BAM文件完全取决于程序员。地图分数,雪茄串,尤其是, 所有可选标志 (字段>11)通常 根据程序的不同定义非常不同 . 如果您计划基于这些条件中的任何一个筛选您的数据,请确保您确切知道这些条目是如何计算和设置的!

deepTools Galaxy <http://deeptools.ie-freiburg.mpg.de> _.

code @ github <https://github.com/deeptools/deepTools/> _.