读取扩展名

在大多数NGS实验中,DNA(或RNA)被分割成小片段,并且只对这些片段的末端进行测序。对于许多应用来说,需要量化整个原始片段在基因组上的覆盖率。因此,有一个 --extendReads 选项存在于整个deeptools中。其工作原理如下:

成对结束读取

  1. 对基因组区域进行取样,以确定片段/读取长度的中值。

  2. 基因组被细分为不相交的区域。这些区域中的每一个区域都包含一个或多个具有所需大小的箱子(由 -bs

  3. 对于每个区域,所有与之重叠的路线都将被收集。此外,收集2000个碱基内的所有对齐,因为2000个碱基是允许的最大片段大小。

  4. 对齐的结果集合都是根据片段长度进行扩展的,对于成对的端点读取,这在BAM文件中指示。

  • 对于单例,使用步骤1中的预期片段长度。

  1. 对于每个扩展读取,它重叠的每个bin中的计数都会增加。

单端读取

  1. 指定了延伸长度L。

  2. 基因组被细分为不相交的区域。这些区域中的每一个区域都包含一个或多个具有所需大小的箱子(由 -bs

  3. 对于每个区域,所有与之重叠的路线都将被收集。此外,收集2000个碱基内的所有对齐,因为2000个碱基是允许的最大片段大小。

  4. 由此产生的路线集合都延伸到长度l。

  5. 对于每个扩展读取,它重叠的每个bin中的计数都会增加。

黑名单地区

问题可能出现在如何处理源自黑名单地区内部的路线。简而言之,任何完全包含在黑名单区域内的对齐都将被忽略,不管它是否会扩展到非黑名单区域。只有部分重叠的黑名单地区的路线被视为正常,像对读取跨越黑名单地区。这主要是为了提高性能,否则需要检查每个扩展读取是否与黑名单区域重叠。

deepTools Galaxy <http://deeptools.ie-freiburg.mpg.de> _.

code @ github <https://github.com/deeptools/deepTools/> _.