读取扩展名
在大多数NGS实验中,DNA(或RNA)被分割成小片段,并且只对这些片段的末端进行测序。对于许多应用来说,需要量化整个原始片段在基因组上的覆盖率。因此,有一个 --extendReads 选项存在于整个deeptools中。其工作原理如下:
成对结束读取
对基因组区域进行取样,以确定片段/读取长度的中值。
基因组被细分为不相交的区域。这些区域中的每一个区域都包含一个或多个具有所需大小的箱子(由 -bs )
对于每个区域,所有与之重叠的路线都将被收集。此外,收集2000个碱基内的所有对齐,因为2000个碱基是允许的最大片段大小。
对齐的结果集合都是根据片段长度进行扩展的,对于成对的端点读取,这在BAM文件中指示。
对于单例,使用步骤1中的预期片段长度。
对于每个扩展读取,它重叠的每个bin中的计数都会增加。
单端读取
指定了延伸长度L。
基因组被细分为不相交的区域。这些区域中的每一个区域都包含一个或多个具有所需大小的箱子(由 -bs )
对于每个区域,所有与之重叠的路线都将被收集。此外,收集2000个碱基内的所有对齐,因为2000个碱基是允许的最大片段大小。
由此产生的路线集合都延伸到长度l。
对于每个扩展读取,它重叠的每个bin中的计数都会增加。
黑名单地区
问题可能出现在如何处理源自黑名单地区内部的路线。简而言之,任何完全包含在黑名单区域内的对齐都将被忽略,不管它是否会扩展到非黑名单区域。只有部分重叠的黑名单地区的路线被视为正常,像对读取跨越黑名单地区。这主要是为了提高性能,否则需要检查每个扩展读取是否与黑名单区域重叠。
deepTools Galaxy <http://deeptools.ie-freiburg.mpg.de> _. |
code @ github <https://github.com/deeptools/deepTools/> _. |