有效基因组大小

许多工具可以接受“有效的基因组大小”。这被定义为“可映射”基因组的长度。有两种常见的计算方法:

1. The number of non-N bases in the genome.
2. The number of regions (of some size) in the genome that are uniquely mappable (possibly given some maximal edit distance).

备选方案1可以使用以下公式计算 faCount from Kents tools 。使用这种方法的一些基因组的有效基因组大小如下所示:

基因组

有效尺寸

GRCH37

2864785220

GRCH38

2913022398

T2T/CHM13CAT_v2

3117292070

GRCM37

2620345972

小精灵

2652783500

二甲基亚砜

162367812

二甲基亚砜

142573017

GRCZ10

1369631918

GRCH11

1368780147

白细胞235

100286401

泰瑞10

119482012

仅当包括多重映射读取时,这些值才适用。如果它们被排除(或者应用了任何MAPQ过滤器),则从选项2派生的值更合适。然后,基于读取长度来确定这些参数。对于各种读取长度,我们可以使用 khmer program 计划和 unique-kmers.py 尤其是。使用该方法给定读取长度的有效基因组大小表如下:

读取长度

GRCH37

GRCH38

T2T/CHM13CAT_v2

GRCM37

小精灵

二甲基亚砜

二甲基亚砜

GRCZ10

GRCH11

白细胞235

泰瑞10

50

2685511454

2701495711

2725240337

2304947876

2308125299

130428510

125464678

1195445541

1197575653

95159402

114339094

75

2736124898

2747877702

2786136059

2404646149

2407883243

135004387

127324557

1251132611

1250812288

96945370

115317469

100

2776919708

2805636231

2814334875

2462480910

2467481008

139647132

129789773

1280188944

1280354977

98259898

118459858

150

2827436883

2862010428

2931551487

2489384085

2494787038

144307658

129940985

1312207019

1311832909

98721103

118504138

200

2855463800

2887553103

2936403235

2513019076

2520868989

148523810

132508963

1321355041

1322366338

98672558

117723393

250

2855044784

2898802627

2960856300

2528988583

2538590322

151901455

132900923

1339205109

1342093482

101271756

119585546

deepTools Galaxy <http://deeptools.ie-freiburg.mpg.de> _.

code @ github <https://github.com/deeptools/deepTools/> _.