有效基因组大小
许多工具可以接受“有效的基因组大小”。这被定义为“可映射”基因组的长度。有两种常见的计算方法:
1. The number of non-N bases in the genome.
2. The number of regions (of some size) in the genome that are uniquely mappable (possibly given some maximal edit distance).
备选方案1可以使用以下公式计算 faCount
from Kents tools 。使用这种方法的一些基因组的有效基因组大小如下所示:
基因组 |
有效尺寸 |
---|---|
GRCH37 |
2864785220 |
GRCH38 |
2913022398 |
T2T/CHM13CAT_v2 |
3117292070 |
GRCM37 |
2620345972 |
小精灵 |
2652783500 |
二甲基亚砜 |
162367812 |
二甲基亚砜 |
142573017 |
GRCZ10 |
1369631918 |
GRCH11 |
1368780147 |
白细胞235 |
100286401 |
泰瑞10 |
119482012 |
仅当包括多重映射读取时,这些值才适用。如果它们被排除(或者应用了任何MAPQ过滤器),则从选项2派生的值更合适。然后,基于读取长度来确定这些参数。对于各种读取长度,我们可以使用 khmer program 计划和 unique-kmers.py
尤其是。使用该方法给定读取长度的有效基因组大小表如下:
读取长度 |
GRCH37 |
GRCH38 |
T2T/CHM13CAT_v2 |
GRCM37 |
小精灵 |
二甲基亚砜 |
二甲基亚砜 |
GRCZ10 |
GRCH11 |
白细胞235 |
泰瑞10 |
---|---|---|---|---|---|---|---|---|---|---|---|
50 |
2685511454 |
2701495711 |
2725240337 |
2304947876 |
2308125299 |
130428510 |
125464678 |
1195445541 |
1197575653 |
95159402 |
114339094 |
75 |
2736124898 |
2747877702 |
2786136059 |
2404646149 |
2407883243 |
135004387 |
127324557 |
1251132611 |
1250812288 |
96945370 |
115317469 |
100 |
2776919708 |
2805636231 |
2814334875 |
2462480910 |
2467481008 |
139647132 |
129789773 |
1280188944 |
1280354977 |
98259898 |
118459858 |
150 |
2827436883 |
2862010428 |
2931551487 |
2489384085 |
2494787038 |
144307658 |
129940985 |
1312207019 |
1311832909 |
98721103 |
118504138 |
200 |
2855463800 |
2887553103 |
2936403235 |
2513019076 |
2520868989 |
148523810 |
132508963 |
1321355041 |
1322366338 |
98672558 |
117723393 |
250 |
2855044784 |
2898802627 |
2960856300 |
2528988583 |
2538590322 |
151901455 |
132900923 |
1339205109 |
1342093482 |
101271756 |
119585546 |
deepTools Galaxy <http://deeptools.ie-freiburg.mpg.de> _. |
code @ github <https://github.com/deeptools/deepTools/> _. |