Bio.AlignIO.MafIO模块¶
Bio.AlignIO支持“maf”多对齐格式。
UCSC描述的多重对齐格式将一系列多重对齐存储在单个文件中。它适用于全基因组到全基因组比对,可以存储源染色体、起始位置、大小和链等元数据。
请参阅http://genome.ucsc.edu/FAQ/FAQformat.html#format5
您需要通过Bio.AlignIO函数使用此模块(如果您想要直接处理有间隙的序列,则通过Bio.SeqIO函数)。
MAF格式中的坐标是根据从零开始的位置(如Python)和对齐区域大小定义的。
长度为1并且在源序列中的第一位置开始的最小比对区域将具有 start == 0
和 size == 1
。
正如我们在这个例子中看到的, start + size
将给出比从零开始的结束位置多一个。因此我们可以操纵 start
和 start + size
作为Python列表切片边界。
对于包含式结束坐标,我们需要使用 end = start + size - 1
。1列宽的对齐方式将具有 start == end
。
- class Bio.AlignIO.MafIO.MafWriter(handle)¶
-
接受MultipleSeqAlignment对象,写入MAF文件。
- write_header()¶
写入MAF标题。
- write_alignment(alignment)¶
写一个完全对齐的MAF挡路。
将多序列对齐对象中的每个序列记录写入其自己的MAF挡路(以‘a’行开始,包含‘s’行)。
- Bio.AlignIO.MafIO.MafIterator(handle, seq_count=None)¶
作为MultipleSeqAlignment对象迭代MAF文件句柄。
遍历类似MAF文件的对象(句柄)中的行,生成MultipleSeqAlignment对象。SeqRecord ID通常对应于物种名称。
- class Bio.AlignIO.MafIO.MafIndex(sqlite_file, maf_file, target_seqname)¶
基类:
object
MAF文件的索引。
该索引是一个sqlite3数据库,如有必要,该数据库在创建对象时构建,并在方法 搜索 或 get_spliced 都是用过的。
- __init__(sqlite_file, maf_file, target_seqname)¶
索引或加载MAF文件的索引。
- search(starts, ends)¶
为提供的范围重叠的MAF记录搜索索引数据库。
退货 MultipleSeqAlignment 结果为ORDER BY START,END,INTERNAL OFFSET字段。
开始 应该是引用中线段的从0开始的坐标列表。 ends 应该是相应数据段结束的列表(在半开放的ucsc约定中:http://genome.ucsc.edu/blog/the-ucsc-genome-browser-coordinate-counting-systems/).
- get_spliced(starts, ends, strand=1)¶
返回所提供的精确序列范围的多重对齐。
接受target_seqname上开始和结束位置的两个列表,表示要在silo中拼接的外显子。返回一个 MultipleSeqAlignment 所需序列拼接在一起。
开始 应该是引用中线段的从0开始的坐标列表。 ends 应该是相应数据段结束的列表(在半开放的ucsc约定中:http://genome.ucsc.edu/blog/the-ucsc-genome-browser-coordinate-counting-systems/).
要请求与参考序列的前100个核苷酸相对应的比对部分,您可以使用
search([0], [100])
- __repr__()¶
返回索引的字符串表示形式。
- __len__()¶
返回索引中的记录数。