Bio.AlignIO.MafIO模块

Bio.AlignIO支持“maf”多对齐格式。

UCSC描述的多重对齐格式将一系列多重对齐存储在单个文件中。它适用于全基因组到全基因组比对,可以存储源染色体、起始位置、大小和链等元数据。

请参阅http://genome.ucsc.edu/FAQ/FAQformat.html#format5

您需要通过Bio.AlignIO函数使用此模块(如果您想要直接处理有间隙的序列,则通过Bio.SeqIO函数)。

MAF格式中的坐标是根据从零开始的位置(如Python)和对齐区域大小定义的。

长度为1并且在源序列中的第一位置开始的最小比对区域将具有 start == 0size == 1

正如我们在这个例子中看到的, start + size 将给出比从零开始的结束位置多一个。因此我们可以操纵 startstart + size 作为Python列表切片边界。

对于包含式结束坐标,我们需要使用 end = start + size - 1 。1列宽的对齐方式将具有 start == end

class Bio.AlignIO.MafIO.MafWriter(handle)

基类:SequentialAlignmentWriter

接受MultipleSeqAlignment对象,写入MAF文件。

write_header()

写入MAF标题。

write_alignment(alignment)

写一个完全对齐的MAF挡路。

将多序列对齐对象中的每个序列记录写入其自己的MAF挡路(以‘a’行开始,包含‘s’行)。

Bio.AlignIO.MafIO.MafIterator(handle, seq_count=None)

作为MultipleSeqAlignment对象迭代MAF文件句柄。

遍历类似MAF文件的对象(句柄)中的行,生成MultipleSeqAlignment对象。SeqRecord ID通常对应于物种名称。

class Bio.AlignIO.MafIO.MafIndex(sqlite_file, maf_file, target_seqname)

基类:object

MAF文件的索引。

该索引是一个sqlite3数据库,如有必要,该数据库在创建对象时构建,并在方法 搜索get_spliced 都是用过的。

__init__(sqlite_file, maf_file, target_seqname)

索引或加载MAF文件的索引。

search(starts, ends)

为提供的范围重叠的MAF记录搜索索引数据库。

退货 MultipleSeqAlignment 结果为ORDER BY START,END,INTERNAL OFFSET字段。

开始 应该是引用中线段的从0开始的坐标列表。 ends 应该是相应数据段结束的列表(在半开放的ucsc约定中:http://genome.ucsc.edu/blog/the-ucsc-genome-browser-coordinate-counting-systems/).

get_spliced(starts, ends, strand=1)

返回所提供的精确序列范围的多重对齐。

接受target_seqname上开始和结束位置的两个列表,表示要在silo中拼接的外显子。返回一个 MultipleSeqAlignment 所需序列拼接在一起。

开始 应该是引用中线段的从0开始的坐标列表。 ends 应该是相应数据段结束的列表(在半开放的ucsc约定中:http://genome.ucsc.edu/blog/the-ucsc-genome-browser-coordinate-counting-systems/).

要请求与参考序列的前100个核苷酸相对应的比对部分,您可以使用 search([0], [100])

__repr__()

返回索引的字符串表示形式。

__len__()

返回索引中的记录数。