Bio.Sequencing.Ace模块

PHRAP输出的ACE文件的解析器。

作者:Frank Kauff(fkauff@duke.edu)和Cymon J.Cox(cymon@duke.edu)

用法:

读取ACE文件有两种方式:

  1. “读取”功能一次读取整个文件;

  2. 函数‘parse’在重叠群之后读取文件重叠群。

第一个选项,一次解析整个ACE文件::

from Bio.Sequencing import Ace
acefilerecord = Ace.read(open('my_ace_file.ace'))
这为您提供了:
  • acefilerecord.ncontigs(ace文件中的重叠群数量)

  • acefilerecord.nread(ace文件中的读取次数)

  • acefilerecord.contigs[](每个重叠群对应一个Contig类实例)

Contig类在Read类的实例列表中保存CO标签、CT和WA标签的信息,以及用于此重叠群的所有读取,例如::

contig3 = acefilerecord.contigs[2]
read4 = contig3.reads[3]
RD_of_read4 = read4.rd
DS_of_read4 = read4.ds

文件末尾的CT、WA、RT标签可以出现在任何位置,并自动分类到正确的位置。

有关详细信息,请参阅_RecordConsumer。

第二个选项是以通常的方式逐个迭代ACE文件的重叠群::

from Bio.Sequencing import Ace
contigs = Ace.parse(open('my_ace_file.ace'))
for contig in contigs:
    print(contig.name)
    ...

请注意,为了提高内存效率,在使用迭代器方法时,一次只在内存中保留一个重叠群。但是,ACE文件可能有一个页脚,其中包含WA、CT、RT或WR标签,这些标签包含重叠群上的其他元数据。因为解析器直到最后一条记录才能看到该数据,所以不能将其添加到相应的记录中。相反,这些标签将与最后的重叠群记录一起返回。因此,ACE文件并不完全适合迭代的概念。如果需要WA、CT、RT、WR标记,则‘read’函数可能比‘parse’函数更合适。

class Bio.Sequencing.Ace.rd

基类:object

RD(读取),存储读取及其名称、顺序等。

每个读数映射到的位置和链保存在AF线中。

__init__()

初始化类。

class Bio.Sequencing.Ace.qa(line=None)

基类:object

QA(阅读质量),包括哪个部分(如果有的话)被用作共识。

__init__(line=None)

初始化类。

class Bio.Sequencing.Ace.ds(line=None)

基类:object

DS行,包括读取器的色谱文件的文件名。

__init__(line=None)

初始化类。

class Bio.Sequencing.Ace.af(line=None)

基类:object

AF行,定义读数在重叠群内的位置。

注意属性CORU是补码(C)或未补码(U)的缩写,因为链信息使用C或U字符存储在ACE文件中。

__init__(line=None)

初始化类。

class Bio.Sequencing.Ace.bs(line=None)

基类:object

BS(基段),它的读数被选为每个位置的共识。

__init__(line=None)

初始化类。

class Bio.Sequencing.Ace.rt(line=None)

基类:object

RT(瞬时读取标签),由交叉匹配和Phrap生成。

__init__(line=None)

初始化类。

class Bio.Sequencing.Ace.ct(line=None)

基类:object

CT(共识标签)。

__init__(line=None)

初始化类。

class Bio.Sequencing.Ace.wa(line=None)

基类:object

Wa(整个程序集标记),保存汇编程序名称、版本等。

__init__(line=None)

初始化类。

class Bio.Sequencing.Ace.wr(line=None)

基类:object

WR线。

__init__(line=None)

初始化类。

class Bio.Sequencing.Ace.Reads(line=None)

基类:object

保存有关支持ACE重叠群的读取器的信息。

__init__(line=None)

初始化类。

class Bio.Sequencing.Ace.Contig(line=None)

基类:object

保存有关ACE记录中的重叠群的信息。

__init__(line=None)

初始化类。

Bio.Sequencing.Ace.parse(source)

按重叠群迭代ACE文件重叠群。

参数源是类似文件的对象或文件的路径。

此函数返回一个迭代器,该迭代器允许您逐条记录迭代ACE文件记录::

records = parse(source)
for record in records:
    # do something with the record

其中每个记录是重叠对象。

class Bio.Sequencing.Ace.ACEFileRecord

基类:object

保存ACE文件的数据。

__init__()

初始化类。

sort()

如果可能,将wr、rt和ct标签排序到适当的重叠群/读取实例中。

Bio.Sequencing.Ace.read(handle)

将完整的ACE文件解析为重叠群列表。