Bio.Sequencing.Ace模块¶
PHRAP输出的ACE文件的解析器。
作者:Frank Kauff(fkauff@duke.edu)和Cymon J.Cox(cymon@duke.edu)
用法:
读取ACE文件有两种方式:
“读取”功能一次读取整个文件;
函数‘parse’在重叠群之后读取文件重叠群。
第一个选项,一次解析整个ACE文件::
from Bio.Sequencing import Ace
acefilerecord = Ace.read(open('my_ace_file.ace'))
- 这为您提供了:
acefilerecord.ncontigs(ace文件中的重叠群数量)
acefilerecord.nread(ace文件中的读取次数)
acefilerecord.contigs[](每个重叠群对应一个Contig类实例)
Contig类在Read类的实例列表中保存CO标签、CT和WA标签的信息,以及用于此重叠群的所有读取,例如::
contig3 = acefilerecord.contigs[2]
read4 = contig3.reads[3]
RD_of_read4 = read4.rd
DS_of_read4 = read4.ds
文件末尾的CT、WA、RT标签可以出现在任何位置,并自动分类到正确的位置。
有关详细信息,请参阅_RecordConsumer。
第二个选项是以通常的方式逐个迭代ACE文件的重叠群::
from Bio.Sequencing import Ace
contigs = Ace.parse(open('my_ace_file.ace'))
for contig in contigs:
print(contig.name)
...
请注意,为了提高内存效率,在使用迭代器方法时,一次只在内存中保留一个重叠群。但是,ACE文件可能有一个页脚,其中包含WA、CT、RT或WR标签,这些标签包含重叠群上的其他元数据。因为解析器直到最后一条记录才能看到该数据,所以不能将其添加到相应的记录中。相反,这些标签将与最后的重叠群记录一起返回。因此,ACE文件并不完全适合迭代的概念。如果需要WA、CT、RT、WR标记,则‘read’函数可能比‘parse’函数更合适。
- class Bio.Sequencing.Ace.qa(line=None)¶
基类:
object
QA(阅读质量),包括哪个部分(如果有的话)被用作共识。
- __init__(line=None)¶
初始化类。
- class Bio.Sequencing.Ace.af(line=None)¶
基类:
object
AF行,定义读数在重叠群内的位置。
注意属性CORU是补码(C)或未补码(U)的缩写,因为链信息使用C或U字符存储在ACE文件中。
- __init__(line=None)¶
初始化类。
- class Bio.Sequencing.Ace.rt(line=None)¶
基类:
object
RT(瞬时读取标签),由交叉匹配和Phrap生成。
- __init__(line=None)¶
初始化类。
- class Bio.Sequencing.Ace.wa(line=None)¶
基类:
object
Wa(整个程序集标记),保存汇编程序名称、版本等。
- __init__(line=None)¶
初始化类。
- class Bio.Sequencing.Ace.Reads(line=None)¶
基类:
object
保存有关支持ACE重叠群的读取器的信息。
- __init__(line=None)¶
初始化类。
- Bio.Sequencing.Ace.parse(source)¶
按重叠群迭代ACE文件重叠群。
参数源是类似文件的对象或文件的路径。
此函数返回一个迭代器,该迭代器允许您逐条记录迭代ACE文件记录::
records = parse(source) for record in records: # do something with the record
其中每个记录是重叠对象。
- class Bio.Sequencing.Ace.ACEFileRecord¶
基类:
object
保存ACE文件的数据。
- __init__()¶
初始化类。
- sort()¶
如果可能,将wr、rt和ct标签排序到适当的重叠群/读取实例中。
- Bio.Sequencing.Ace.read(handle)¶
将完整的ACE文件解析为重叠群列表。