生物。测序。王牌模块

PHRAP输出的ACE文件的解析器。

作者:Frank Kauff(fkauff@duke.edu)和Cymon J. Cox(cymon@duke.edu

用途:

有两种方法可以读取ace文件:

  1. 函数“read”一次读取整个文件;

  2. 函数“parse”一个接一个地读取文件重叠群。

第一种选择,一次解析整个ace文件::

from Bio.Sequencing import Ace
acefilerecord = Ace.read(open('my_ace_file.ace'))
这为您提供:
  • acefilecRecord.ncontigs(ace文件中的contigs的数量)

  • acefilecord.nreads(ace文件中的读取次数)

  • acefilecRecord.contigs[](每个contig的一个Contig类实例)

Contig类保存CO标签、CT和WA标签的信息,以及Read类实例列表中用于此重叠群的所有读段,例如::

contig3 = acefilerecord.contigs[2]
read4 = contig3.reads[3]
RD_of_read4 = read4.rd
DS_of_read4 = read4.ds

文件末尾的CT、WA、RT标签可以出现在任何地方,并自动排序到正确的位置。

有关详细信息,请参阅_RecordConsumer。

第二个选项是以通常的方式逐个迭代ace文件的连续群::

from Bio.Sequencing import Ace
contigs = Ace.parse(open('my_ace_file.ace'))
for contig in contigs:
    print(contig.name)
    ...

请注意,为了提高内存效率,当使用迭代器方法时,一次只在内存中保留一个重叠群。 然而,ACE文件可以有一个页脚,其中包含WA、CT、RT或WR标签,这些标签包含重叠群上的额外元数据。因为解析器直到最后一条记录才看到这些数据,所以不能将其添加到适当的记录中。 相反,这些标签将与最后一个重叠群记录一起返回。因此,ace文件并不完全适合迭代的概念。如果需要WA、CT、RT、WR标签,则“read”函数而不是“parse”函数可能更合适。

class Bio.Sequencing.Ace.rd

基类:object

RD(读段),存储读段及其名称、序列等。

每个读段映射到的位置和链保存在AF线中。

__init__()

初始化课程。

__firstlineno__ = 61
__static_attributes__ = ('info_items', 'name', 'padded_bases', 'read_tags', 'sequence')
class Bio.Sequencing.Ace.qa(line=None)

基类:object

QA(阅读质量),包括哪个部分(如果有的话)被用作共识。

__init__(line=None)

初始化课程。

__firstlineno__ = 76
__static_attributes__ = ('align_clipping_end', 'align_clipping_start', 'qual_clipping_end', 'qual_clipping_start')
class Bio.Sequencing.Ace.ds(line=None)

基类:object

DS行,包括读取的图谱文件的文件名。

__init__(line=None)

初始化课程。

__firstlineno__ = 93
__static_attributes__ = ('chem', 'chromat_file', 'direction', 'dye', 'phd_file', 'template', 'time')
class Bio.Sequencing.Ace.af(line=None)

基类:object

AF线定义了重叠群内读段的位置。

请注意,属性coru是补语(C)或未补语(U)的缩写,因为串信息使用C或U字符存储在ACE文件中。

__init__(line=None)

初始化课程。

__firstlineno__ = 128
__static_attributes__ = ('coru', 'name', 'padded_start')
class Bio.Sequencing.Ace.bs(line=None)

基类:object

BS(碱基片段),其读段被选为每个位置的共识。

__init__(line=None)

初始化课程。

__firstlineno__ = 148
__static_attributes__ = ('name', 'padded_end', 'padded_start')
class Bio.Sequencing.Ace.rt(line=None)

基类:object

RT(瞬时读标签),由交叉匹配和phrap生成。

__init__(line=None)

初始化课程。

__firstlineno__ = 163
__static_attributes__ = ('comment', 'date', 'name', 'padded_end', 'padded_start', 'program', 'tag_type')
class Bio.Sequencing.Ace.ct(line=None)

基类:object

CT(共识标签)。

__init__(line=None)

初始化课程。

__firstlineno__ = 185
__static_attributes__ = ('comment', 'date', 'info', 'name', 'notrans', 'padded_end', 'padded_start', 'program', 'tag_type')
class Bio.Sequencing.Ace.wa(line=None)

基类:object

WA(整个装配标签),保存装配程序名称、版本等。

__init__(line=None)

初始化课程。

__firstlineno__ = 211
__static_attributes__ = ('date', 'info', 'program', 'tag_type')
class Bio.Sequencing.Ace.wr(line=None)

基类:object

WR线路。

__init__(line=None)

初始化课程。

__firstlineno__ = 227
__static_attributes__ = ('aligned', 'date', 'name', 'program')
class Bio.Sequencing.Ace.Reads(line=None)

基类:object

保存有关支持ACE重叠群的读取的信息。

__firstlineno__ = 244
__init__(line=None)

初始化课程。

__static_attributes__ = ('ds', 'qa', 'rd', 'rt', 'wr')
class Bio.Sequencing.Ace.Contig(line=None)

基类:object

保存有关ACE记录中重叠群的信息。

__firstlineno__ = 263
__static_attributes__ = ('af', 'bs', 'ct', 'name', 'nbases', 'nreads', 'nsegments', 'quality', 'reads', 'sequence', 'uorc', 'wa')
__init__(line=None)

初始化课程。

Bio.Sequencing.Ace.parse(source)

按连续群迭代ACE文件连续群。

参数源是类似文件的对象或文件的路径。

此函数返回一个迭代器,允许您逐个记录迭代ACE文件记录::

records = parse(source)
for record in records:
    # do something with the record

其中每个记录都是Contig对象。

class Bio.Sequencing.Ace.ACEFileRecord

基类:object

保存ACE文件的数据。

__firstlineno__ = 519
__static_attributes__ = ('contigs', 'ncontigs', 'nreads', 'wa')
__init__()

初始化课程。

sort()

如果可能的话,将wr、tt和ct标签排序到适当的重叠群/读取实例中。

Bio.Sequencing.Ace.read(handle)

将完整的ACE文件解析为连续群列表。