Bio.SeqIO.TabIO模块
Bio.SeqIO支持“tab”(简单的Tab分隔)文件格式。
您需要通过Bio.SeqIO功能使用此模块。
“tab”格式是一种特殊的纯文本文件格式,其中每个序列都在一个(长)行上。 每行包含标识符/描述,后跟一个选项卡,然后是序列。 例如,考虑以下简短的FASTA格式文件:
>ID123456 possible binding site?
CATCNAGATGACACTACGACTACGACTCAGACTAC
>ID123457 random sequence
ACACTACGACTACGACTCAGACTACAAN
除了描述之外,这还可以用简单的两列选项卡分隔的格式表示,如下所示:
ID123456(tab)CATCNAGATGACACTACGACTACGACTCAGACTAC
ID123457(tab)ACACTACGACTACGACTCAGACTACAAN
读取此文件时,“ID 123456”或“ID 123457”将被视为记录的.id和.Name属性。 没有其他信息需要记录。
类似地,当写入这种格式时,Biopython将只记录记录的.id和.seq(而不是描述或任何其他信息),如上面的示例所示。
- class Bio.SeqIO.TabIO.TabIterator(source)
-
制表符分隔文件的解析器。
- modes = 't'
- __init__(source)
将制表符分隔的行作为SeqRecord对象进行迭代。
文件的每一行应仅包含一个选项卡,将该行分为标识符和完整序列。
- 论点:
源-以文本模式打开的类似文件的对象,或文件的路径
第一个字段被视为记录的.id和.Name(无论文本中是否有空白),第二个字段是序列。
任何白线都会被忽略。
示例
>>> with open("GenBank/NC_005816.tsv") as handle: ... for record in TabIterator(handle): ... print("%s length %i" % (record.id, len(record))) gi|45478712|ref|NP_995567.1| length 340 gi|45478713|ref|NP_995568.1| length 260 gi|45478714|ref|NP_995569.1| length 64 gi|45478715|ref|NP_995570.1| length 123 gi|45478716|ref|NP_995571.1| length 145 gi|45478717|ref|NP_995572.1| length 357 gi|45478718|ref|NP_995573.1| length 138 gi|45478719|ref|NP_995574.1| length 312 gi|45478720|ref|NP_995575.1| length 99 gi|45478721|ref|NP_995576.1| length 90
- __next__()
返回下一个SeqRecord。
此方法必须由子类实现。
- __abstractmethods__ = frozenset({})
- __annotations__ = {}
- __firstlineno__ = 44
- __parameters__ = ()
- __static_attributes__ = ()
- class Bio.SeqIO.TabIO.TabWriter(target: IO | PathLike | str | bytes)
-
类编写简单的制表符分隔格式文件。
每一行仅由“id(tab)序列”组成。
不记录任何描述、名称或其他注释。
此类不打算直接使用。相反,请使用该功能
as_tab
,或者顶级Bio.SeqIO.write()
函数format="tab"
.- modes = 't'
- write_record(record)
将单个选项卡行写入文件。
- __abstractmethods__ = frozenset({})
- __annotations__ = {}
- __firstlineno__ = 101
- __parameters__ = ()
- __static_attributes__ = ()
- Bio.SeqIO.TabIO.as_tab(record)
以制表符分隔的(id(tab)seq)字符串形式返回记录。