Bio.SeqIO.PirIO模块
Bio.SeqIO支持“pir”(又名PIR或NBRF)文件格式。
该模块用于读写PIR或NBRF格式文件作为SeqRecord对象。
您应该通过Bio.SeqIO函数使用该模块,或者如果文件包含序列比对,则可以选择通过Bio.AlignIO。
这种格式是为国家生物医学研究基金会(NBRF)的项目蛋白质信息资源(PIR)引入的。 PIR数据库本身现在是UniProt的一部分。
该文件格式在线描述:http://www.ebi.ac.uk/help/pir_frame.html http://www.cmbi.kun.nl/bioinf/tools/crab_pir.html(目前已关闭)
这种格式的示例文件是::
>P1;CRAB_ANAPL
ALPHA CRYSTALLIN B CHAIN (ALPHA(B)-CRYSTALLIN).
MDITIHNPLI RRPLFSWLAP SRIFDQIFGE HLQESELLPA SPSLSPFLMR
SPIFRMPSWL ETGLSEMRLE KDKFSVNLDV KHFSPEELKV KVLGDMVEIH
GKHEERQDEH GFIAREFNRK YRIPADVDPL TITSSLSLDG VLTVSAPRKQ
SDVPERSIPI TREEKPAIAG AQRK*
>P1;CRAB_BOVIN
ALPHA CRYSTALLIN B CHAIN (ALPHA(B)-CRYSTALLIN).
MDIAIHHPWI RRPFFPFHSP SRLFDQFFGE HLLESDLFPA STSLSPFYLR
PPSFLRAPSW IDTGLSEMRL EKDRFSVNLD VKHFSPEELK VKVLGDVIEV
HGKHEERQDE HGFISREFHR KYRIPADVDP LAITSSLSSD GVLTVNGPRK
QASGPERTIP ITREEKPAVT AAPKK*
或者,多序列比对的示例::
>P1;S27231
rhodopsin - northern leopard frog
MNGTEGPNFY IPMSNKTGVV RSPFDYPQYY LAEPWKYSVL AAYMFLLILL GLPINFMTLY
VTIQHKKLRT PLNYILLNLG VCNHFMVLCG FTITMYTSLH GYFVFGQTGC YFEGFFATLG
GEIALWSLVV LAIERYIVVC KPMSNFRFGE NHAMMGVAFT WIMALACAVP PLFGWSRYIP
EGMQCSCGVD YYTLKPEVNN ESFVIYMFVV HFLIPLIIIS FCYGRLVCTV KEAAAQQQES
ATTQKAEKEV TRMVIIMVIF FLICWVPYAY VAFYIFTHQG SEFGPIFMTV PAFFAKSSAI
YNPVIYIMLN KQFRNCMITT LCCGKNPFGD DDASSAATSK TEATSVSTSQ VSPA*
>P1;I51200
rhodopsin - African clawed frog
MNGTEGPNFY VPMSNKTGVV RSPFDYPQYY LAEPWQYSAL AAYMFLLILL GLPINFMTLF
VTIQHKKLRT PLNYILLNLV FANHFMVLCG FTVTMYTSMH GYFIFGPTGC YIEGFFATLG
GEVALWSLVV LAVERYIVVC KPMANFRFGE NHAIMGVAFT WIMALSCAAP PLFGWSRYIP
EGMQCSCGVD YYTLKPEVNN ESFVIYMFIV HFTIPLIVIF FCYGRLLCTV KEAAAQQQES
LTTQKAEKEV TRMVVIMVVF FLICWVPYAY VAFYIFTHQG SNFGPVFMTV PAFFAKSSAI
YNPVIYIVLN KQFRNCLITT LCCGKNPFGD EDGSSAATSK TEASSVSSSQ VSPA*
>P1;JN0120
rhodopsin - Japanese lamprey
MNGTEGDNFY VPFSNKTGLA RSPYEYPQYY LAEPWKYSAL AAYMFFLILV GFPVNFLTLF
VTVQHKKLRT PLNYILLNLA MANLFMVLFG FTVTMYTSMN GYFVFGPTMC SIEGFFATLG
GEVALWSLVV LAIERYIVIC KPMGNFRFGN THAIMGVAFT WIMALACAAP PLVGWSRYIP
EGMQCSCGPD YYTLNPNFNN ESYVVYMFVV HFLVPFVIIF FCYGRLLCTV KEAAAAQQES
ASTQKAEKEV TRMVVLMVIG FLVCWVPYAS VAFYIFTHQG SDFGATFMTL PAFFAKSSAL
YNPVIYILMN KQFRNCMITT LCCGKNPLGD DE-SGASTSKT EVSSVSTSPV SPA*
与FASTA格式一样,每条记录都以“>”字符开头的行开始。 然后有一个两个字母的序列类型(P1、F1、DL、DC、RL、RC或XX)、一个半圆形和识别码。 第二个点赞是免费文本描述。 其余行包含序列本身,以星号结束。 上面所示的十个字母的间隔块是典型的。
- 序列代码及其含义:
P1 -蛋白质(完整)
F1 -蛋白质(片段)
D1 - DNA(例如CLASS seqret输出)
DL - DNA(线性)
DC - DNA(圆形)
RL - RNA(线性)
RC - RNA(环形)
N3 -TLR
N1 -其他功能RNA
XX -未知
- class Bio.SeqIO.PirIO.PirIterator(source)
-
PIR文件的解析器。
- modes = 't'
- __init__(source)
迭代PIR文件并生成SeqRecord对象。
源-类似文件的对象或文件的路径。
示例
>>> with open("NBRF/DMB_prot.pir") as handle: ... for record in PirIterator(handle): ... print("%s length %i" % (record.id, len(record))) HLA:HLA00489 length 263 HLA:HLA00490 length 94 HLA:HLA00491 length 94 HLA:HLA00492 length 80 HLA:HLA00493 length 175 HLA:HLA01083 length 188
- __next__()
迭代PIR文件中的记录。
- __abstractmethods__ = frozenset({})
- __annotations__ = {}
- __firstlineno__ = 110
- __parameters__ = ()
- __static_attributes__ = ('_line',)
- class Bio.SeqIO.PirIO.PirWriter(handle, wrap=60, record2title=None, code=None)
-
类写入PIR格式文件。
- modes = 't'
- __init__(handle, wrap=60, record2title=None, code=None)
创建一名PIR作家。
- 论点:
handle -输出文件的Handle,例如,打开返回的(文件名,“w”)
wrap -用于wrap序列行的可选行长度。将序列包装为60个字符使用零(或无)表示不包装,为序列提供一条长行。
record 2 title-可选函数,用于返回用于每条记录标题行的文本。 默认情况下,使用record.id、record.name和record. advantage的组合。
代码-可选序列代码必须是P1、F1、D1、DL、DC、RL、RC、N3和XX之一。默认情况下,使用“无”,这意味着根据记录注释中的分子类型自动检测。
您可以用途::
handle = open(filename, "w") writer = PirWriter(handle) writer.write_file(myRecords) handle.close()
或者,遵循顺序文件写入器系统,例如:
handle = open(filename, "w") writer = PirWriter(handle) ... Multiple writer.write_record() and/or writer.write_records() calls ... handle.close()
- __abstractmethods__ = frozenset({})
- __annotations__ = {}
- __firstlineno__ = 180
- __parameters__ = ()
- __static_attributes__ = ('code', 'record2title', 'wrap')
- write_record(record)
将单个PIR记录写入文件。