Bio.SeqIO.PirIO模块

Bio.SeqIO支持“pir”(又名PIR或NBRF)文件格式。

该模块用于读写PIR或NBRF格式文件作为SeqRecord对象。

您应该通过Bio.SeqIO函数使用该模块,或者如果文件包含序列比对,则可以选择通过Bio.AlignIO。

这种格式是为国家生物医学研究基金会(NBRF)的项目蛋白质信息资源(PIR)引入的。 PIR数据库本身现在是UniProt的一部分。

该文件格式在线描述:http://www.ebi.ac.uk/help/pir_frame.html http://www.cmbi.kun.nl/bioinf/tools/crab_pir.html(目前已关闭)

这种格式的示例文件是::

>P1;CRAB_ANAPL
ALPHA CRYSTALLIN B CHAIN (ALPHA(B)-CRYSTALLIN).
  MDITIHNPLI RRPLFSWLAP SRIFDQIFGE HLQESELLPA SPSLSPFLMR
  SPIFRMPSWL ETGLSEMRLE KDKFSVNLDV KHFSPEELKV KVLGDMVEIH
  GKHEERQDEH GFIAREFNRK YRIPADVDPL TITSSLSLDG VLTVSAPRKQ
  SDVPERSIPI TREEKPAIAG AQRK*

>P1;CRAB_BOVIN
ALPHA CRYSTALLIN B CHAIN (ALPHA(B)-CRYSTALLIN).
  MDIAIHHPWI RRPFFPFHSP SRLFDQFFGE HLLESDLFPA STSLSPFYLR
  PPSFLRAPSW IDTGLSEMRL EKDRFSVNLD VKHFSPEELK VKVLGDVIEV
  HGKHEERQDE HGFISREFHR KYRIPADVDP LAITSSLSSD GVLTVNGPRK
  QASGPERTIP ITREEKPAVT AAPKK*

或者,多序列比对的示例::

>P1;S27231
rhodopsin - northern leopard frog
MNGTEGPNFY IPMSNKTGVV RSPFDYPQYY LAEPWKYSVL AAYMFLLILL GLPINFMTLY
VTIQHKKLRT PLNYILLNLG VCNHFMVLCG FTITMYTSLH GYFVFGQTGC YFEGFFATLG
GEIALWSLVV LAIERYIVVC KPMSNFRFGE NHAMMGVAFT WIMALACAVP PLFGWSRYIP
EGMQCSCGVD YYTLKPEVNN ESFVIYMFVV HFLIPLIIIS FCYGRLVCTV KEAAAQQQES
ATTQKAEKEV TRMVIIMVIF FLICWVPYAY VAFYIFTHQG SEFGPIFMTV PAFFAKSSAI
YNPVIYIMLN KQFRNCMITT LCCGKNPFGD DDASSAATSK TEATSVSTSQ VSPA*

>P1;I51200
rhodopsin - African clawed frog
MNGTEGPNFY VPMSNKTGVV RSPFDYPQYY LAEPWQYSAL AAYMFLLILL GLPINFMTLF
VTIQHKKLRT PLNYILLNLV FANHFMVLCG FTVTMYTSMH GYFIFGPTGC YIEGFFATLG
GEVALWSLVV LAVERYIVVC KPMANFRFGE NHAIMGVAFT WIMALSCAAP PLFGWSRYIP
EGMQCSCGVD YYTLKPEVNN ESFVIYMFIV HFTIPLIVIF FCYGRLLCTV KEAAAQQQES
LTTQKAEKEV TRMVVIMVVF FLICWVPYAY VAFYIFTHQG SNFGPVFMTV PAFFAKSSAI
YNPVIYIVLN KQFRNCLITT LCCGKNPFGD EDGSSAATSK TEASSVSSSQ VSPA*

>P1;JN0120
rhodopsin - Japanese lamprey
MNGTEGDNFY VPFSNKTGLA RSPYEYPQYY LAEPWKYSAL AAYMFFLILV GFPVNFLTLF
VTVQHKKLRT PLNYILLNLA MANLFMVLFG FTVTMYTSMN GYFVFGPTMC SIEGFFATLG
GEVALWSLVV LAIERYIVIC KPMGNFRFGN THAIMGVAFT WIMALACAAP PLVGWSRYIP
EGMQCSCGPD YYTLNPNFNN ESYVVYMFVV HFLVPFVIIF FCYGRLLCTV KEAAAAQQES
ASTQKAEKEV TRMVVLMVIG FLVCWVPYAS VAFYIFTHQG SDFGATFMTL PAFFAKSSAL
YNPVIYILMN KQFRNCMITT LCCGKNPLGD DE-SGASTSKT EVSSVSTSPV SPA*

与FASTA格式一样,每条记录都以“>”字符开头的行开始。 然后有一个两个字母的序列类型(P1、F1、DL、DC、RL、RC或XX)、一个半圆形和识别码。 第二个点赞是免费文本描述。 其余行包含序列本身,以星号结束。 上面所示的十个字母的间隔块是典型的。

序列代码及其含义:
  • P1 -蛋白质(完整)

  • F1 -蛋白质(片段)

  • D1 - DNA(例如CLASS seqret输出)

  • DL - DNA(线性)

  • DC - DNA(圆形)

  • RL - RNA(线性)

  • RC - RNA(环形)

  • N3 -TLR

  • N1 -其他功能RNA

  • XX -未知

class Bio.SeqIO.PirIO.PirIterator(source)

基类:SequenceIterator

PIR文件的解析器。

modes = 't'
__init__(source)

迭代PIR文件并生成SeqRecord对象。

源-类似文件的对象或文件的路径。

示例

>>> with open("NBRF/DMB_prot.pir") as handle:
...    for record in PirIterator(handle):
...        print("%s length %i" % (record.id, len(record)))
HLA:HLA00489 length 263
HLA:HLA00490 length 94
HLA:HLA00491 length 94
HLA:HLA00492 length 80
HLA:HLA00493 length 175
HLA:HLA01083 length 188
__next__()

迭代PIR文件中的记录。

__abstractmethods__ = frozenset({})
__annotations__ = {}
__firstlineno__ = 110
__parameters__ = ()
__static_attributes__ = ('_line',)
class Bio.SeqIO.PirIO.PirWriter(handle, wrap=60, record2title=None, code=None)

基类:SequenceWriter

类写入PIR格式文件。

modes = 't'
__init__(handle, wrap=60, record2title=None, code=None)

创建一名PIR作家。

论点:
  • handle -输出文件的Handle,例如,打开返回的(文件名,“w”)

  • wrap -用于wrap序列行的可选行长度。将序列包装为60个字符使用零(或无)表示不包装,为序列提供一条长行。

  • record 2 title-可选函数,用于返回用于每条记录标题行的文本。 默认情况下,使用record.id、record.name和record. advantage的组合。

  • 代码-可选序列代码必须是P1、F1、D1、DL、DC、RL、RC、N3和XX之一。默认情况下,使用“无”,这意味着根据记录注释中的分子类型自动检测。

您可以用途::

handle = open(filename, "w")
writer = PirWriter(handle)
writer.write_file(myRecords)
handle.close()

或者,遵循顺序文件写入器系统,例如:

handle = open(filename, "w")
writer = PirWriter(handle)
...
Multiple writer.write_record() and/or writer.write_records() calls
...
handle.close()
__abstractmethods__ = frozenset({})
__annotations__ = {}
__firstlineno__ = 180
__parameters__ = ()
__static_attributes__ = ('code', 'record2title', 'wrap')
write_record(record)

将单个PIR记录写入文件。