Bio.SeqIO.PirIO模块

Bio.SeqIO支持“pir”(又名PIR或NBRF)文件格式。

此模块用于将PIR或NBRF格式的文件作为SeqRecord对象进行读写。

您需要通过Bio.SeqIO函数使用此模块,或者如果文件包含序列比对,则可以选择通过Bio.AlignIO使用此模块。

这种格式是为国家生物医学研究基金会(NBRF)的一个项目蛋白质信息资源(PIR)而引入的。PIR数据库本身现在是UniProt的一部分。

有关文件格式的在线说明,请访问:http://www.ebi.ac.uk/help/pir_frame.html http://www.cmbi.kun.nl/bioinf/tools/crab_pir.html(目前已关闭)

此格式的示例文件为::

>P1;CRAB_ANAPL
ALPHA CRYSTALLIN B CHAIN (ALPHA(B)-CRYSTALLIN).
  MDITIHNPLI RRPLFSWLAP SRIFDQIFGE HLQESELLPA SPSLSPFLMR
  SPIFRMPSWL ETGLSEMRLE KDKFSVNLDV KHFSPEELKV KVLGDMVEIH
  GKHEERQDEH GFIAREFNRK YRIPADVDPL TITSSLSLDG VLTVSAPRKQ
  SDVPERSIPI TREEKPAIAG AQRK*

>P1;CRAB_BOVIN
ALPHA CRYSTALLIN B CHAIN (ALPHA(B)-CRYSTALLIN).
  MDIAIHHPWI RRPFFPFHSP SRLFDQFFGE HLLESDLFPA STSLSPFYLR
  PPSFLRAPSW IDTGLSEMRL EKDRFSVNLD VKHFSPEELK VKVLGDVIEV
  HGKHEERQDE HGFISREFHR KYRIPADVDP LAITSSLSSD GVLTVNGPRK
  QASGPERTIP ITREEKPAVT AAPKK*

或者,多序列比对的示例:

>P1;S27231
rhodopsin - northern leopard frog
MNGTEGPNFY IPMSNKTGVV RSPFDYPQYY LAEPWKYSVL AAYMFLLILL GLPINFMTLY
VTIQHKKLRT PLNYILLNLG VCNHFMVLCG FTITMYTSLH GYFVFGQTGC YFEGFFATLG
GEIALWSLVV LAIERYIVVC KPMSNFRFGE NHAMMGVAFT WIMALACAVP PLFGWSRYIP
EGMQCSCGVD YYTLKPEVNN ESFVIYMFVV HFLIPLIIIS FCYGRLVCTV KEAAAQQQES
ATTQKAEKEV TRMVIIMVIF FLICWVPYAY VAFYIFTHQG SEFGPIFMTV PAFFAKSSAI
YNPVIYIMLN KQFRNCMITT LCCGKNPFGD DDASSAATSK TEATSVSTSQ VSPA*

>P1;I51200
rhodopsin - African clawed frog
MNGTEGPNFY VPMSNKTGVV RSPFDYPQYY LAEPWQYSAL AAYMFLLILL GLPINFMTLF
VTIQHKKLRT PLNYILLNLV FANHFMVLCG FTVTMYTSMH GYFIFGPTGC YIEGFFATLG
GEVALWSLVV LAVERYIVVC KPMANFRFGE NHAIMGVAFT WIMALSCAAP PLFGWSRYIP
EGMQCSCGVD YYTLKPEVNN ESFVIYMFIV HFTIPLIVIF FCYGRLLCTV KEAAAQQQES
LTTQKAEKEV TRMVVIMVVF FLICWVPYAY VAFYIFTHQG SNFGPVFMTV PAFFAKSSAI
YNPVIYIVLN KQFRNCLITT LCCGKNPFGD EDGSSAATSK TEASSVSSSQ VSPA*

>P1;JN0120
rhodopsin - Japanese lamprey
MNGTEGDNFY VPFSNKTGLA RSPYEYPQYY LAEPWKYSAL AAYMFFLILV GFPVNFLTLF
VTVQHKKLRT PLNYILLNLA MANLFMVLFG FTVTMYTSMN GYFVFGPTMC SIEGFFATLG
GEVALWSLVV LAIERYIVIC KPMGNFRFGN THAIMGVAFT WIMALACAAP PLVGWSRYIP
EGMQCSCGPD YYTLNPNFNN ESYVVYMFVV HFLVPFVIIF FCYGRLLCTV KEAAAAQQES
ASTQKAEKEV TRMVVLMVIG FLVCWVPYAS VAFYIFTHQG SDFGATFMTL PAFFAKSSAL
YNPVIYILMN KQFRNCMITT LCCGKNPLGD DE-SGASTSKT EVSSVSTSPV SPA*

与FASTA格式一样,每条记录都以“>”字符开头的一行开始。然后是两个字母的序列类型(P1、F1、DL、DC、RL、RC或XX)、分号和识别码。第二类是自由文本描述。其余行包含序列本身,以星号结尾。如上所示的由10个字母组成的空格分隔块是典型的。

序列码及其含义:
  • P1-蛋白质(完整)

  • F1蛋白(片段)

  • D1-DNA(例如浮雕序列输出)

  • DL-DNA(线性)

  • DC-DNA(循环)

  • RL-RNA(线性)

  • RC-RNA(圆形)

  • N3-tRNA

  • N1-其他功能RNA

  • XX-未知

class Bio.SeqIO.PirIO.PirIterator(source)

基类:SequenceIterator

PIR文件的解析器。

__init__(source)

迭代PIR文件并生成SeqRecord对象。

类似源文件的对象或文件路径。

示例

>>> with open("NBRF/DMB_prot.pir") as handle:
...    for record in PirIterator(handle):
...        print("%s length %i" % (record.id, len(record)))
HLA:HLA00489 length 263
HLA:HLA00490 length 94
HLA:HLA00491 length 94
HLA:HLA00492 length 80
HLA:HLA00493 length 175
HLA:HLA01083 length 188
parse(handle)

开始解析文件,并返回SeqRecord生成器。

iterate(handle)

迭代PIR文件中的记录。

__abstractmethods__ = frozenset({})
class Bio.SeqIO.PirIO.PirWriter(handle, wrap=60, record2title=None, code=None)

基类:SequenceWriter

类以写入PIR格式文件。

__init__(handle, wrap=60, record2title=None, code=None)

创建PIR编写器。

参数:
  • 句柄-输出文件的句柄,例如由open(filename,“w”)返回的句柄

  • 换行-用于换行序列行的可选行长。默认情况下,将序列换行为60个字符,如果不换行,则使用零(或无),为序列提供单个长行。

  • record2title-可选函数,用于返回用于每条记录标题行的文本。默认情况下,使用record.id、record.name和record.description的组合。

  • 代码-可选序列代码必须是P1、F1、D1、DL、DC、RL、RC、N3和XX之一。默认情况下不使用“无”,这意味着根据记录注释中的分子类型进行自动检测。

您可以使用::

handle = open(filename, "w")
writer = PirWriter(handle)
writer.write_file(myRecords)
handle.close()

或者,遵循顺序文件写入系统,例如::

handle = open(filename, "w")
writer = PirWriter(handle)
writer.write_header() # does nothing for PIR files
...
Multiple writer.write_record() and/or writer.write_records() calls
...
writer.write_footer() # does nothing for PIR files
handle.close()
write_record(record)

将单个PIR记录写入文件。