skbio.sequence.GrammaredSequence

class skbio.sequence.GrammaredSequence(sequence, metadata=None, positional_metadata=None, interval_metadata=None, lowercase=False, validate=True)[源代码]

存储符合字符集的序列数据。

这是一个无法实例化的抽象基类(ABC)。

这个类打算从继承来创建带有自定义字母表的语法化序列。

引发

ValueError -- 如果序列字符不在字符集中 1.

参见

DNA, RNA, Protein

引用

1

核酸序列中不完全指定碱基的命名:1984年建议。《核酸研究》,1985年5月10日;13(9):3021-3030。康沃尔郡的波顿人

实际案例

请注意,在下面的示例中,属性要么需要是静态的,要么使用skbio的 classproperty 装饰者。

>>> from skbio.sequence import GrammaredSequence
>>> from skbio.util import classproperty
>>> class CustomSequence(GrammaredSequence):
...     @classproperty
...     def degenerate_map(cls):
...         return {"X": set("AB")}
...
...     @classproperty
...     def definite_chars(cls):
...         return set("ABC")
...
...
...     @classproperty
...     def default_gap_char(cls):
...         return '-'
...
...     @classproperty
...     def gap_chars(cls):
...         return set('-.')
>>> seq = CustomSequence('ABABACAC')
>>> seq
CustomSequence
--------------------------
Stats:
    length: 8
    has gaps: False
    has degenerates: False
    has definites: True
--------------------------
0 ABABACAC
>>> seq = CustomSequence('XXXXXX')
>>> seq
CustomSequence
-------------------------
Stats:
    length: 6
    has gaps: False
    has degenerates: True
    has definites: False
-------------------------
0 XXXXXX

属性

alphabet 

返回有效字符。

default_gap_char 

在构造新的有间隙序列时要使用的间隙字符。

default_write_format 

definite_chars 

返回确定字符。

degenerate_chars 

返回退化字符。

degenerate_map 

退化到定字符的返回映射。

gap_chars 

返回定义为空白的字符。

interval_metadata 

IntervalMetadata 包含间隔功能信息的对象。

metadata 

dict 包含应用于整个对象的元数据。

nondegenerate_chars 

返回非退化字符。

observed_chars 

序列中观察到的字符集。

positional_metadata 

pd.DataFrame 包含沿轴的元数据。

values 

包含基础序列字符的数组。

内嵌函数

bool(gs) 

返回序列的真值(真值)。

x in gs 

确定此序列中是否包含子序列。

copy.copy(gs) 

返回此序列的浅副本。

copy.deepcopy(gs) 

返回此序列的深层副本。

gs1 == gs2 

确定这个序列是否等于另一个序列。

gs[x] 

把这个序列切片。

iter(gs) 

在这个序列中迭代位置。

len(gs) 

返回此序列中的字符数。

gs1 != gs2 

确定这个序列是否与另一个序列不相等。

reversed(gs) 

以相反的顺序重复这个序列中的位置。

str(gs) 

以字符串形式返回序列字符。

方法

concat \(序列[, how] )

连接的iterable Sequence 物体。

count \(子序列[, start, end] )

计算此序列中子序列的出现次数。

definites ()

查找序列中包含确定字符的位置。

degap ()

返回一个删除了空白字符的新序列。

degenerates ()

查找序列中包含退化字符的位置。

distance \(其他[, metric] )

计算到另一个序列的距离。

expand_degenerates ()

产生序列的所有可能的确定版本。

find_motifs \(图案类型[, min_length, ignore] )

在生物序列中寻找母题。

find_with_regex \(正则表达式[, ignore] )

为正则表达式匹配的模式生成切片。

frequencies \ [chars, relative] )

计算序列中字符的频率。

gaps ()

找出生物序列中包含空白的位置。

has_definites ()

确定序列是否包含一个或多个确定字符

has_degenerates ()

确定序列是否包含一个或多个退化字符。

has_gaps ()

确定序列是否包含一个或多个空白字符。

has_interval_metadata ()

确定对象是否具有间隔元数据。

has_metadata ()

确定对象是否具有元数据。

has_nondegenerates ()

确定序列是否包含一个或多个非退化字符

has_positional_metadata ()

确定对象是否具有位置元数据。

index \(子序列[, start, end] )

找到序列中子序列首先出现的位置。

iter_contiguous \(包括在内[, min_length, invert] )

生成连续的子序列基于 included .

iter_kmers \(k)[, overlap] )

生成kmers长度 k 从这个序列。

kmer_frequencies \(k)[, overlap, relative] )

返回字长计数 k 从这个序列。

lowercase \(小写)

返回序列的区分大小写的字符串表示形式。

match_frequency \(其他[, relative] )

返回两个序列之间相同的位置计数。

matches (其他)

找到与其他序列匹配的位置。

mismatch_frequency \(其他[, relative] )

返回两个序列之间不同的位置计数。

mismatches (其他)

查找与其他序列不匹配的位置。

nondegenerates ()

查找序列中包含非退化字符的位置。

read \(文件) [, format] )

创建新的 Sequence 实例。

replace \(其中,字符)

将此序列中的值替换为其他字符。

to_regex \ [within_capture] )

返回说明退化字符的正则表达式对象。

write \(文件) [, format] )

写一个实例 Sequence 一个文件。