skbio.sequence.GrammaredSequence

class skbio.sequence.GrammaredSequence(sequence, metadata=None, positional_metadata=None, interval_metadata=None, lowercase=False, validate=True)[源代码]

存储符合字符集的序列数据。

这是一个无法实例化的抽象基类(ABC)。

这个类打算从继承来创建带有自定义字母表的语法化序列。

抛出:

ValueError -- 如果序列字符不在字符集中 [1].

参见

DNA, RNA, Protein

引用

示例

请注意,在下面的示例中,属性要么需要是静态的,要么使用skbio的 classproperty 装饰者。

>>> from skbio.sequence import GrammaredSequence
>>> from skbio.util import classproperty
>>> class CustomSequence(GrammaredSequence):
...     @classproperty
...     def degenerate_map(cls):
...         return {"X": set("AB")}
...
...     @classproperty
...     def definite_chars(cls):
...         return set("ABC")
...
...
...     @classproperty
...     def default_gap_char(cls):
...         return '-'
...
...     @classproperty
...     def gap_chars(cls):
...         return set('-.')
>>> seq = CustomSequence('ABABACAC')
>>> seq
CustomSequence
--------------------------
Stats:
    length: 8
    has gaps: False
    has degenerates: False
    has definites: True
--------------------------
0 ABABACAC
>>> seq = CustomSequence('XXXXXX')
>>> seq
CustomSequence
-------------------------
Stats:
    length: 6
    has gaps: False
    has degenerates: True
    has definites: False
-------------------------
0 XXXXXX

属性

alphabet 

返回有效字符。

default_gap_char 

在构造新的有间隙序列时要使用的间隙字符。

default_write_format 

definite_chars 

返回确定字符。

degenerate_chars 

返回退化字符。

degenerate_map 

退化到定字符的返回映射。

gap_chars 

返回定义为空白的字符。

interval_metadata 

IntervalMetadata 包含间隔功能信息的对象。

metadata 

dict 包含应用于整个对象的元数据。

nondegenerate_chars 

返回非退化字符。

observed_chars 

序列中观察到的字符集。

positional_metadata 

pd.DataFrame 包含沿轴的元数据。

values 

包含基础序列字符的数组。

内嵌函数

__bool__ \()

返回序列的真值(真值)。

__contains__ \(子序列)

确定此序列中是否包含子序列。

__copy__ \()

返回此序列的浅副本。

__deepcopy__ \(备忘录)

返回此序列的深层副本。

__eq__ (其他)

确定这个序列是否等于另一个序列。

__ge__(value, /)

返回self>=值。

__getitem__ \(可编入索引的)

把这个序列切片。

__getstate__ \()

泡菜的帮手。

__gt__(value, /)

返回self>值。

__iter__ \()

在这个序列中迭代位置。

__le__(value, /)

返回self<=value。

__len__ \()

返回此序列中的字符数。

__lt__(value, /)

返回self<value。

__ne__ (其他)

确定这个序列是否与另一个序列不相等。

__reversed__ \()

以相反的顺序重复这个序列中的位置。

__str__ \()

以字符串形式返回序列字符。

方法

concat(sequences[, how])

连接的iterable Sequence 物体。

count(subsequence[, start, end])

计算此序列中子序列的出现次数。

definites \()

查找序列中包含确定字符的位置。

degap \()

返回一个删除了空白字符的新序列。

degenerates \()

查找序列中包含退化字符的位置。

distance(other[, metric])

计算到另一个序列的距离。

expand_degenerates \()

产生序列的所有可能的确定版本。

find_motifs(motif_type[, min_length, ignore])

在生物序列中寻找母题。

find_with_regex(regex[, ignore])

为正则表达式匹配的模式生成切片。

frequencies([chars, relative])

计算序列中字符的频率。

gaps \()

找出生物序列中包含空白的位置。

has_definites \()

确定序列是否包含一个或多个确定字符

has_degenerates \()

确定序列是否包含一个或多个退化字符。

has_gaps \()

确定序列是否包含一个或多个空白字符。

has_interval_metadata \()

确定对象是否具有间隔元数据。

has_metadata \()

确定对象是否具有元数据。

has_nondegenerates \()

确定序列是否包含一个或多个非退化字符

has_positional_metadata \()

确定对象是否具有位置元数据。

index(subsequence[, start, end])

找到序列中子序列首先出现的位置。

iter_contiguous(included[, min_length, invert])

生成连续的子序列基于 included .

iter_kmers(k[, overlap])

生成kmers长度 k 从这个序列。

kmer_frequencies(k[, overlap, relative])

返回字长计数 k 从这个序列。

lowercase \(小写)

返回序列的区分大小写的字符串表示形式。

match_frequency(other[, relative])

返回两个序列之间相同的位置计数。

matches (其他)

找到与其他序列匹配的位置。

mismatch_frequency(other[, relative])

返回两个序列之间不同的位置计数。

mismatches (其他)

查找与其他序列不匹配的位置。

nondegenerates \()

查找序列中包含非退化字符的位置。

read(file[, format])

创建新的 Sequence 实例。

replace(where, character)

将此序列中的值替换为其他字符。

to_regex([within_capture])

返回说明退化字符的正则表达式对象。

write(file[, format])

写一个实例 Sequence 一个文件。