skbio.sequence.GrammaredSequence¶

class skbio.sequence.GrammaredSequence(sequence, metadata=None, positional_metadata=None, interval_metadata=None, lowercase=False, validate=True)[源代码]¶

存储符合字符集的序列数据。

这是一个无法实例化的抽象基类（ABC）。

这个类打算从继承来创建带有自定义字母表的语法化序列。

抛出:: ValueError -- 如果序列字符不在字符集中 [1].

参见

DNA, RNA, Protein

引用

示例

请注意，在下面的示例中，属性要么需要是静态的，要么使用skbio的 classproperty 装饰者。

>>> from skbio.sequence import GrammaredSequence
>>> from skbio.util import classproperty
>>> class CustomSequence(GrammaredSequence):
...     @classproperty
...     def degenerate_map(cls):
...         return {"X": set("AB")}
...
...     @classproperty
...     def definite_chars(cls):
...         return set("ABC")
...
...
...     @classproperty
...     def default_gap_char(cls):
...         return '-'
...
...     @classproperty
...     def gap_chars(cls):
...         return set('-.')

>>> seq = CustomSequence('ABABACAC')
>>> seq
CustomSequence
--------------------------
Stats:
    length: 8
    has gaps: False
    has degenerates: False
    has definites: True
--------------------------
0 ABABACAC

>>> seq = CustomSequence('XXXXXX')
>>> seq
CustomSequence
-------------------------
Stats:
    length: 6
    has gaps: False
    has degenerates: True
    has definites: False
-------------------------
0 XXXXXX

属性

`alphabet`	返回有效字符。
`default_gap_char`	在构造新的有间隙序列时要使用的间隙字符。
`default_write_format`
`definite_chars`	返回确定字符。
`degenerate_chars`	返回退化字符。
`degenerate_map`	退化到定字符的返回映射。
`gap_chars`	返回定义为空白的字符。
`interval_metadata`	`IntervalMetadata` 包含间隔功能信息的对象。
`metadata`	`dict` 包含应用于整个对象的元数据。
`nondegenerate_chars`	返回非退化字符。
`observed_chars`	序列中观察到的字符集。
`positional_metadata`	`pd.DataFrame` 包含沿轴的元数据。
`values`	包含基础序列字符的数组。

内嵌函数

`__bool__` \()	返回序列的真值（真值）。
`__contains__` \(子序列)	确定此序列中是否包含子序列。
`__copy__` \()	返回此序列的浅副本。
`__deepcopy__` \(备忘录)	返回此序列的深层副本。
`__eq__` (其他)	确定这个序列是否等于另一个序列。
`__ge__`(value, /)	返回self>=值。
`__getitem__` \(可编入索引的)	把这个序列切片。
`__getstate__` \()	泡菜的帮手。
`__gt__`(value, /)	返回self>值。
`__iter__` \()	在这个序列中迭代位置。
`__le__`(value, /)	返回self<=value。
`__len__` \()	返回此序列中的字符数。
`__lt__`(value, /)	返回self<value。
`__ne__` (其他)	确定这个序列是否与另一个序列不相等。
`__reversed__` \()	以相反的顺序重复这个序列中的位置。
`__str__` \()	以字符串形式返回序列字符。

方法

`concat`(sequences[, how])	连接的iterable `Sequence` 物体。
`count`(subsequence[, start, end])	计算此序列中子序列的出现次数。
`definites` \()	查找序列中包含确定字符的位置。
`degap` \()	返回一个删除了空白字符的新序列。
`degenerates` \()	查找序列中包含退化字符的位置。
`distance`(other[, metric])	计算到另一个序列的距离。
`expand_degenerates` \()	产生序列的所有可能的确定版本。
`find_motifs`(motif_type[, min_length, ignore])	在生物序列中寻找母题。
`find_with_regex`(regex[, ignore])	为正则表达式匹配的模式生成切片。
`frequencies`([chars, relative])	计算序列中字符的频率。
`gaps` \()	找出生物序列中包含空白的位置。
`has_definites` \()	确定序列是否包含一个或多个确定字符
`has_degenerates` \()	确定序列是否包含一个或多个退化字符。
`has_gaps` \()	确定序列是否包含一个或多个空白字符。
`has_interval_metadata` \()	确定对象是否具有间隔元数据。
`has_metadata` \()	确定对象是否具有元数据。
`has_nondegenerates` \()	确定序列是否包含一个或多个非退化字符
`has_positional_metadata` \()	确定对象是否具有位置元数据。
`index`(subsequence[, start, end])	找到序列中子序列首先出现的位置。
`iter_contiguous`(included[, min_length, invert])	生成连续的子序列基于 included .
`iter_kmers`(k[, overlap])	生成kmers长度 k 从这个序列。
`kmer_frequencies`(k[, overlap, relative])	返回字长计数 k 从这个序列。
`lowercase` \(小写)	返回序列的区分大小写的字符串表示形式。
`match_frequency`(other[, relative])	返回两个序列之间相同的位置计数。
`matches` (其他)	找到与其他序列匹配的位置。
`mismatch_frequency`(other[, relative])	返回两个序列之间不同的位置计数。
`mismatches` (其他)	查找与其他序列不匹配的位置。
`nondegenerates` \()	查找序列中包含非退化字符的位置。
`read`(file[, format])	创建新的 `Sequence` 实例。
`replace`(where, character)	将此序列中的值替换为其他字符。
`to_regex`([within_capture])	返回说明退化字符的正则表达式对象。
`write`(file[, format])	写一个实例 `Sequence` 一个文件。