skbio.sequence.GrammaredSequence¶
- class skbio.sequence.GrammaredSequence(sequence, metadata=None, positional_metadata=None, interval_metadata=None, lowercase=False, validate=True)[源代码]¶
存储符合字符集的序列数据。
这是一个无法实例化的抽象基类(ABC)。
这个类打算从继承来创建带有自定义字母表的语法化序列。
- 抛出:
ValueError -- 如果序列字符不在字符集中 [1].
引用
示例
请注意,在下面的示例中,属性要么需要是静态的,要么使用skbio的 classproperty 装饰者。
>>> from skbio.sequence import GrammaredSequence >>> from skbio.util import classproperty >>> class CustomSequence(GrammaredSequence): ... @classproperty ... def degenerate_map(cls): ... return {"X": set("AB")} ... ... @classproperty ... def definite_chars(cls): ... return set("ABC") ... ... ... @classproperty ... def default_gap_char(cls): ... return '-' ... ... @classproperty ... def gap_chars(cls): ... return set('-.')
>>> seq = CustomSequence('ABABACAC') >>> seq CustomSequence -------------------------- Stats: length: 8 has gaps: False has degenerates: False has definites: True -------------------------- 0 ABABACAC
>>> seq = CustomSequence('XXXXXX') >>> seq CustomSequence ------------------------- Stats: length: 6 has gaps: False has degenerates: True has definites: False ------------------------- 0 XXXXXX
属性
alphabet
返回有效字符。
default_gap_char
在构造新的有间隙序列时要使用的间隙字符。
default_write_format
definite_chars
返回确定字符。
degenerate_chars
返回退化字符。
degenerate_map
退化到定字符的返回映射。
gap_chars
返回定义为空白的字符。
interval_metadata
IntervalMetadata
包含间隔功能信息的对象。metadata
dict
包含应用于整个对象的元数据。nondegenerate_chars
返回非退化字符。
observed_chars
序列中观察到的字符集。
positional_metadata
pd.DataFrame
包含沿轴的元数据。values
包含基础序列字符的数组。
内嵌函数
__bool__
\()返回序列的真值(真值)。
__contains__
\(子序列)确定此序列中是否包含子序列。
__copy__
\()返回此序列的浅副本。
__deepcopy__
\(备忘录)返回此序列的深层副本。
__eq__
(其他)确定这个序列是否等于另一个序列。
__ge__
(value, /)返回self>=值。
__getitem__
\(可编入索引的)把这个序列切片。
__getstate__
\()泡菜的帮手。
__gt__
(value, /)返回self>值。
__iter__
\()在这个序列中迭代位置。
__le__
(value, /)返回self<=value。
__len__
\()返回此序列中的字符数。
__lt__
(value, /)返回self<value。
__ne__
(其他)确定这个序列是否与另一个序列不相等。
__reversed__
\()以相反的顺序重复这个序列中的位置。
__str__
\()以字符串形式返回序列字符。
方法
concat
(sequences[, how])连接的iterable
Sequence
物体。count
(subsequence[, start, end])计算此序列中子序列的出现次数。
definites
\()查找序列中包含确定字符的位置。
degap
\()返回一个删除了空白字符的新序列。
degenerates
\()查找序列中包含退化字符的位置。
distance
(other[, metric])计算到另一个序列的距离。
产生序列的所有可能的确定版本。
find_motifs
(motif_type[, min_length, ignore])在生物序列中寻找母题。
find_with_regex
(regex[, ignore])为正则表达式匹配的模式生成切片。
frequencies
([chars, relative])计算序列中字符的频率。
gaps
\()找出生物序列中包含空白的位置。
has_definites
\()确定序列是否包含一个或多个确定字符
has_degenerates
\()确定序列是否包含一个或多个退化字符。
has_gaps
\()确定序列是否包含一个或多个空白字符。
确定对象是否具有间隔元数据。
has_metadata
\()确定对象是否具有元数据。
确定序列是否包含一个或多个非退化字符
确定对象是否具有位置元数据。
index
(subsequence[, start, end])找到序列中子序列首先出现的位置。
iter_contiguous
(included[, min_length, invert])生成连续的子序列基于 included .
iter_kmers
(k[, overlap])生成kmers长度 k 从这个序列。
kmer_frequencies
(k[, overlap, relative])返回字长计数 k 从这个序列。
lowercase
\(小写)返回序列的区分大小写的字符串表示形式。
match_frequency
(other[, relative])返回两个序列之间相同的位置计数。
matches
(其他)找到与其他序列匹配的位置。
mismatch_frequency
(other[, relative])返回两个序列之间不同的位置计数。
mismatches
(其他)查找与其他序列不匹配的位置。
nondegenerates
\()查找序列中包含非退化字符的位置。
read
(file[, format])创建新的
Sequence
实例。replace
(where, character)将此序列中的值替换为其他字符。
to_regex
([within_capture])返回说明退化字符的正则表达式对象。
write
(file[, format])写一个实例
Sequence
一个文件。