read_csv#
- astropy.io.misc.pyarrow.csv.read_csv(input_file: PathLike[str] | str | BinaryIO, *, delimiter: str = ',', quotechar: str | Literal[False] = '"', doublequote: bool = True, escapechar: str | bool = False, header_start: int | None = 0, data_start: int | None = None, names: list[str] | None = None, include_names: list[str] | None = None, dtypes: dict[str, dtype[Any] | None | type[Any] | _SupportsDType[dtype[Any]] | str | tuple[Any, int] | tuple[Any, SupportsIndex | Sequence[SupportsIndex]] | list[Any] | _DTypeDict | tuple[Any, Any]] | None = None, comment: str | None = None, null_values: list[str] | None = None, encoding: str = 'utf-8', newlines_in_values: bool = False, timestamp_parsers: list[str] | None = None) Table [源代码]#
使用PyArrow将CSV文件读取到占星表中。
该功能允许将文本CSV文件高性能地读取到占星术中
Table
使用 PyArrow .对于仅具有数字数据类型的文件来说,性能最佳,但即使对于具有混合数据类型的文件,性能仍然优于标准astropy.io.ascii
快速CSV阅读器默认情况下,CSV文件中的空值(零长度字符串“”)将被读取为表中的屏蔽值。这可以通过使用
null_values
参数指定要解释为空(屏蔽)值的字符串列表。CSV文件中的空行将被忽略。
仅由字符串值组成的列
True
和False
被解析为布尔数据。包含ISO 8601日期/时间字符串的列将被解析,如下所示:-
12:13:14.123456
:object[datetime.time]
-2025-01-01
:np.datetime64[D]
-2025-01-01T01:02:03
:np.datetime64[s]
-2025-01-01T01:02:03.123456
:np.datetime64[ns]
支持忽略CSV文件中的注释行
comment
参数.如果将其设置为字符串,则任何以可选空白开头的行然后该字符串都会被忽略。这是通过读取整个文件并扫描评论行来完成的。如果评论行全部位于文件的开头并且两者都header_start
和data_start
未指定,则通过设置有效读取文件header_start
到评论后的第一行。否则,整个文件将被读取到内存中,并在传递给PyArrow CSV阅读器之前删除评论行。的任何价值观header_start
和data_start
适用于线路计数 after 评论行已被删除。- 参数:
- input_file :
str
, path-like object ,或者 file-like objectPython:字符串、Python:类路径对象或Python:类文件对象 要读取的文件路径或类似二进制文件的对象。
- delimiter : 1-character
str
,可选(默认“,”)1个字符的 用于分隔CSV数据中各个单元格的字符。
- quotechar : 1-character
str
或False
,可选(默认')1个字符的 可选用于引用CSV值的字符 (
False
如果不允许引用)。- doublequote : bool ,可选(默认
True
)布尔,可选(默认为True) 引用的CSV值中的两个引号是否表示数据中的单个引号。
- escapechar : 1-character
str
或False
,可选(默认False
)1个字符的 可选择地用于逸出特殊字符的字符 (
False
如果不允许逃逸)。- header_start :
int
,None
,可选(默认0)Python:int,Python:无,可选(默认0) 带有列名的标题行的行索引。如果
None
这意味着没有标题行,列名取自names
或自动生成(“f0”、“f1”、.)。- data_start :
int
,None
,可选(默认None
)pPython:int,pPython:无,可选(默认pPython:无) 数据开始的行索引。如果
None
,则数据在标题行后的一行开始,或者如果没有标题,则在第一行开始。- names :
list
,None
,可选(默认None
)Python:列表,Python:无,可选(默认Python:无) 没有标题行时输入数据列的名称列表。如果提供,那么
header_start
必须None
.- include_names :
list
,None
,可选(默认None
)Python:列表,Python:无,可选(默认Python:无) 要包括在输出中的列名列表。如果
None
,包括所有列。- dtypes :
dict
[str
,Any
] ,None
,可选(默认None
)Python:dict [python:str, Any] ,pPython:无,可选(默认pPython:无) 如果提供的话,这是输出列的数据类型字典。每个键都是一个列名,值要么是PyArrow数据类型,要么是被接受作为参数的数据类型说明符
numpy.dtype
.实例包括pyarrow.Int32()
,pyarrow.time32("s")
,int
,np.float32
,np.dtype('f4')
或"float32"
.默认值是推断数据类型。- comment : 1-character
str
或None
,可选(默认None
)1个字符的 用于指示评论开始的字符。任何以可选空白开头的行,然后该字符都会被忽略。使用此选项将导致解析器速度较慢,并可能使用更多内存,因为它使用Python代码来删除注释。
- input_file :
- 返回:
astropy.table.Table
包含CSV文件中的数据的占星表。
- 其他参数:
- null_values :
list
,可选(默认None
)Python:列表,可选(默认Python:无) 要解释为空值的字符串列表。默认情况下,只有空字符串被视为空值(相当于
null_values=[""]
).设置为[]
禁用空值处理。- encoding: str, optional (default 'utf-8')
输入数据的编码。
- newlines_in_values: bool, optional (default False)
CSV值中是否允许出现白线字符。将其设置为True会降低多线程CSV读取的性能。
- timestamp_parsers: list, optional
strptime()兼容的格式字符串序列,在尝试推断或转换时间戳值时按顺序尝试。默认为特殊值
pyarrow.csv.ISO8601
使用优化的内部ISO8601解析器。
- null_values :