read_csv#

astropy.io.misc.pyarrow.csv.read_csv(input_file: PathLike[str] | str | BinaryIO, *, delimiter: str = ',', quotechar: str | Literal[False] = '"', doublequote: bool = True, escapechar: str | bool = False, header_start: int | None = 0, data_start: int | None = None, names: list[str] | None = None, include_names: list[str] | None = None, dtypes: dict[str, dtype[Any] | None | type[Any] | _SupportsDType[dtype[Any]] | str | tuple[Any, int] | tuple[Any, SupportsIndex | Sequence[SupportsIndex]] | list[Any] | _DTypeDict | tuple[Any, Any]] | None = None, comment: str | None = None, null_values: list[str] | None = None, encoding: str = 'utf-8', newlines_in_values: bool = False, timestamp_parsers: list[str] | None = None) Table[源代码]#

使用PyArrow将CSV文件读取到占星表中。

该功能允许将文本CSV文件高性能地读取到占星术中 Table 使用 PyArrow .对于仅具有数字数据类型的文件来说,性能最佳,但即使对于具有混合数据类型的文件,性能仍然优于标准 astropy.io.ascii 快速CSV阅读器

默认情况下,CSV文件中的空值(零长度字符串“”)将被读取为表中的屏蔽值。这可以通过使用 null_values 参数指定要解释为空(屏蔽)值的字符串列表。

CSV文件中的空行将被忽略。

仅由字符串值组成的列 TrueFalse 被解析为布尔数据。

包含ISO 8601日期/时间字符串的列将被解析,如下所示:- 12:13:14.123456 : object[datetime.time] - 2025-01-01 : np.datetime64[D] - 2025-01-01T01:02:03 : np.datetime64[s] - 2025-01-01T01:02:03.123456 : np.datetime64[ns]

支持忽略CSV文件中的注释行 comment 参数.如果将其设置为字符串,则任何以可选空白开头的行然后该字符串都会被忽略。这是通过读取整个文件并扫描评论行来完成的。如果评论行全部位于文件的开头并且两者都 header_startdata_start 未指定,则通过设置有效读取文件 header_start 到评论后的第一行。否则,整个文件将被读取到内存中,并在传递给PyArrow CSV阅读器之前删除评论行。的任何价值观 header_startdata_start 适用于线路计数 after 评论行已被删除。

参数:
input_file : str , path-like object ,或者 file-like objectPython:字符串、Python:类路径对象或Python:类文件对象

要读取的文件路径或类似二进制文件的对象。

delimiter : 1-character str ,可选(默认“,”)1个字符的

用于分隔CSV数据中各个单元格的字符。

quotechar : 1-character strFalse ,可选(默认')1个字符的

可选用于引用CSV值的字符 (False 如果不允许引用)。

doublequote : bool ,可选(默认 True )布尔,可选(默认为True)

引用的CSV值中的两个引号是否表示数据中的单个引号。

escapechar : 1-character strFalse ,可选(默认 False )1个字符的

可选择地用于逸出特殊字符的字符 (False 如果不允许逃逸)。

header_start : int , None ,可选(默认0)Python:int,Python:无,可选(默认0)

带有列名的标题行的行索引。如果 None 这意味着没有标题行,列名取自 names 或自动生成(“f0”、“f1”、.)。

data_start : int , None ,可选(默认 None )pPython:int,pPython:无,可选(默认pPython:无)

数据开始的行索引。如果 None ,则数据在标题行后的一行开始,或者如果没有标题,则在第一行开始。

names : list , None ,可选(默认 None )Python:列表,Python:无,可选(默认Python:无)

没有标题行时输入数据列的名称列表。如果提供,那么 header_start 必须 None .

include_names : list , None ,可选(默认 None )Python:列表,Python:无,可选(默认Python:无)

要包括在输出中的列名列表。如果 None ,包括所有列。

dtypes : dict [str, Any] , None ,可选(默认 None )Python:dict [python:str, Any] ,pPython:无,可选(默认pPython:无)

如果提供的话,这是输出列的数据类型字典。每个键都是一个列名,值要么是PyArrow数据类型,要么是被接受作为参数的数据类型说明符 numpy.dtype .实例包括 pyarrow.Int32() , pyarrow.time32("s") , int , np.float32 , np.dtype('f4')"float32" .默认值是推断数据类型。

comment : 1-character strNone ,可选(默认 None )1个字符的

用于指示评论开始的字符。任何以可选空白开头的行,然后该字符都会被忽略。使用此选项将导致解析器速度较慢,并可能使用更多内存,因为它使用Python代码来删除注释。

返回:
astropy.table.Table

包含CSV文件中的数据的占星表。

其他参数:
null_values : list ,可选(默认 None )Python:列表,可选(默认Python:无)

要解释为空值的字符串列表。默认情况下,只有空字符串被视为空值(相当于 null_values=[""] ).设置为 [] 禁用空值处理。

encoding: str, optional (default 'utf-8')

输入数据的编码。

newlines_in_values: bool, optional (default False)

CSV值中是否允许出现白线字符。将其设置为True会降低多线程CSV读取的性能。

timestamp_parsers: list, optional

strptime()兼容的格式字符串序列,在尝试推断或转换时间戳值时按顺序尝试。默认为特殊值 pyarrow.csv.ISO8601 使用优化的内部ISO8601解析器。