CSVReader

描述:

解析CSV格式的数据，并返回CSV文件的每一行作为单独记录。该读取器假定第一行内容包含字段名并且后续行均作为字段值。

参数:

如下列表中，必填参数则标识为加粗. 其他未加粗参数，则表示为可选参数。表中同时提到参数默认值设置, 并且参数还支持表达式语言.

名字	默认值	允许值列表	描述
Schema访问策略	Infer Schema	- 使用 'Schema名字' 属性 - 使用 'Schema内容' 属性 - HWX Schema引用属性 - HWX Schema编码内容引用 - Confluent Schema编码内容引用 - 使用头部的字符串字段 - Infer Schema	指定如何从数据中获得Schema信息
Schema注册服务		控制器服务API: SchemaRegistry 实现: AvroSchemaRegistry ConfluentSchemaRegistry HortonworksSchemaRegistry	指定Schema注册服务
Schema名字	${schema.name}		指定从Schema注册服务中获取相应Schema的名字支持表达式语言 (支持流属性和变量)
Schema版本			指定从Schema注册服务中获取相应Schema的版本，如果未指定，则表示最新版本的Schema 支持表达式语言 (支持流属性和变量)
Schema分支			当从Schema注册服务中获取相应Schema时，需指定的Schema分支名字。如果指定的<Schema注册服务>不支持分支管理，则该参数将被忽略。支持表达式语言 (支持流属性和变量)
Schema内容	${avro.schema}		Avro格式的Schema内容支持表达式语言 (支持流属性和变量)
CSV解析	Apache Commons CSV	- Apache Commons CSV - Jackson CSV	指定选用那个解析器来读取CSV数据记录。注意：不同的解析器可以支持不同的功能，还可以有不同的性能级别。
日期格式			指定当读写日期(Date)字段时使用的格式，如果不指定，默认将假定日期字段为基于纪元的毫秒数（即格林威治时间1970年1月1号午夜）。如果指定，则日期格式必须匹配Java 简单日期格式规范 (比如 MM/dd/yyyy，具体为 01/01/2017)。
时间格式			指定当读写时间(Time)字段时使用的格式。如果不指定，默认将假定日期字段为基于纪元的毫秒数（即格林威治时间1970年1月1号午夜）。如果指定，则日期格式必须匹配Java 简单日期格式规范 (比如 HH:mm:ss，具体为 18:04:15)。
时间戳格式			指定当读写时间戳(Timestamp)字段时使用的格式。如果不指定，默认将假定日期字段为基于纪元的毫秒数（即格林威治时间1970年1月1号午夜）。如果指定，则日期格式必须匹配Java 简单日期格式规范 (比如 MM/dd/yyyy HH:mm:ss，具体为01/01/2017 18:04:15）。
CSV格式	自定义格式	- 自定义格式 - RFC 4180 - Microsoft Excel - Tab分隔 - MySQL格式 - Informix Unload - Informix Unload Escape Disabled	指定使用那种CSV数据的格式或使用自定义格式。
值分隔符	,		用于CSV记录值之间的分隔字符支持表达式语言 (支持流属性和变量)
首行作为头部	否	- 是 - 否	指定是否将CSV文件的第一行作为头部还是一个记录。如果<Schema访问策略>指定必须提供头部，则将忽略该参数，因为头部是必须的，且不会作为记录。否则，如果选择是，则第一行将不作为记录而是作为头部。
忽略CSV头部列名	不忽略	- 忽略 - 不忽略	如果第一行作为头部与配置的Schema字段名有不匹配，通过该参数控制是否解析相应字段。如果忽略，则仅解析与配置Schema匹配的字段，而不匹配的则被忽略。如果不忽略，则仅在CSV文件头部中的字段也将作为字段被解析。
引用字符	"		为了不转义字符，用来将值引用的字符。支持表达式语言 (支持流属性和变量)
转义字符	\		用于转义的字符，否则这些字符对CSV解析器具有特定含义。支持表达式语言 (支持流属性和变量)
注释标记			用于表示注释的字符。从这个注释开始的任何行都将被忽略。支持表达式语言 (支持流属性和变量)
Null字符串			用于指定字符串值，当处理一个CSV值时，是作为null字段还是普通值
整理字段	是	- 是 - 否	是否移除字段值前后的空白字符
字符编码	UTF-8		用于读写CSV文件的字符集编码

状态管理:

该组件不保存状态。

限制:

该组件没有限制

系统资源考量:

未提供。

CSVReader

描述:​

标签:​

参数:​

状态管理:​

限制:​

系统资源考量:​

描述:

标签:

参数:

状态管理:

限制:

系统资源考量: