Skip to main content

ExtractExcel

描述:

将Microcoft Excel文档的每个工作表格(worksheet)转换成csv。该组件会对每个从输入Excel文档传入的工作表生成一个新的流文件。每个输出流文件的内容都会被格式化成csv文件,其中excel工作表中的每一行都会以新行写入到csv文件中。该组件目前支持.xlsx(XSSF 2007 OOXML文件格式)和.xls(HSSF 2003文件格式)的Excel文档,不支持旧的.xls(HSSF '97(-2007)文件格式)文档。该组件还要求格式良好的CSV内容,并且不会转义包含无效内容(如换行或附加逗号等)的单元格。

标签:

excel, csv, poi

参数:

如下列表中,必填参数则标识为加粗. 其他未加粗参数,则表示为可选参数。表中同时提到参数默认值设置, 并且 参数还支持 表达式语言.

名字默认值允许值列表描述
需要提取的工作表指定需要从Excel文档提取的工作表列表名称,该列表以逗号分隔。如果此属性为空,则将提取Excel文档中的所有工作表。列表名称区分大小写,任何未在此值中指定的工作表都会被忽略。

支持表达式语言 (支持流属性和变量)
Excel文件类型xlsx
- xls
- xlsx
Excel文件类型,文件后缀,分别为xls和xlsx。
要跳过的行数0指定开始处理第一行时需要跳过的行数。通过该值可以跳过工作表顶部中不属于数据集的行内容。不论此值如何设置,表格中任何位置的空数据行都会被跳过。

支持表达式语言 (支持流属性和变量)
要跳过的列指定要跳过的列的编码列表名称,该列表名称以逗号分隔。列表名称中使用的是列号而不是字母名称。使用此项可以跳过工作表中不希望被提取的任何列。

支持表达式语言 (支持流属性和变量)
格式化单元格的值false
- true
- false
指定单元格的值应该使用Excel中应用的格式写入CSV中,还是应该打印为原始值。
单元格提取到属性逗号分割的单元格地址,提取到属性,属性名为单元格地址,例如A2,B3,D4。

支持表达式语言 (支持流属性和变量)
值分隔符,用于分隔CSV记录中的值/字段的字符。

支持表达式语言 (支持流属性和变量)
引用字符"指定用于引用值的字符,以便不必使用转义字符。

支持表达式语言 (支持流属性和变量)
转义字符\ 指定那些对CSV解析器有特定意义的字符需要使用的转义字符。

支持表达式语言 (支持流属性和变量)
裁剪(trim)字段true
- true
- false
是否应该删除字段开头和结尾的空格。
引用模式不引用值
- 引用所有值所有值都将使用配置的引号字符进行引用。
- 引用最小化只有包含特殊字符(如换行字符或字段分隔符)的值才会被引用。
- 引用非数字值只对非数字值进行引用。
- 不引用值不引用值。相反,所有的特殊字符将使用配置的转义字符进行转义。
指定在写入字段时应如何引用它们。
记录分隔符\n指定用于分隔CSV记录的字符。
包含尾部分隔符省略
- 包含
- 省略
如果包含,将在写入的每个CSV记录中添加一个尾部分隔符,否则省略
输出编码UTF-8输出的编码格式,默认为UTF-8。

连线:

名字描述
successExcel数据成功转换成CSV的话,流文件将被路由到此连线。
failure未能解析Excel文档的话,流文件将被路由到此连线。
original该组件接收到的原始Excel文档将被路由到此连线。

读取属性:

未提供。

写入属性:

名字描述
sheetname这一行数据来自Excel文档中的Excel工作表的名称
numrows次Excel工作表中的行数。
sourcefilename此数据源自的Excel文件名称。
convertexceltocsvprocessor.error处理每个Excel工作表时遇到的错误信息。只有在处理特定工作表时发生错误时才填写该属性。将错误呈现在工作表级别,允许用户可以在更广的范围内更好地理解excel文档中哪些语法错误导致了错误的产生。

状态管理:

该组件不保存状态。

限制:

该组件没有限制

系统资源考量:

未提供。