Skip to main content

ListFTP

描述:

处理FTP服务器上的文件列表。 对于在远程服务器上找到的每个文件,将创建一个新的数据流,并将filename属性设置为远程服务器上的文件名。 可以将其与FetchFTP组件结合使用以获取这些文件。

标签:

list, ftp, remote, ingest, source, input, files

参数:

如下列表中,必填参数则标识为加粗. 其他未加粗参数,则表示为可选参数。表中同时提到参数默认值设置, 参数还支持 表达式语言, 并且 如果将一个参数认定为"敏感", 表示是加密状态. 在输入一个敏感参数时, 确保 orchsym.properties 文件中存在属性设置 orchsym.sensitive.props.key.

名字默认值允许值列表描述
主机主机名或远程系统IP地址

支持表达式语言 (仅支持变量)
端口号21远程主机获取数据的端口

支持表达式语言 (仅支持变量)
用户名用户名

支持表达式语言 (仅支持变量)
用户密码用户密码

敏感状态
支持表达式语言 (仅支持变量)
远程路径.远程系统上用于提取或推送文件的路径

支持表达式语言 (仅支持变量)
分布式缓存服务控制器服务API:
DistributedMapCacheClient
实现:
HBase_1_1_2_ClientMapCacheService
CouchbaseMapCacheClient
DistributedMapCacheClientService
RedisDistributedMapCacheClientService
指定应该用于维护从远程服务器提取的内容的状态的服务,当新节点开始提取数据时,不会复制已完成的所有工作。 如果未指定,则不会在群集中共享信息。 不需要为单机平台设置此属性,但如果在群集中运行多个平台,则应配置此属性。
遍历子目录
- 是
- 否
如果允许,将从任意嵌套的子目录中提取文件; 否则,将不会遍历子目录
文件过滤正则表达式提供Java的正则表达式来过滤文件名,如果设置,仅名字匹配的文件将被读取
路径过滤正则表达式当<遍历子目录>属性设置为允许时,仅路径匹配表达式的子目录会被扫描处理
忽略.开头文件忽略
- 忽略
- 不忽略
将决定是否忽略名称以点(“.”)开头的文件
远程缓存分批数量5000该值指定在执行文件列表时在远程系统上的给定目录中查找的文件路径数。 通常不需要修改此值,但在对具有大量文件的远程系统进行轮询时,此值可能很重要。 将此值设置得太高会导致性能非常差,将其设置得太低会导致流量比正常情况慢。
连接超时30 sec创建连接时超时之前等待的时间
数据超时30 sec在本地系统和远程系统之间传输文件时,此值指定在系统之间没有任何数据传输的情况下允许的时间
连接模式被动
- 主动
- 被动
FTP连接模式
传输模式二进制
- 二进制
- 文本
FTP传输模式
代理配置控制器服务API:
ProxyConfigurationService
实现:
StandardProxyConfigurationService
提供代理配置服务,如果设置,将取代每个组件的代理设置。且支持 SOCKS 和HTTP + AuthN
代理类型DIRECT
- DIRECT
- HTTP
- SOCKS
用于文件传输的代理类型
代理主机代理主机名或IP地址

支持表达式语言 (仅支持变量)
代理端口号代理服务器的代理端口号

支持表达式语言 (仅支持变量)
Http代理用户名Http代理用户名

支持表达式语言 (仅支持变量)
Http代理用户密码Http代理用户密码

敏感状态
支持表达式语言 (仅支持变量)
内部缓存大小16KB设置缓存数据流的内部缓存大小
目标系统时间戳精度自动
- 自动基于候选时间戳自动检测时间单位。 请注意,如果没有条目具有精确时间戳,则此选项可能需要更长的时间来不必要地列出实体。 例如。 即使目标系统支持毫秒,如果所有条目只有没有毫秒的时间戳,例如&#39;2017-06-16 09 :06 :34.000&#39;,则其精度确定为&#39;秒&#39;。
- 毫秒如果目标系统支持毫秒,则此选项提供条目可用的最小延迟,如果不支持,则使用其他选项。
- 秒目标系统不支持毫秒,但支持秒的时间戳
- 分目标系统仅支持分钟的时间戳
在目标系统上指定时间戳精度。 由于此组件使用实体的时间戳来决定应列出哪些实体,因此使用正确的时间戳精度至关重要。

连线:

名字描述
success成功读取的数据流都将输出到此连线

读取属性:

未提供。

写入属性:

名字描述
ftp.remote.hostFTP服务器的主机名
ftp.remote.portFTP服务器上连接的端口
ftp.listing.user执行FTP列表的用户名
file.owner源文件的所有者ID(数字值)
file.group源文件的组ID(数字值)
file.permissions源文件的读/写/执行权限
file.size源文件大小
file.lastModifiedTime将远程文件系统中的文件修改为'yyyy-MM-dd'T'HH \uff1amm \uff1assZ'格式的时间戳值
filenameFTP服务器上的文件名
path从中提取文件的SFTP服务器上的目录路径

状态管理:

范围描述
CLUSTER执行文件列表后,将存储最新文件的时间戳。 这允许组件仅列出在下次运行处理器时在此日期之后添加或修改的文件。 状态存储在群集中,以便此组件只能在主节点上运行,如果选择了新的主节点,则新节点将不会复制先前主节点列出的数据。

限制:

该组件没有限制

输入流要求:

组件禁止提供输入流。

系统资源考量:

未提供。

参考:

FetchFTP, GetFTP, PutFTP