ListFTP
描述:
处理FTP服务器上的文件列表。 对于在远程服务器上找到的每个文件,将创建一个新的数据流,并将filename属性设置为远程服务器上的文件名。 可以将其与FetchFTP组件结合使用以获取这些文件。
标签:
list, ftp, remote, ingest, source, input, files
参数:
如下列表中,必填参数则标识为加粗. 其他未加粗参数,则表示为可选参数。表中同时提到参数默认值设置, 参数还支持 表达式语言, 并且 如果将一个参数认定为"敏感", 表示是加密状态. 在输入一个敏感参数时, 确保 orchsym.properties 文件中存在属性设置 orchsym.sensitive.props.key.
名字 | 默认值 | 允许值列表 | 描述 |
---|---|---|---|
主机 | 主机名或远程系统IP地址 支持表达式语言 (仅支持变量) | ||
端口号 | 21 | 远程主机获取数据的端口 支持表达式语言 (仅支持变量) | |
用户名 | 用户名 支持表达式语言 (仅支持变量) | ||
用户密码 | 用户密码 敏感状态 支持表达式语言 (仅支持变量) | ||
远程路径 | . | 远程系统上用于提取或推送文件的路径 支持表达式语言 (仅支持变量) | |
分布式缓存服务 | 控制器服务API: DistributedMapCacheClient 实现: HBase_1_1_2_ClientMapCacheService CouchbaseMapCacheClient DistributedMapCacheClientService RedisDistributedMapCacheClientService | 指定应该用于维护从远程服务器提取的内容的状态的服务,当新节点开始提取数据时,不会复制已完成的所有工作。 如果未指定,则不会在群集中共享信息。 不需要为单机平台设置此属性,但如果在群集中运行多个平台,则应配置此属性。 | |
遍历子目录 | 否 | - 是 - 否 | 如果允许,将从任意嵌套的子目录中提取文件; 否则,将不会遍历子目录 |
文件过滤正则表达式 | 提供Java的正则表达式来过滤文件名,如果设置,仅名字匹配的文件将被读取 | ||
路径过滤正则表达式 | 当<遍历子目录>属性设置为允许时,仅路径匹配表达式的子目录会被扫描处理 | ||
忽略.开头文件 | 忽略 | - 忽略 - 不忽略 | 将决定是否忽略名称以点(“.”)开头的文件 |
远程缓存分批数量 | 5000 | 该值指定在执行文件列表时在远程系统上的给定目录中查找的文件路径数。 通常不需要修改此值,但在对具有大量文件的远程系统进行轮询时,此值可能很重要。 将此值设置得太高会导致性能非常差,将其设置得太低会导致流量比正常情况慢。 | |
连接超时 | 30 sec | 创建连接时超时之前等待的时间 | |
数据超时 | 30 sec | 在本地系统和远程系统之间传输文件时,此值指定在系统之间没有任何数据传输的情况下允许的时间 | |
连接模式 | 被动 | - 主动 - 被动 | FTP连接模式 |
传输模式 | 二进制 | - 二进制 - 文本 | FTP传输模式 |
代理配置 | 控制器服务API: ProxyConfigurationService 实现: StandardProxyConfigurationService | 提供代理配置服务,如果设置,将取代每个组件的代理设置。且支持 SOCKS 和HTTP + AuthN | |
代理类型 | DIRECT | - DIRECT - HTTP - SOCKS | 用于文件传输的代理类型 |
代理主机 | 代理主机名或IP地址 支持表达式语言 (仅支持变量) | ||
代理端口号 | 代理服务器的代理端口号 支持表达式语言 (仅支持变量) | ||
Http代理用户名 | Http代理用户名 支持表达式语言 (仅支持变量) | ||
Http代理用户密码 | Http代理用户密码 敏感状态 支持表达式语言 (仅支持变量) | ||
内部缓存大小 | 16KB | 设置缓存数据流的内部缓存大小 | |
目标系统时间戳精度 | 自动 | - 自动 - 毫秒 - 秒 - 分 | 在目标系统上指定时间戳精度。 由于此组件使用实体的时间戳来决定应列出哪些实体,因此使用正确的时间戳精度至关重要。 |
连线:
名字 | 描述 |
---|---|
success | 成功读取的数据流都将输出到此连线 |
读取属性:
未提供。
写入属性:
名字 | 描述 |
---|---|
ftp.remote.host | FTP服务器的主机名 |
ftp.remote.port | FTP服务器上连接的端口 |
ftp.listing.user | 执行FTP列表的用户名 |
file.owner | 源文件的所有者ID(数字值) |
file.group | 源文件的组ID(数字值) |
file.permissions | 源文件的读/写/执行权限 |
file.size | 源文件大小 |
file.lastModifiedTime | 将远程文件系统中的文件修改为'yyyy-MM-dd'T'HH \uff1amm \uff1assZ'格式的时间戳值 |
filename | FTP服务器上的文件名 |
path | 从中提取文件的SFTP服务器上的目录路径 |
状态管理:
范围 | 描述 |
---|---|
CLUSTER | 执行文件列表后,将存储最新文件的时间戳。 这允许组件仅列出在下次运行处理器时在此日期之后添加或修改的文件。 状态存储在群集中,以便此组件只能在主节点上运行,如果选择了新的主节点,则新节点将不会复制先前主节点列出的数据。 |
限制:
该组件没有限制
输入流要求:
组件禁止提供输入流。
系统资源考量:
未提供。