1 概述
1.1 版本
服务器版本 |
---|
v7.3.0及之后版本 |
1.2 应用场景
用户在搭建数仓时,可从服务器本地或FTP/FTPS或者OSS中读取 Excel 、CSV 文件数据,作为后续环节的数据来源。
1.3 业务场景
企业常需将分散在不同系统的静态数据(如销售记录Excel文件、物流日志CSV文件)整合到数据中台。例如零售企业每日从门店POS系统导出CSV格式的销售数据,通过文件输入功能自动解析转换为标准表结构并存储到数据湖中。
1.4 功能简介
支持「文件输入」功能,可读取文件数据。
2 功能说明
文件输入配置,包括:数据来源和数据预览。
步骤 | 描述 |
---|---|
步骤一:设置文件来源 | 确定从哪个文件获取数据。 |
步骤二:选取文件 | 输入文件地址。 |
步骤三:字段解析 | 按需配置后自动解析转换为标准表结构。 |
步骤四:数据预览 | 查看所有返回字段对应的数据。 |
2.1 数据来源
“文件输入”的数据来源配置如下:
主要包含文件来源、文件类型、对应类型为取数配置以及输出字段等配置。具体说明如下:
2.1.1 文件来源
支持两种文件来源:服务器本地路径、FTP/FTPS。
1、服务器本地路径
指的是从数据中台微服务中读取文件,需要将要读取的文件放到该为微服务所在路径下。
2、FTP/FTPS
指的是从远程FTP/FTPS服务器中读取文件,选择该类型时,需要指定对应文件存放的服务地址,下拉可选的服务地址为FTP站点中配置的所有站点对应服务地址,其中,FTP站点参考文档:FTP站点配置。
选择之后,可点击“测试连接”验证该服务是否能正常连接,若能正常使用,将文件放到对应的服务地址下即可。
2.1.2 文件类型
支持读取 Excel 或 CSV/TXT 文件。具体如下:
1)Excel文件类型支持的后缀名:.xls、.xlsx、.XLS、.XLSX
2)CSV/TXT 文件支持的后缀名:csv、CSV、txt、TXT。
2.1.3 取数配置
2.1.3.1 Excel文件
文件类型选择“Excel”时,取数配置如下:
1)文件地址:
输入需要读取的EXcel类型文件所在路径,支持引用表达式。
- 如果文件来源于服务器本地路径,此处可填写文件绝对路径,也可以填写文件相对引擎目录的相对路径;
- 如果文件来源于FTP/FTPs,此处填写的是文件的相对路径,从对应账号看到的文件所属路径。
2)Sheet名:填写要读取的 Sheet 名,为空时读取第一个 Sheet。
3)读取行范围:指定 Excel 读取起始行和读取结束行,结束行为空表示到当前Sheet的最后一行。
4)读取列范围:指定 Excel 读取起始列和读取结束列,结束列为空表示到当前Sheet的最后一列。
5)首行为字段名:勾选时,将解析到的首行数据作为字段名;不勾选时,首行将作为实际数据解析。
2.1.3.2 CSV/TXT文件
文件类型选择“CSV/TXT”时,取数配置如下:
1)文件地址:输入需要读取的CSV/TXT类型文件所在路径,配置方式同EXcel。
2)列分隔符:支持的分隔符包括:英文逗号(,)、制表符(\t)、英文分号(;)、管道符(|)、空格( )。
根据指定的分隔符,分隔数据为多列。配置的分隔符需要与文件中实际的分隔符保持一致才可正常解析。
3)行分隔符:支持的行分隔符如下:
行分隔符适用情况:
- CR+LF:Windows系统;
- CR:苹果机(MAC OS系统)以及旧式的Macintosh;
- LF:UNIX和Linux系统。
4)文本限定符:用于标识数据值的开始和结束,以避免数据中包含的特殊字符干扰 CSV 文件的解析。支持的文本限定符如下:
5)编码:指定 CSV 文件编码。编码可选择 GBK、BIG5、ISO-8859-1、UTF-8、UTF-16、GB2312。
6)读取起始行:可以指定从CSV 文件的第 N 行开始取数,默认为1。实际读取时,将从配置的起始行开始进行读取。
7)首行为字段名:开启时,将以读取起始行开始,取该行作为字段名行。
2.1.4 输出字段
根据上方文件读取的相关配置,自动获取对应文件中的字段并显示,如下图:
- 允许更改字段名称和字段类型,不需要输出的字段可以删除;
- 支持添加新的字段,供后续节点使用;
- 若文件中的内容有更新,可以点击“获取自动”进行更新;
- 未勾选首行包含字段名时,字段名称以「column+数字」的方式对解析出的字段依次命名,如column、column1、column2…。
2.2 数据预览
数据来源配置完成后,切换到“数据预览”tab,可查看所有输出字段对应的数据,如下图:
此处也同样仅展示前1000条数据供用户参考。
注:
1、读取EXcel文件时,未指定结束行或结束列,返回的数据,若空行或空列前后都有数据,空行空列均会返回;若Sheet无数据或数据后全部都是空行或空列,则不返回后面的空行或空列。
2、数据获取时字段名称不区分大小写进行匹配。
3 注意事项
1、需要读取的文件名称为中文时,要保证FTP/FTPs服务器的编码配置和对应FTP站点配置的编码是一致的。
2、分布式环境下,部署了多个微服务,由于访问微服务是随机的,不确定最终访问的是哪个微服务,因此需要在所有微服务下分别存放对应的文件,才能确定该文件能够正常获取。
最后编辑:倪 更新时间:2025-03-27 15:47
