博客
关于我
ADF 第五篇:转换数据
阅读量:438 次
发布时间:2019-03-06

本文共 1701 字,大约阅读时间需要 5 分钟。

Azure Data Factory:映射数据流(Mapping Data Flow)详细指南

在Azure Data Factory中,映射数据流(Mapping Data Flow)是一项强大的数据整理与转换功能,类似于SSIS的数据流设计。其核心组件包括Source、转换(Transformation)和Sink(Destination),通过数据流图(Data Flow Graph)连接各组件,实现数据从源到目的地的流转与转换。

创建数据流面板

  • 进入Data Factory

    打开Azure Data Factory,切换到“Author”面板,导航至“Factory Resources”,选择“Data flows”,然后点击右侧的“...”(Actions),选择“New mapping dataflow”创建新数据流面板。

  • 初始面板结构

    新建后的数据流面板命名为dataflow1,面板中央是绘图区域,可向画布添加Source、转换组件和Sink。

  • 配置Source

  • 添加Source

    点击画布上的“Add Source”,创建一个源组件,默认命名为source1。源右侧的“+”号提示可添加转换功能。

  • 源属性设置

    选中Source后,底部显示Source settings面板,用于设置源属性。常用设置包括:

    • Source type:通常选择“Dataset”,表示从数据集获取数据。
    • Partition settings(分区设置):优化数据流性能,支持设置Partition type、Partition option及Number of partitions。
    • Inspect面板:查看数据流元数据,包括列数、列变化、数据类型等。
  • 转换功能配置

  • 添加转换

    在Source右下角的“+”号处点击,启用转换功能。转换功能分为四大类:

    1. 多输入/输出(Multiple inputs/outputs)

    • Join:用于将多个Source连接,实现数据合并。
    • Conditional Split:根据条件将单个Source拆分为多个输出流。
    • Exists:需要两个输入流(Left stream和Right stream),根据Exist type输出匹配或不匹配的数据。
    • Union:将多个输入流合并为单个输出流。
    • Lookup:基于Lookup stream匹配Primary stream中的数据,输出匹配结果。

    2. Schema Modifier(字段修改器)

    • Derive Column:根据数据计算新字段。
    • Select:选择需要保留的字段。
    • Aggregate:对数据进行聚合运算。
    • SurrogateKey:根据源主键生成代理主键。
    • Pivot和Unpivot:实现数据的透视和逆透视操作。
    • Windows:定义基于窗口的聚合运算。
    • Flatten:将嵌套数据(如JSON)展平成多个字段。
    • Rank:为数据字段赋予排名。

    3. Row Modifier(行修改器)

    • Filter:过滤数据流中的行。
    • Sort:对数据行进行排序。
    • Alter Row:对行数据进行插入、删除、更新或更新插入(Upsert)操作。

    4. Destination(目的地)

    Sink用于指定数据存储目标,配置数据存储位置及数据格式。

  • 数据流运行与监控

  • 调试数据流

    在发布数据流前,需先启用数据流的“Data flow debug”功能,完成调试后再发布。

  • 添加数据流活动

    在Pipeline面板中添加Data flow活动,配置活动设置:

    • 在“Data flow”中引用所需的数据流。
    • 设置 Azure IR(Integration Runtime),默认使用默认IR。
    • 可设置日志级别,Verbose为默认选项。
  • 监控数据流

    数据流作为Pipeline中的活动,需在Pipeline runs中查看执行情况。通过监控数据流,可以跟踪数据转换过程中的错误和性能指标。

  • 通过以上步骤,可以在 Azure Data Factory中高效配置并运行映射数据流,完成数据的转换与集成任务。

    转载地址:http://kuxyz.baihongyu.com/

    你可能感兴趣的文章
    Objective-C实现列主元高斯消去法(附完整源码)
    查看>>
    Objective-C实现创建多级目录(附完整源码)
    查看>>
    Objective-C实现删除重复的字母字符算法(附完整源码)
    查看>>
    Objective-C实现判断32位的数字是否为正数isPositive算法(附完整源码)
    查看>>
    Objective-C实现十进制转N进制算法(附完整源码)
    查看>>
    Objective-C实现十进制转八进制算法(附完整源码)
    查看>>
    Objective-C实现华氏温度转摄氏温度(附完整源码)
    查看>>
    Objective-C实现单例模式(附完整源码)
    查看>>
    Objective-C实现单向链表的反转(附完整源码)
    查看>>
    Objective-C实现单向链表的反转(附完整源码)
    查看>>
    Objective-C实现单字母密码算法(附完整源码)
    查看>>
    Objective-C实现单循环链表算法(附完整源码)
    查看>>
    Objective-C实现单词计数(附完整源码)
    查看>>
    Objective-C实现单链表反转(附完整源码)
    查看>>
    Objective-C实现博福特密码算法(附完整源码)
    查看>>
    Objective-C实现卡尔曼滤波(附完整源码)
    查看>>
    Objective-C实现卡尔曼滤波(附完整源码)
    查看>>
    Objective-C实现卡尔曼滤波(附完整源码)
    查看>>
    Objective-C实现卷积(附完整源码)
    查看>>
    Objective-C实现压缩文件夹(附完整源码)
    查看>>