博客
关于我
ADF 第五篇:转换数据
阅读量:438 次
发布时间:2019-03-06

本文共 1701 字,大约阅读时间需要 5 分钟。

Azure Data Factory:映射数据流(Mapping Data Flow)详细指南

在Azure Data Factory中,映射数据流(Mapping Data Flow)是一项强大的数据整理与转换功能,类似于SSIS的数据流设计。其核心组件包括Source、转换(Transformation)和Sink(Destination),通过数据流图(Data Flow Graph)连接各组件,实现数据从源到目的地的流转与转换。

创建数据流面板

  • 进入Data Factory

    打开Azure Data Factory,切换到“Author”面板,导航至“Factory Resources”,选择“Data flows”,然后点击右侧的“...”(Actions),选择“New mapping dataflow”创建新数据流面板。

  • 初始面板结构

    新建后的数据流面板命名为dataflow1,面板中央是绘图区域,可向画布添加Source、转换组件和Sink。

  • 配置Source

  • 添加Source

    点击画布上的“Add Source”,创建一个源组件,默认命名为source1。源右侧的“+”号提示可添加转换功能。

  • 源属性设置

    选中Source后,底部显示Source settings面板,用于设置源属性。常用设置包括:

    • Source type:通常选择“Dataset”,表示从数据集获取数据。
    • Partition settings(分区设置):优化数据流性能,支持设置Partition type、Partition option及Number of partitions。
    • Inspect面板:查看数据流元数据,包括列数、列变化、数据类型等。
  • 转换功能配置

  • 添加转换

    在Source右下角的“+”号处点击,启用转换功能。转换功能分为四大类:

    1. 多输入/输出(Multiple inputs/outputs)

    • Join:用于将多个Source连接,实现数据合并。
    • Conditional Split:根据条件将单个Source拆分为多个输出流。
    • Exists:需要两个输入流(Left stream和Right stream),根据Exist type输出匹配或不匹配的数据。
    • Union:将多个输入流合并为单个输出流。
    • Lookup:基于Lookup stream匹配Primary stream中的数据,输出匹配结果。

    2. Schema Modifier(字段修改器)

    • Derive Column:根据数据计算新字段。
    • Select:选择需要保留的字段。
    • Aggregate:对数据进行聚合运算。
    • SurrogateKey:根据源主键生成代理主键。
    • Pivot和Unpivot:实现数据的透视和逆透视操作。
    • Windows:定义基于窗口的聚合运算。
    • Flatten:将嵌套数据(如JSON)展平成多个字段。
    • Rank:为数据字段赋予排名。

    3. Row Modifier(行修改器)

    • Filter:过滤数据流中的行。
    • Sort:对数据行进行排序。
    • Alter Row:对行数据进行插入、删除、更新或更新插入(Upsert)操作。

    4. Destination(目的地)

    Sink用于指定数据存储目标,配置数据存储位置及数据格式。

  • 数据流运行与监控

  • 调试数据流

    在发布数据流前,需先启用数据流的“Data flow debug”功能,完成调试后再发布。

  • 添加数据流活动

    在Pipeline面板中添加Data flow活动,配置活动设置:

    • 在“Data flow”中引用所需的数据流。
    • 设置 Azure IR(Integration Runtime),默认使用默认IR。
    • 可设置日志级别,Verbose为默认选项。
  • 监控数据流

    数据流作为Pipeline中的活动,需在Pipeline runs中查看执行情况。通过监控数据流,可以跟踪数据转换过程中的错误和性能指标。

  • 通过以上步骤,可以在 Azure Data Factory中高效配置并运行映射数据流,完成数据的转换与集成任务。

    转载地址:http://kuxyz.baihongyu.com/

    你可能感兴趣的文章
    Objective-C实现数除以二divideByTwo算法(附完整源码)
    查看>>
    Objective-C实现整个字符串转换为小写字母算法(附完整源码)
    查看>>
    Objective-C实现整数N以内的质数算法(附完整源码)
    查看>>
    Objective-C实现文件传输(附完整源码)
    查看>>
    Objective-C实现文件分割(附完整源码)
    查看>>
    Objective-C实现文件拷贝(附完整源码)
    查看>>
    Objective-C实现文件断点传输(附完整源码)
    查看>>
    Objective-C实现文件的删除、复制与重命名操作实例(附完整源码)
    查看>>
    Objective-C实现无序表查找算法(附完整源码)
    查看>>
    Objective-C实现无锁链表(附完整源码)
    查看>>
    Objective-C实现无锁链表(附完整源码)
    查看>>
    Objective-C实现时间戳转为年月日时分秒(附完整源码)
    查看>>
    Objective-C实现是否为 Pythagoreantriplet 毕氏三元数组算法(附完整源码)
    查看>>
    Objective-C实现显示响应算法(附完整源码)
    查看>>
    Objective-C实现晚捆绑测试实例(附完整源码)
    查看>>
    Objective-C实现普通矩阵A和B的乘积(附完整源码)
    查看>>
    Objective-C实现更新数字指定偏移量上的值updateBit算法(附完整源码)
    查看>>
    Objective-C实现最优二叉搜索树算法(附完整源码)
    查看>>
    Objective-C实现最大和连续子序列算法(附完整源码)
    查看>>
    Objective-C实现最大最小距离算法(附完整源码)
    查看>>