kettle教程

  • 什么是ETL? 一、ETL概念之背景 随着企业的发展,目前的业务线越来越复杂,各个业务系统独立运营。例如:CRM系统只会生产CRM的 数据;Billing只会生产Billing的数据。各业务系统之间只关心自己的数据,导致各业务系统之间数据相互独立...
  • 一、什么是kettle Kettle最早是一个开源的ETL工具,全称为KDE Extraction, Transportation, Transformation and Loading Environment。在2006年,Pentaho公司...
  • kettle教程--通过配置文件同步所需要的列数据 欢迎关注博主公众号「Java大师」, 专注于分享Java领域干货文章, 关注回复「kettle」, 免费领取全网最热的kettle实战视频教程 http://www.javaman.cn/ket...
  • kettle实战教程 欢迎关注博主公众号「Java大师」, 专注于分享Java领域干货文章, 关注回复「kettle」, 免费领取全网最热的kettle实战视频教程 http://www.javaman.cn/kettle/kettle-in-a...
  • Kettle实战视频教程 作者呕心沥血给大家录制了一套kettle的视频教程,为那些熟悉数据库,想学习ETL的同学,想快速提升竞争力的ETL工程师,以及以后想从事高级运维相关工作人员,希望大家喜欢 弱弱的跟大家说一句:这可能是全网最详细的Ket...
kettle实战教程 - idea激活- IntelliJ IDEA 2021.1激活码破解教程(亲测激活至 2099 年,长期更新)- 爪哇男教程  

kettle实战教程

欢迎关注博主公众号「Java大师」, 专注于分享Java领域干货文章, 关注回复「kettle」, 免费领取全网最热的kettle实战视频教程 http://www.javaman.cn/kettle/kettle-in-action

发布时间: 2021-5-12 20:37:46 作者: java大师

kettle教程

Kettle简介:Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。(引用百度百科)

kettle实战教程前言一、安装并进行第一个实例二、KETTLE读取数据库自动生成文件三、KETTLE多表关联的同步一张表的两种实现方式四、数据定时自动(自动抽取)同步作业 5、运行转换,双击start,设置作业定时调度,设置完成后,运行转换

前言

KETTLE到底难不难呢,其实不难!!!!

有很多人看着数量庞大的控件更是无从下手,这个控件是干嘛呢,那个控件是干嘛的?为什么这玩意能做下面这些事情

可以说凡是有数据整合、转换、迁移的场景都可以使用KETTLE,他代替了完成数据转换任务的手工编码,降低了开发难度,每个人都可以是开发人员,都可以做大数据!

下面是笔者原创的一整套学习流程

同时笔者公众号还有更加让人容易理解的视频教程,完全实战级开发,关注【JAVA大师】回复【kettle】关键字获取

一、安装并进行第一个实例

1、Kettle的下载与安装(在本文中使用的kettle版本为7.0.0.0-25)


2、打开kettle,kettle打开的前提是你的机器上一定要安装jdk。解压后,双击spoon.bat,进入kettle的主界面。


img

3、新建转换


1)新建转换

img

2)转换创建后,进入下图界面,左边展示核心对象,右边白色框是主界面

img

3)点开输入,进入下图界面,选择表输入

img

4)将表输入拖入主界面

img

5)双击表输入,进入表输入的主界面

img

6)修改步骤名称,点击新增修改数据库连接,进入新增界面,输入完毕后,点击确认。

img

过程中,可能提示缺少ojdbc的jar包,下载后放入lib文件夹即可。

img

7)进入主界面,双击表输入,点击预览,点击确定即可显示表内容。

img

img

二、KETTLE读取数据库自动生成文件

在平时工作当中,会遇到以下情况: 1、自动生成文件TXT或者EXCEL(电信行业该需求居多),上传至某服务器; 2、双方数据对接,对方提供数据库视图

1、自动生成EXCEL文件


img

1)如上图,选择表输入(读取视图或者table数据),EXCEL输出(准备输出的EXCEL文件),连接两个控件。

img

2)配置数据库连接(上节有介绍jdbc),后续可以通过jndi进行连接,通过配置实现(如同springmvc的配置)。

写出查询sql语句,点击预览,查看sql语句是否报错,如果没有报错,会展示如下预览界面

img

3)双击EXCEL输出,进入EXCEL配置界面,如下图

img

4)点击浏览,配置生成文件的路径和文件名,指定日期格式可以在文件名称后添加日期,非常适合定期生成文件需要

img

5)选到内容页,追加代表在文件后进行追加操作,不覆盖源文件

img

6)点击获取字段,会自动填入前面步骤查询的表字段,生成的是BigNumber类型的id,如果想要数字型的可以修改为Integer,全部填写完毕后,点击确认

img

7)点击运行

img

8)会自动生成如下EXCEL文件

img


2、自动生成TXT文件


img

1)如上图,将excel换成txt,shift连接后,双击鼠标左键打开配置,输入文件名

img

2)切换到内容,比较常见的是选择分隔符,本文用常见的|代替,

img

3)字段选项,获取字段,选择相应的字段格式,点击确定

img

img

4)如图所示,生成完毕


三、KETTLE多表关联的同步一张表的两种实现方式

在平时工作当中,会遇到这种情况,而且很常见: 读取对方的多个视图或者表,写入目标库的一张表中,就涉及到多表的同步。

多表同步可以有以下两种方式实现,接下来笔者就给大家分别介绍下实现方式:

方式一:多表关联查询后,写入一张表

1、根据这两张表的数据,表有学生表和班级表,写入目标表:学生班级表

img

img

img

2、选择表输入,双击表输入,在sql一栏里写入关联sql语句,点击预览后,查询出相关数据,点击确定

img

img

3、在核心对象中,选择表输出,按住shift键,鼠标连接表输入和表输出,双击表输出,选择数据库连接,选择目标表和提交数量点击确定

img

4、点击运行按钮,写入成功

img

img

5、验证成功,数据已经写入相关表

img


方式二:如图所示,需要创建表输入1(学生),表输入2(班级),记录集连接(连接学生和班级表),表输出(写入目标表)

img

1、表输入1,获取相应的写入字段

img

2、表输入2,获取班级相应的写入字段

img

3、表输入1和表输入2,同时按住shift连接记录集连接控件后,点击记录集连接控件,输入连接字段1和连接字段2,连接类型选择inner(数据库相关知识)

img

4、最后连接表输出,选择数据库字段后(必须和目标表的表结构一致),点击确认

img

5、双击运行,执行完毕,到数据库验证通过

img

img

img

四、数据定时自动(自动抽取)同步作业

1、为了给大家更直观的展示,首先在数据库创建4张表,表结构如下:

  • t_student_kettle 学生数据源表;
  • t_student_kettle_target 学生目标数据表;
  • t_class 班级数据源表;
  • t_class_target 班级 班级目标数据表;
  • t_tbrz 同步日志表

img

--1、学生数据源表
-- Create table
create table T_STUDENT_KETTLE
(
  id     INTEGER,
  name   VARCHAR2(2000),
  sex    VARCHAR2(2000),
  age    INTEGER,
  cjsj   DATE,
  zhgxsj DATE default sysdate
)
tablespace MYSPACE
  pctfree 10
  initrans 1
  maxtrans 255
  storage
  (
    initial 64K
    next 1M
    minextents 1
    maxextents unlimited
  );

--学生目标数据表
-- Create table
create table T_STUDENT_KETTLE_TARGET
(
  id     INTEGER,
  name   VARCHAR2(2000),
  sex    VARCHAR2(2000),
  age    INTEGER,
  cjsj   DATE,
  zhgxsj DATE default sysdate
)
tablespace MYSPACE
  pctfree 10
  initrans 1
  maxtrans 255
  storage
  (
    initial 64K
    next 1M
    minextents 1
    maxextents unlimited
  );

--班级数据源表
-- Create table
create table T_CLASS
(
  id     NUMBER,
  class  VARCHAR2(100),
  cjsj   DATE,
  zhgxsj DATE
)
tablespace MYSPACE
  pctfree 10
  initrans 1
  maxtrans 255
  storage
  (
    initial 64K
    next 1M
    minextents 1
    maxextents unlimited
  );

--班级目标数据表
-- Create table
create table T_CLASS_TARGET
(
  id     NUMBER,
  class  VARCHAR2(100),
  cjsj   DATE,
  zhgxsj DATE
)
tablespace MYSPACE
  pctfree 10
  initrans 1
  maxtrans 255
  storage
  (
    initial 64K
    next 1M
    minextents 1
    maxextents unlimited
  );
  -- 同步日志表-- 
  Create tablecreate table T_TBRZ(  id     NUMBER,  --id  tbcgsj DATE,    --同步成功时间(结束时间)  tbkssj DATE,    --同步开始时间  bm     VARCHAR2(100),   --同步表名  tbjg   CHAR(1)   --同步结果:1-成功;2-未成功)tablespace MYSPACE  pctfree 10  initrans 1  maxtrans 255  storage  (    initial 64K    next 1M    minextents 1    maxextents unlimited  );--创建同步日志表的序列create sequence SEQ_T_TBRZminvalue 1maxvalue 999999999start with 81increment by 1cache 20;

img

2、配置数据库连接地址,一般项目上会通过配置jndi数据源直接连接数据库,不在配置jdbc数据源了,有点类似于java的配置

img

3、设置数据库连接,通过JNDI方式

img

4、作业整体流程

img

需要用到1个作业和6个转换来操作2张表,一个表是3个转换来完成,几张表总共的转换就是N*3个转换。

下图为整个作业的流程:

img

由上面流程图可以看到,start分了两个分支,一个是class表,一个是student表,下面我们来一一点开每个转换看下。

1)T_CLASS数据变量设置

img

如上图,T_CLASS数据变量设置,该步骤是获取上次同步的成功时间,做为下次同步的开始时间,并设置到环境变量中,供后续的数据流调用

2)T_CLASS数据变量设置

img

img

如上图,T_CLASS数据更新步骤,该步骤是获取上次同步的成功时间之后的数据,插入更新到表中。

3)T_CLASS保存同步日志

img

img

如上图,T_CLASS保存同步日志,该步骤是保存本次同步的同步成功时间,插入到同步日志表中,为下次同步的开始时间做准备,具体sql如下

img

View Code

3)T_CLASS同步成功

img

如上图,T_CLASS同步步骤成功后,写入该成功步骤,提示成功。

5、T_STUDENT_KETTLE表的数据同步工作,如同T_CLASS表一样,存在3个转换步骤

img

5、运行转换,双击start,设置作业定时调度,设置完成后,运行转换

img

img

6、运行结果,运行成功和运行失败有不同的结果展示,可以根据此结果进行错误排除

img

注意:因某些限制,最新源代码和后续通用配置实现数据抽取 已放置在笔者公众号上,请关注微信公众号: 【JAVA大师】, 回复关键字:【实例】,获取kettle安装程序和运行实例(表结构和kjb、ktr文件)


全部评论: 0

    我有话说: