data-hub v1.0-SNAPSHOT

用SQL的方式实现离线多数据源混合计算和互导！

data-hub是什么？

data-hub是一个能接入多种数据源，使用SparkSQL作为通道，最终输出到多数据源的jar包，主要实现：多数据源数据使用SQL的方式进行计算，并将计算结果导入到多种数据源

特点：

简单：按照下文方法简单调用即可使用，如果你有任务调度平台，使用起来同样简单
强大：目前不仅支持在大数据集群中使用，还是支持本地运行，读取结构化数据时支持自定义换行符；目前支持的数据源：jdbc、hive、HBase、hdfs-file、local-file，输出数据源：jdbc、hive、HBASE、file；同时支持spark参数配置
高扩展 ：输入数据源、输出数据源使用插件化代码，只需继承插件父类并实现对应方法即可，无需修改主流程

部署

data-hub的使用非常简单，有多简单呢？你只需要：在执行之前你需要3个简单的步骤：

1、在MySQL数据库中执行ddl.sql文件中的语句，将该MySQL的域名或者ip地址配置到prod.properties文件中，在resources/docker目录下有docker安装数据库的命令，喜欢docker的同学可以尝试

2、打包项目成一个jar包：

mvn clean package -D maven.test.skip=true -P prod

3、将jar包、DATA_HUB.sh服务器的 /home/xxuser/xxx/ 目录下，如果是集群模式则需要放到spark的driver机器上

4、执行以下命令

sh DATA_HUB.sh $task_key $20210514

demo使用

1、执行【部署】过程中的【步骤1】后，在demo.sql文件中有demo演示使用的数据，执行这些insert语句

2、按照【部署】过程的【步骤2】【步骤3】【步骤4】执行，即可看到效果

如果不小心发现了bug，热烈欢迎给项目提交pr，手动笑脸！！！

联系方式

邮箱：[email protected]

Name		Name	Last commit message	Last commit date
Latest commit History 70 Commits
src/main		src/main
LICENSE		LICENSE
README.md		README.md
pom.xml		pom.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

data-hub v1.0-SNAPSHOT

用SQL的方式实现离线多数据源混合计算和互导！

data-hub是什么？

部署

demo使用

联系方式

About

Uh oh!

Releases

Packages

Languages

License

ikki-yang/data-hub

Folders and files

Latest commit

History

Repository files navigation

data-hub v1.0-SNAPSHOT

用SQL的方式实现离线多数据源混合计算和互导！

data-hub是什么？

部署

demo使用

联系方式

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages