工作职责:
1.负责数据需求分析,数据仓库的模型设计和搭建。
2.负责ETL流程的设计、开发和部署,特别是海量日志的处理、分析和挖掘。
3.负责数仓迁移脚本梳理。
4.负责数据采集和接入数据湖,开展业务数据质量探查。
5.协助运维工程师进行ETL线上任务的优化和运维。
任职要求:
1. 熟悉ETL开发过程和规范,至少熟悉一种调度工具(如Airflow);
2. 熟悉数据仓库理论,熟悉维度建模,至少具有2年大型数据仓库开发经验;
3. 精通SQL;熟悉Java、Python、Scala任意一门高级编程语言
4. 掌握Hadoop、Spark、Hive、Presto、Kafka等相关大数据技术,具备1年以上Spark ETL任务开发经验;
5. 熟悉Oracle、MySQL或Redshift等关系型数据库;
6. 有AWS,阿里云使用经验者优先;
7. 有Spark Streaming、Flink实时数据处理经验者优先;