工作职责:
1、负责ETL流程的设计、开发和部署,特别是海量日志的处理、分析和挖掘。
2、负责数据采集和接入数据湖,开展业务数据质量探查。
3、参与数据需求分析,参与数据仓库的模型建设、维护和迁移。
4、协助运维工程师进行ETL线上任务的优化和运维。
任职要求:
1、熟悉ETL开发过程和规范,有ETL Mapping文档编写经验;
2.、精通Hive SQL、Spark SQL以及性能调优,熟悉Java、Python、Scala任意一门高级编程语言;
4、掌握Hadoop、Spark、Hive、Presto、Kafka等相关大数据技术,具备1年以上Spark ETL任务开发经验;
5、至少熟悉一种任务调度工具,如Airflow、Azkaban等;熟悉数据仓库理论,熟悉维度建模;
7、熟悉Oracle、MySQL或Redshift等关系型数据库;
8、有阿里云Maxcompute、Dataworks、Hologres使用经验者优先;
9、有Spark Streaming、Flink实时数据处理经验者优先;