Sung is available for hire

Sung Jun (Andrew) Kim

Verified Expert in Engineering

Big Data Developer

Location

悉尼，新南威尔士，澳大利亚

Toptal Member Since

June 18, 2020

作为一名拥有20多年经验的高效技术领导者, Andrew专门研究数据:集成, conversion, engineering, analytics, visualization, science, ETL, big data architecture, analytics platforms, and cloud architecture. 他拥有构建数据平台的一系列技能, analytic consulting, trend monitoring, data modeling, data governance, and machine learning.

Portfolio

Med Tech Solutions

Microsoft Power BI, Azure SQL, Azure Data Factory, Azure Synapse, api...

Shippo

Amazon Web Services (AWS)、Amazon Athena、AWS Glue、Apache Airflow、Spark...

Verizon

Spark, Scala, Phoenix, HBase, Hadoop

Experience

Big Data - 19 years 微软Power BI - 15年数据可视化- 15年 ETL - 15 years Databricks - 5 years Spark - 5 years 数据仓库设计- 5年 Azure数据工厂——4年

Availability

Full-time

Preferred Environment

Informatica, SQL, PySpark, Spark, Hadoop，数据可视化，数据仓库设计

The most amazing...

...我编写的是一个数据摄取和转换算法，用于分解和规范化非常复杂的多层次数据结构.

Work Experience

Data Engineer

2021 - PRESENT

Med Tech Solutions

对来自多个数据源的系统资源进行管理数据仓库建模, including MySQL, Azure SQL, and APIs.
使用Azure数据栈进行数据摄取和转换, including Data Factory, Synapse, Databricks, SQL, and Elasticsearch.
创建多个Power BI分页报告、Power BI报告和仪表板.

技术:Microsoft Power BI, Azure SQL, Azure Data Factory, Azure Synapse, api, Snowflake, Data Build Tool (dbt), Azure Databricks

Senior Data Engineer

2022 - 2022

Shippo

设计和开发数据管道以获取运输数据, transform, and aggregate using S3, AWS Glue, Spark (PySpark), S3, Athena, and Postgres.
使用气流开发端到端数据管道工作流.
为端到端数据平台、管道和存储创建了端到端架构设计.

技术:亚马逊网络服务(AWS)、Amazon Athena、AWS Glue、Apache Airflow、Spark, Spark SQL, Docker, PostgreSQL 9, Data Build Tool (dbt)

Big Data Engineer

2020 - 2021

Verizon

处理Hadoop、HBase集群、Phoenix、Spark崩溃等故障.
回顾Spark (Scala)代码以提高性能和优化.
查看Spark、Hbase和Phonex服务器配置.
推荐正确的配置和Scala代码更改，以防止服务器崩溃和最佳性能.

技术:Spark, Scala, Phoenix, HBase, Hadoop

首席数据架构师|数据工程师

2020 - 2021

ImportGenius

利用Informatica PowerCenter和BDM流程设计了一个庞大的全球贸易数据管道的整个ETL/ELT.
摄取十年全球贸易数据大数据(10tb以上), 使用AWS S3进行解析和转换, Glue, Spark (PySpark), and Athena.
摄取S3数据并将其转换为AWS Elasticsearch.
优化了Glue和Spark性能以及AWS Elasticsearch.

技术:Elasticsearch, PySpark, Spark, Amazon Athena, AWS Glue, Amazon S3 (AWS S3), ELK (Elastic Stack), Informatica ETL

Data Engineer

2020 - 2020

Recko

使用Kafka设计并实现了从PostgresSQL和MySQL到S3的CDC管道, Kafka Connect, Debezium, NiFi, and Python.
设计开发Lambda函数, 它从S3事件中摄取有效负载并将有效负载数据转换为可读的审计数据，然后以parquet格式写入S3. 然后，为外部模式和外部表创建Glue数据目录.
创建了AWS Glue PySpark、工作流和触发器，用于从S3摄取和转换数据到Redshift. 设计了一个Redshift表和模式.
设置并配置Kafka、Debezium和Kafka Connect服务器配置.
使用SQL Windows函数为ELT过程中的最新数据编写SQL查询.
建立ELK堆栈，包括Logstach, Filebeat和Kibana. 使用Logstash和API创建ELK索引并将事务数据摄取到ELK索引中.

Technologies: Python 3, Debezium, Apache Kafka, PySpark, Apache NiFi, PostgreSQL, AWS Lambda, Redshift, AWS Glue, Amazon S3 (AWS S3)

Data Engineer

2020 - 2020

Dermalogica Unilever

使用SQL和SSIS创建从JDE ERP系统到数据仓库的ETL.
设计DW数据模型.
创建从不同系统到DW的批处理SQL.
创建Power BI数据模型.
在Power BI和Power Pivot中编写复杂的DAX函数.
使用M-Query转换数据.
为顾问创建销售/收入和现场服务仪表板.
实现YTD, QTD和其他视觉效果.

技术:Azure SQL, Microsoft Power BI

Data Engineer

2019 - 2020

10th Man Media

设计并实现从各种社交媒体到Azure平台的数据摄取和转换框架. 使用API提取社交媒体数据，然后使用ADF将其纳入数据湖.
使用涉及时间序列趋势的PyParks创建复杂的数据转换逻辑, aggregation, 和时间窗口比较. 数据被移动到下游的Azure数据仓库，以实现Power BI数据可视化.
使用Azure Data产品设计了从上游到下游的整个管道.

技术:Azure Blob存储API, Azure Data Lake, Data Warehouse Design, Data Warehousing, SQL, Databricks, Azure Data Factory, Azure

大数据架构师|首席数据工程师

2019 - 2019

TechMahindra/Optus

领导Optus旗下的大数据架构和工程, 开发概念验证(POC), architecture design, drive analytics, 并按照预期管理技术项目的交付.
领导使用Informatica PowerCenter从Teradata到Cloudera的传统数据仓库迁移项目, Informatica BDM, Scala, Hive, HDFS, Impala, Elastic Stack, Splunk, DevOps, and CI/CD.
将Cloudera数据平台的数据和代码迁移到AWS和Azure平台.

技术:Teradata, Informatica, HBase, Apache Hive, Spark, Hadoop, Big Data

首席大数据架构师|首席数据工程师

2018 - 2019

Cognizant/Westpac

领导由数据工程师/开发人员组成的大数据团队，使用敏捷Scrum交付实时和批量数据处理项目.
设计并交付了一个元数据驱动的数据摄取框架，该框架将来自Westpac各种数据源的数据摄取到Westpac data Hub (HDFS).
Integrated, transformed, 发布了元数据驱动的数据摄取框架，目标源包括Kafka, RDBMS (Teradata, Oracle, and SQL Server) and SFTP, and more.
常用Python、Spark、Spark SQL、Hadoop、HDFS、Hive、Hbase、Kafka、NIFI、Atlas.
领导CCR项目，从客户评级局(包括Equifax)获取数据, Illion, and Experian.
使用PySpark设计了整个XML爆炸模式，涉及多层次的XML爆炸和HDFS平台上规范化的表创建, Hive, Spark SQL, and Hbase.
创建了整个下游概念, logical, 以及下游用户(包括信用风险分析师和数据科学家)的物理数据模型.

Technologies: Hadoop, Spark SQL, PySpark, Python, Microsoft SQL Server, Oracle, Teradata, RDBMS, Apache Kafka, Foundry

分析主管|数据架构师

2009 - 2018

OneGov，财政部 & 服务与创新，新南威尔士州政府，悉尼，澳大利亚

管理8名BI/ETL开发人员组成的BI团队，并负责OneGov的整个分析, 数据科学和大数据项目以及新南威尔士州一些大型政府机构的BAU活动，包括DAC(数据分析中心), Service NSW, RMS, Fair Trading, NSW Health, etc. 与产品负责人密切合作, scrum master, developers, BA, architects, support team, 外部代理用户和其他涉众随后成功交付了许多关键的分析项目.
交付整个分析平台, applications, data visualization, prediction model, 和ETL流程从无到有，并通过采用新技术和新工艺不断增强系统. 使用SSIS(2016)开发ETL流程，该流程集成了来自SQL Server 2016等数据源的数据, Siebel CRM, 网站通过api和平面文件(CSV/XLSX/XLS/XML/JSON). 负责ETL的日常更新和持续维护. 同时负责SQL Server数据库调优, upgrade, query optimization, 还有索引维护. 为KPI和管理报告构建SSAS多维数据集. 还为高管构建了许多仪表板和报告, 管理人员和操作人员使用Power BI, DOMO, Tableau, and OBIEE.
使用Logistic回归建立了许可证续订提醒活动的预测模型, 基于无监督学习技术(K-Means聚类)的加油站分组模型. 参与了其他几个机器学习项目，包括新南威尔士州的CTP和燃料定价，使用了Hortonworks Hadoop平台上的各种ML库.
为部长们创建了一个仪表盘来监控燃油价格的更新, compliance, 使用Power BI和DOMO分析价格趋势. 使用Python分析复杂的实时和历史燃料价格, Spark (PySpark), and Hive. 使用NLP/数据挖掘技术和R编程分析客户反馈.
为数据科学家和学者构建HDP (Hadoop集群)和HDF (NIFI)集群，用于他们的大数据分析和预测模型构建. 使用Spark ETL框架程序从AWS EMR/S3/Redshift中摄取公共和机密数据到本地Hadoop, Glue and NIFI. 为数据科学家和工程师提供数据摄取等大数据技术的咨询服务.
利用Spark开发从各种数据源到Hive的数据摄取流, NIFI, HDFS, 和Sqoop在近实时的基础上服务新南威尔士州OTC. 管理整个Hadoop集群，包括日常服务器维护和每日增量数据摄取. Power BI用于数据可视化.

技术:亚马逊网络服务(AWS), PySpark, R, Python, Superset, 系统顾问模型(SAM), Apache Hive, NiFi, HDF, Cluster, Hadoop, Informatica, Oracle商业智能企业版11g (OBIEE), Oracle, Azure, Microsoft Power BI, SQL Server报表服务(SSRS), SQL Server集成服务(SSIS), SSAS, SQL

CRM Lead | BI Lead

2007 - 2008

IBM全球业务服务

交付核心案例管理系统, 内部/外部系统的集成服务, 并升级了拘留门户系统.
带领6人顾问团队，负责主要案例管理模块的实施.
处理资源管理，任务分配和进度管理.
编写技术和集成规范.
配置各种Siebel公共部门案例管理.
创建到部门的SOA集成接口.
实现Oracle商业智能企业版.
提供统一的边境安全、案件管理和国家安全拘留系统. 该系统涉及一个复杂的过程，从边境入境到发放签证.
对1月26日移民及公民部部长颁发的团队有贡献, 2010年“2010年澳大利亚国庆日秘书表彰”，以表彰该服务提供门户网站在人民合规系统内的运作, 案件管理和拘留释放.”.

技术:Siebel CRM, Oracle商业智能应用(OBIA)

Program Manager (BI/CRM)

2004 - 2008

Samsung

设计并实施CRM和分析.
创建了应用程序标准、接口和配置框架以及开发指南.
Integrated Siebel.
使用SQL和其他ETL工具转换数据.
执行技术需求分析、配置和报告创建.
安装和配置OBIEE.
已安装和配置的数据仓库，包括环境设置, DAC, 信息ETL修改, data model change, performance tuning, and optimization.
设计系统架构和硬件尺寸.
作为商业智能和客户关系管理专家，提供各种内部技术和业务咨询.
管理团队并指导初级团队成员.

技术:SQL Server集成服务(SSIS), Informatica, Microsoft SQL Server, Siebel CRM, Oracle商业智能应用(OBIA)

高级首席顾问

2000 - 2004

Oracle (Siebel)

在亚太地区与领先的跨国客户和合作伙伴一起参与多个希柏CRM/分析项目. 提供各种技术, system design, 业务需求分析, 并为合作伙伴和客户提供项目管理服务. 这包括技术系统架构师的设计和实现, 企业应用程序集成, project management, 以及应用程序配置. 参与对RFP和RFI的响应, 撰写咨询建议, supported pre-sales, resource planning, 辅导初级顾问, team lead, practice development, 以及咨询任务的管理和操作程序.

技术:Oracle商业智能应用(OBIA)， Siebel CRM

Lead DBA

1998 - 2000

SIEMENS

处理过的数据库管理, administration, 数据转换和迁移, SQL和数据库引擎的转向以及新数据库的优化和发布.

技术:Sybase, Microsoft SQL Server

Senior Development DBA

1997 - 1999

银行家信托基金管理公司

成功交付了多个项目, 包括单位信托系统数据库从SQLBase到Microsoft SQL Server的转换, 投资产品营销数据集市/仓库ET, 以及Web数据仓库报告项目.
开发了一个Informatica-ETL工作流来提取和加载一些dw.
创建了基于星型模式的基金管理数据仓库和数据集市.

技术:Informatica, Oracle, Sybase, Microsoft SQL Server, ETL

Senior Systems Developer

1995 - 1997

Colonial Insurance

主持各种系统分析, design, data modeling, programming, 以及测试以及内部技术和外部咨询和支持. 这个角色还包括分析, design, implementation, 并支持两个关键任务系统:UPMS(单价管理系统)和New Business 400系统.

技术:Sybase, Microsoft SQL Server, c++

高级系统分析师/程序员

1995 - 1995

澳大利亚储备银行

在设计中担任系统分析师/程序员, 为澳大利亚中央银行开发和实施各种银行应用程序和自动资金转账系统.
监督开发过程，管理各种内部和外部系统的集成, 报告流程和应用程序，以简化外部和内部报告活动.

Technologies: C++

Experience

Optus Big Data Project

Optus遗留数据仓库迁移项目的首席大数据架构师，该项目将数据从遗留Teradata迁移到Cloudera大数据平台，并使用Informatica BDM设计了数据摄取/转换框架, Scala, and DevOps.

西太平洋银行大数据平台

在西太平洋银行的大数据平台和综合征信项目中担任首席方案架构师和首席工程师. 我还领导了一个由数据工程师和解决方案工程师组成的团队. 我的贡献还包括创建一个通过AWS数据栈(S3)交付的数据平台解决方案, Glue, Lambda)和Palantir Foundry.

新南威尔士州政府的分析平台建设

成功交付屡获殊荣的新南威尔士州政府内部和云大数据, data science, 以及商业智能项目的首席数据架构师.

Education

1993 - 1996

计算机科学硕士学位

悉尼科技大学(UTS) -澳大利亚悉尼

1990 - 1993

信息与通信系统专业学士学位

麦考瑞大学-悉尼，澳大利亚

Certifications

OCTOBER 2021 - PRESENT

微软认证Azure数据工程师助理

Microsoft

JUNE 2021 - PRESENT

TOGAF认证企业架构师

The Open Group

MARCH 2020 - MARCH 2023

AWS认证数据分析-专业

AWS

MARCH 2004 - PRESENT

PMP

PMI

MARCH 1999 - PRESENT

Microsoft Certified DBA

Microsoft

JANUARY 1998 - PRESENT

Oracle Certified DBA

Oracle

Skills

Libraries/APIs

Node.. js、Flask-RESTful、PySpark、MLlib、TensorFlow、Stanford NLP、Ggplot2、React、Azure Blob存储API

Tools

ELK (Elastic Stack), Kibana, Logstash, cURL Command Line Tool, Dplyr, Superset, Solr, Apache Sqoop, Impala, Cloudera, SSAS, Domo, Oracle商业智能企业版11g (OBIEE), Microsoft Power BI, Tableau, Amazon Athena, AWS Glue, Azure HDInsight, Spark SQL, Oracle商业智能应用(OBIA), Siebel CRM, Cluster, Apache NiFi, Synapse, Apache Airflow, Informatica ETL

Frameworks

Angular, Hadoop, Spark, YARN, Flutter, React Native, Redux, Phoenix, TOGAF

Languages

Scala, Python 2, Python, R, JavaScript, Visual Basic for Applications (VBA), SQL, C++, Python 3, Snowflake

Paradigms

ETL，数据科学，OLAP，系统顾问模型(SAM)

Platforms

Firebase, Amazon Web Services (AWS), Azure, RStudio, Apache Kafka, Hortonworks数据平台(HDP), Oracle, Databricks, Android, iOS, AWS Lambda, Azure Synapse, Docker

Storage

Oracle RDBMS, Elasticsearch, HDFS, Apache Hive, Essbase, PostgreSQL, MySQL, Teradata, Microsoft SQL Server, Redshift, Amazon DynamoDB, Amazon S3 (AWS S3), Azure Blobs, HBase, RDBMS, SQL Server集成服务(SSIS), Sybase, SQL Server报表服务(SSRS), Azure SQL

Other

APIs, Big Data, Data Visualization, Filebeat, 微软数据转换服务(现为SSIS), Informatica, Engineering, Schemas, Ranger, NiFi, DAX, Data Warehouse Design, Software Development, Freelancing, Palantir, React Native Bridge, Foundry, HDF, Debezium, Data Warehousing, Azure Data Lake, Computer Science, Information Systems, Azure Data Factory, Microsoft Azure, Enterprise Architecture, Solution Architecture, PostgreSQL 9, Analytics, Data Build Tool (dbt), Azure Databricks

Collaboration That Works

How to Work with Toptal

在数小时内，而不是数周或数月，我们的网络将为您直接匹配全球行业专家.

Share your needs

在与Toptal领域专家的电话中讨论您的需求并细化您的范围.

Choose your talent

在24小时内获得专业匹配人才的简短列表，以进行审查，面试和选择.

开始你的无风险人才试验

与你选择的人才一起工作，试用最多两周. 只有当你决定雇佣他们时才付钱.

对顶尖人才的需求很大.

Start hiring