分享
定制
求職意向
spark研發(fā)工程師 ?全職 ?北京 ?15K-20K 1周內(nèi)到崗
教育背景
2008.9-2012.7 中山大學(xué) 通信工程
職業(yè)技能
熟練掌握Scala語言,熟悉函數(shù)式編程,熟悉Java面向?qū)ο缶幊蹋?/p>
理解Spark工作機(jī)制,熟練掌握Spark任務(wù)的執(zhí)行流程,熟練使用Spark Core算子;
掌握Spark Streaming的流式處理技術(shù),對流式數(shù)據(jù)在線處理分析以及對出現(xiàn)的問題進(jìn)行排查,性能調(diào)優(yōu);
掌握利用Spark SQL進(jìn)行數(shù)據(jù)處理、查詢、統(tǒng)計,擁有一定SparkSQL調(diào)優(yōu)經(jīng)驗;
理解Hadoop的分布式文件系統(tǒng)HDFS,Yarn資源調(diào)度機(jī)制,掌握MapReduce原理及Job提交流程,實現(xiàn)編碼;
熟悉Hive的工作原理,了解數(shù)據(jù)倉庫建立,完成對數(shù)據(jù)主題抽取和多維分析,具有一定Hive調(diào)優(yōu)經(jīng)驗;
熟練使用Redis內(nèi)存數(shù)據(jù)庫,分布式列式存儲數(shù)據(jù)庫HBase及MySQL數(shù)據(jù)庫;
熟練使用Sqoop工具,實現(xiàn)非關(guān)系型數(shù)據(jù)庫與關(guān)系型數(shù)據(jù)庫表數(shù)據(jù)互導(dǎo);
掌握Flume數(shù)據(jù)采集工具的原理,實現(xiàn)流式數(shù)據(jù)的過濾和分析,自定義Source實現(xiàn)日志采集過程中的偏移量維護(hù);
熟悉分布式消息系統(tǒng)Kafka集群搭建,熟練使用Kafka直連方式實現(xiàn)消費數(shù)據(jù)偏移量的手動維護(hù)和校驗;
熟悉分布式協(xié)調(diào)系統(tǒng)Zookeeper集群搭建,了解Zookeeper的主從選舉機(jī)制(paxos)
熟悉Linux基本操作,以及Shell腳本編寫;
熟悉HTML、XML、JavaScript、jQuery、Bootstrap、E-charts等前端技術(shù);
熟悉MyBatis 、Spring、SpringMVC等后端開源框架;
熟練使用Git、Maven等項目版本管理及項目構(gòu)建工具;
熟練閱讀英文技術(shù)文檔;
實習(xí)經(jīng)歷
2015.9-2016.2
Arecy LLC
數(shù)據(jù)分析實習(xí)
參與項目需求分析,協(xié)助制定方案; 與客戶商討,幫助客戶理解項目,給出建議; 維護(hù)核心用戶群; 做一些簡單的數(shù)據(jù)統(tǒng)計分析工作。
工作經(jīng)歷
2016.3-2016.7
StupidVideos
大數(shù)據(jù)開發(fā)工程師
2016.9-2017.5
SWARM Digital Agency
數(shù)據(jù)開發(fā)
2017.6-2017.12
河南省聚思信息科技有限公司
spark開發(fā)工程師
項目經(jīng)驗
2016.4-2016.7
優(yōu)質(zhì)內(nèi)容分析系統(tǒng)
研發(fā)人員
項目描述:提取公司產(chǎn)品視頻平臺上視頻的單日播放日志數(shù)據(jù),根據(jù)業(yè)務(wù)需求,制定日志數(shù)據(jù)的采集策略,完成日志中無效數(shù)據(jù)預(yù)處理,實現(xiàn)分析數(shù)據(jù)和HDFS分布式文件系統(tǒng)的無縫對接。將處理后的日志數(shù)據(jù)導(dǎo)入Hive數(shù)據(jù)倉庫,利用HQL進(jìn)行離線數(shù)據(jù)的統(tǒng)計和分析,完成優(yōu)質(zhì)內(nèi)容判定,實現(xiàn)傳統(tǒng)優(yōu)質(zhì)內(nèi)容隨機(jī)推薦和熱門推薦。
軟件架構(gòu): Flume+HDFS+MapReduce+Yarn+Hive+Sqoop+MySQL
項目職責(zé): 參與產(chǎn)品需求分析,技術(shù)方案選型
數(shù)據(jù)處理:
Flume日志數(shù)據(jù)采集, Json數(shù)據(jù)解析;
MapReduce數(shù)據(jù)清洗、有效數(shù)據(jù)過濾、HDFS分布式文件系統(tǒng)存儲
Hive指標(biāo)統(tǒng)計及報表生成
Sqoop報表導(dǎo)出與Mysql數(shù)據(jù)導(dǎo)入
Shell腳本編程及自動化部署
數(shù)據(jù)分析:
離線報表:
視頻單日播放總量、視頻單日播放排名統(tǒng)計
視頻單日評論數(shù),視頻歷史總評論數(shù)統(tǒng)計
視頻單日得分,視頻歷史總得分統(tǒng)計
2016.10-2017.5
游戲日志分析平臺
研發(fā)人員
項目描述:為了更好地實現(xiàn)游戲推廣策略,優(yōu)化游戲玩家體驗,為游戲產(chǎn)品的運營和研發(fā)等提供數(shù)據(jù)參考, 游戲服務(wù)器會對觸發(fā)重要事件的用戶行為進(jìn)行埋點并記錄日志。通過對產(chǎn)生的大量日志數(shù)據(jù)進(jìn)行離線分析和 在線處理從而實現(xiàn)用戶行為的多維度指標(biāo)統(tǒng)計。該項目基于游戲日志,主要統(tǒng)計指標(biāo)有新增玩家,活躍玩 家,玩家留存率,玩家流失率,游戲平均時長,游戲頻次,充值數(shù)據(jù)。
軟件架構(gòu): Flume+Kafka+HDFS+ Spark Core +Spark SQL+ Yarn + Spark Streaming+Redis+MySQL
項目職責(zé):
數(shù)據(jù)采集: 自定義Flume組件遞歸從以日期格式命名的日志目錄中采集游戲日志文件至Kafka集群;
數(shù)據(jù)處理: 拉取Kafka中預(yù)消費數(shù)據(jù),完成數(shù)據(jù)清洗,過濾有效數(shù)據(jù);
數(shù)據(jù)分析:
1、離線分析:
DAU/WAU/MAU等離線指標(biāo)統(tǒng)計,生成玩家總體粘度分析報表;
渠道分析、媒體分析、自然流量分析等,優(yōu)化游戲廣告投放策略;
新增用戶、活躍用戶、玩家留存率、累計用戶等離線指標(biāo)統(tǒng)計,改進(jìn)產(chǎn)品運營策略;
2、在線報表:
收入金額、充值人次、各地區(qū)收入、各渠道收、分性別收入、各年齡段收入等實時監(jiān)控運營情況;
系統(tǒng)特色:
? 自定義Flume Source實現(xiàn)項目中日志文件遞歸監(jiān)控和采集;
? Spark Streaming直連Kafka手動維護(hù)并校驗偏移量避免數(shù)據(jù)重復(fù)消費;
2017.6-2017.12
精準(zhǔn)廣告推送系統(tǒng)
研發(fā)人員
項目描述:結(jié)合現(xiàn)有的視頻搜索引擎、視頻觀看界面和個性化應(yīng)用設(shè)置以及用戶歷史數(shù)據(jù)信息,追蹤、研究 用戶偏好,通過技術(shù)手段獲取、挖掘用戶上網(wǎng)行為、瀏覽習(xí)慣。結(jié)合DSP廣告投放引擎日志數(shù)據(jù),構(gòu)建 DMP(Data-Management Platform),將分散的多方數(shù)據(jù)進(jìn)行整合納入統(tǒng)一的技術(shù)平臺,對用戶數(shù)據(jù)進(jìn)行 標(biāo)準(zhǔn)化和細(xì)分,最終實現(xiàn)標(biāo)簽化管理,為實現(xiàn)廣告精準(zhǔn)投放提供數(shù)據(jù)支持。在自有視頻平臺進(jìn)行廣告投放的 基礎(chǔ)上,參與其他交易平臺廣告實時競價與投放,充分實現(xiàn)數(shù)據(jù)的商業(yè)價值。
軟件架構(gòu):Flume+Kafka+Zookeeper+Spark SQL/Core+Spark Streaming+Spark GraphX +HDFS+HBase+Redis
項目職責(zé):
數(shù)據(jù)采集: 自定義Flume組件采集Redis溢寫到磁盤上的日志文件至Kafka/HDFS集群;
數(shù)據(jù)處理: 日志數(shù)據(jù)切分、封裝,完成數(shù)據(jù)清洗,過濾有效數(shù)據(jù)
數(shù)據(jù)分析:
1、離線分析:
地域分析、終端設(shè)備分析、渠道分析、媒體分析等多維度統(tǒng)計廣告投放情況;
用戶畫像及用戶數(shù)據(jù)標(biāo)簽化, APP標(biāo)簽,商圈標(biāo)簽,關(guān)鍵字標(biāo)簽等,構(gòu)建、完善公司知識庫;
Spark GraphX圖計算完成統(tǒng)一用戶識別及上下文標(biāo)簽合并,實現(xiàn)用戶標(biāo)簽歸一化;
HBase存儲用戶當(dāng)日及歷史標(biāo)簽數(shù)據(jù),實現(xiàn)用戶特征權(quán)重值衰減;
用戶歷史標(biāo)簽數(shù)據(jù)導(dǎo)出HBase及ElasticSearch數(shù)據(jù)導(dǎo)入,為廣告投放引擎提供檢索數(shù)據(jù);
2、在線報表:
廣告展示量、點擊量、點擊率、參與競價數(shù)、競價成功數(shù)、廣告消費等報表生成;
Redis存儲及前端可視化展示;
系統(tǒng)特色:
? 自定義Flume組件TailFileSource實現(xiàn)日志文件Offset記錄及斷點續(xù)傳;
? Spark Streaming直連Kafka手動維護(hù)偏移量并校驗偏移量避免數(shù)據(jù)重復(fù)消費;
? 數(shù)據(jù)清洗完畢采用KryoSerializer壓縮體量更小傳輸更快速;
? 離線數(shù)據(jù)轉(zhuǎn)Parquet列式存儲降低IO負(fù)載,提高掃描性能;
? GeoHash結(jié)合百度逆地理位置編碼,明確用戶活躍商圈范圍;
? Spark GraphX圖計算提高用戶統(tǒng)一識別及上下文標(biāo)簽合并精確度;
自我評價
認(rèn)真細(xì)致,可以靜的下心專心做事。責(zé)任心較強(qiáng),對于布置下來的任務(wù)認(rèn)真對待。
比較善于溝通,時刻注重 學(xué)習(xí),具有較強(qiáng)的學(xué)習(xí)能力與團(tuán)隊精神。
工作踏實,能很快的適應(yīng)新的工作環(huán)境,工作勤奮,能吃苦耐勞,抗壓能力強(qiáng) 。 熱愛學(xué)習(xí)與分享,喜歡研究新事物,愛好讀書游戲游泳。
【使用錘子簡歷小程序制作簡歷】
零經(jīng)驗實習(xí)簡歷模板
21254人用過
學(xué)生求職簡歷模板
52754人用過
申請研究生簡歷模板
2324人用過
經(jīng)典工作簡歷模板
6254人用過
投行咨詢簡歷模板
12465人用過
產(chǎn)品經(jīng)理簡歷模板
7532人用過
程序員簡歷模板
7457人用過
留學(xué)英文簡歷模板
4554人用過