分享
定制
項目經(jīng)驗(案例一)
項目時間:2016-03 - 2016-10
項目名稱:旅游日志數(shù)據(jù)分析平臺 | 項目工具:Nginx+Flume+HDFS+MR+Hive+Mysql
項目描述:
項目介紹
該項目是通過手機APP和PC端來產(chǎn)生用戶信息,F(xiàn)lume采集,MR對數(shù)據(jù)進一步清洗,Hive存儲數(shù)據(jù),MR,HQL做離線指標(biāo)的分析,結(jié)果數(shù)據(jù)存入Mysql。通過數(shù)據(jù)展示,了解到產(chǎn)品的優(yōu)劣,宏觀上了解到用戶的喜好,從而對產(chǎn)品功能,頁面進行更好的優(yōu)化,為用戶做出推薦,獲取更大的效益。
我的職責(zé)
1.參與項目指標(biāo)文檔編寫。
2.使用Flume采集日志服務(wù)器數(shù)據(jù)到HDFS。
3.離線指標(biāo):首頁跳失率,來源分析,熱門景區(qū)TopN,景區(qū)熱門酒店TopN。
4.將分析好的數(shù)據(jù)存儲到Mysql關(guān)系型數(shù)據(jù)庫。
5.指標(biāo)維護及相關(guān)性能的優(yōu)化。
項目經(jīng)驗(案例二)
項目時間:2017-06 - 2017-09
項目名稱:網(wǎng)站日志分析系統(tǒng)
項目描述:
項目介紹
我們的日志數(shù)據(jù)來源有2個,一個是IIS日志,一個是trace日志。IIS日志主要用于記錄用戶和搜索引擎對網(wǎng)站的訪問行為。trace日志主要記錄用戶在網(wǎng)站上的操作行為。用戶在網(wǎng)頁上的每次點擊操作都會生成一條日志記錄。
我的工作是利用spark對trace日志進行離線和實時分析。
需求一:商品搜索分析
這主要是分析用戶用戶搜索了哪些產(chǎn)品。
對日志進行處理后取得相應(yīng)字段后,按照vid訪客ID和siteID站點ID對日志記錄進行分組,訪客ID和siteID確定唯一訪客。根據(jù)訪客的操作時間間隔對用戶行為劃分session會話。用戶操作時間間隔在30分鐘以內(nèi)的操作視作一個會話。
首先,對用戶的操作按照操作時間進行排序。對用戶的相鄰兩條操作的間隔時間進行判斷。確定了一個會話以后,取用戶的vid加上操作的開始時間和最后時間作為會話的標(biāo)識,確定一個唯一的會話。
然后對會話進行處理,先把會話展開為單條操作。對單條記錄進行判斷,過濾掉不是產(chǎn)品頁以及不是由搜索得來的產(chǎn)品頁記錄。由產(chǎn)品頁得到productID產(chǎn)品ID,通過數(shù)據(jù)庫的數(shù)據(jù)和產(chǎn)品的productID得到該產(chǎn)品的價格,品類和類目。
最后,將相關(guān)數(shù)據(jù)數(shù)據(jù)導(dǎo)入postgresql數(shù)據(jù)庫中。
需求二:搜索關(guān)鍵詞分析
主要分析用戶對產(chǎn)品搜索的結(jié)果是否滿意。
首先,對用戶操作分會話后,過濾出含有搜索頁面的會話。按照關(guān)鍵詞對用戶操作進行分組。
通過對會話里的搜索關(guān)鍵詞的判斷,得出關(guān)鍵詞在會話中出現(xiàn)的位置及次數(shù)。在對會話里關(guān)鍵詞出現(xiàn)的位置后的記錄進行判斷。取urlref上頁的操作記錄和關(guān)鍵詞的url進行比較,如果相等,證明是搜索之后瀏覽的頁面。得出搜索后的瀏覽頁面次數(shù)和瀏覽的時間長度。
最后將相關(guān)數(shù)據(jù)導(dǎo)入postgersql數(shù)據(jù)庫中。
需求三:用戶商品點擊量實時分析
sparkstreaming有2種接收kafka數(shù)據(jù)的方式。這里我采用了createDirectStream的方式。
首先,獲取offset信息。先從zookeeper上讀取offset信息,如果offset信息不存在或者offset信息過時,從kafka上獲取當(dāng)前最新的offset。根據(jù)offset從kafka上拉取數(shù)據(jù)。
然后,對數(shù)據(jù)進行處理。過濾掉沒有track id訪客ID和不是商品頁記錄的數(shù)據(jù)。然后將處理后的數(shù)據(jù)轉(zhuǎn)換為(x,1)的元組,調(diào)用reducebykey得出用戶的點擊量。
最后,將數(shù)據(jù)導(dǎo)入postgersql數(shù)據(jù)庫中。
我的職責(zé)
1對項目代碼做出相應(yīng)注釋
2對相應(yīng)需求寫出代碼
3對項目代碼進行優(yōu)化
項目經(jīng)驗(案例三)
項目時間:2017-03 - 至今
項目名稱:基于spark的游戲運營分析平臺
項目描述:
項目介紹
為了彌補mapreduce分析計算比較緩慢的缺點,公司對原來的部分用戶分析業(yè)務(wù)模塊往spark方向上遷移。通過搭建新的spark集群對hdfs上的數(shù)據(jù)做基于內(nèi)存的分析、計算,計算效率高了一個量級。分析系統(tǒng)主要有玩家獲取、玩家活躍、玩家留存、玩家習(xí)慣、玩家轉(zhuǎn)化等幾個方面的分析指標(biāo)。通過對這些指標(biāo)的多維度分析,可以得出玩家的行為偏好和游戲的運營情況。以此可以調(diào)整廣告投入策略,達到精準(zhǔn)營銷的目的。同時,能幫助改善游戲體驗,有效提升玩家留存率。
我的職責(zé)
1.參與spark集群搭建與配置
2.根據(jù)需求編寫簡單的scala代碼,利用RDD對清洗好的數(shù)據(jù)進行統(tǒng)計、分析
3.SparkSQL與hive整合,編寫hql以rdd為執(zhí)行引擎分析處理數(shù)據(jù)
4.將統(tǒng)計分析后的數(shù)據(jù)導(dǎo)入mysql
項目經(jīng)驗(案例四)
項目時間:2011-04 - 2012-10
項目名稱:審計項目管理系統(tǒng)
項目描述:
項目介紹
該項目是針對一些會計事務(wù)所做審計的一套系統(tǒng),通過導(dǎo)入其他財務(wù)軟件數(shù)據(jù),進行分析,查看,生成實質(zhì)性底稿,然后實現(xiàn)本地底稿,歸檔文件及數(shù)據(jù)的上傳,通過web管理系統(tǒng)可以很方便對項目的人員派遣,分工,和項目進度監(jiān)控
我的職責(zé)
開發(fā)工具 Eclipse3.6,JDK1.7,weblogic,sqlserver2008,主要負(fù)責(zé)項目功能和業(yè)務(wù)模塊開發(fā),測試,如小組成員任務(wù)分工,代辦事項,底稿評價要點,風(fēng)險導(dǎo)向,項目管理,創(chuàng)建項目,項目列示等;項目管理系統(tǒng)web版負(fù)責(zé)與單機版接口,項目鎖定,項目上傳,及各個模塊的維護和修改
【使用錘子簡歷小程序制作簡歷】
零經(jīng)驗實習(xí)簡歷模板
21254人用過
學(xué)生求職簡歷模板
52754人用過
申請研究生簡歷模板
2324人用過
經(jīng)典工作簡歷模板
6254人用過
投行咨詢簡歷模板
12465人用過
產(chǎn)品經(jīng)理簡歷模板
7532人用過
程序員簡歷模板
7457人用過
留學(xué)英文簡歷模板
4554人用過