求職意向
python爬蟲工程師 北京(支持外派) 薪資面議 隨時到崗
教育背景
2020.x -2020x 錘子簡歷大學(xué) 計算機科學(xué)與技術(shù)
工作經(jīng)驗
2020.x -2020x 錘子簡歷信息技術(shù)有限公司 職位:python爬蟲工程師
工作性質(zhì):負責(zé)數(shù)據(jù)的采集,維護數(shù)據(jù)的持久性,快速定位BUG并解決,以及簡單的后臺實現(xiàn)。
2020.x -2020x 錘子簡歷信息技術(shù)有限公司 職位:python后臺開發(fā)
工作性質(zhì):負責(zé)用Django開發(fā)項目并進行后期維護,更新功能,擴展新技能,快速定位BUG解決。
項目經(jīng)驗
2020.x -2020x 果蔬吧
項目描述:爬取有機會網(wǎng)站的關(guān)鍵字檢索文章,時間,標(biāo)題,文章摘要,存庫。
本職工作:我負責(zé)爬取有機會網(wǎng)站的文章,時間,標(biāo)題,摘要。關(guān)鍵字由產(chǎn)品提供。
項目技術(shù):requests,jieba,nltk,bs4
項目問題
1、5分鐘封一次IP。解決方案:使用IP代理,同時設(shè)置timeout延時時間5秒。
2、頁面設(shè)置反爬陷阱,多次出現(xiàn)下標(biāo)越界錯誤。解決方案:使用log日志查看報錯頁面,解決下標(biāo)問題。
3、文章的摘要部分如何提取。解決方案:由jieba進行分詞,用nltk計算詞頻并排序,隨后提取前100個
關(guān)鍵字并判斷句子中存在的個數(shù),提取句子中關(guān)鍵字個數(shù)最多的句子組成摘要。
團隊協(xié)作:web前端2人,Django后臺1人,MySQL數(shù)據(jù)庫1人,數(shù)據(jù)采集1人
團隊規(guī)模:總參與5人,總開發(fā)時間2個月
2020.x -2020x 保險輿情分析
項目描述:爬取微博,頭條,知乎3大網(wǎng)站的文章,時間,標(biāo)題,評論,對評論情感分析得出輿情走向。
本職工作:我負責(zé)爬取微博,頭條,知乎的文章,時間,標(biāo)題,評論等數(shù)據(jù)為數(shù)據(jù)挖掘的同事提供數(shù)據(jù)
項目技術(shù):requests,re,json,bs4,。
項目問題
1、微博封IP。解決方案:使用代理IP。當(dāng)頁面返回需要驗證碼的時候,邏輯連接代理IP池重新爬取本頁面。
2、頭條評論不全。解決方案:使用fiddler爬取APP頭條拿到所有評論信息。
3、知乎文章分靜態(tài)與動態(tài)。解決方案:根據(jù)if判斷頁面文章是否存在動態(tài)數(shù)據(jù),有則用re提取文章信息。
團隊協(xié)作:web前端2人,Django后臺1人,MySQL數(shù)據(jù)庫1人,數(shù)據(jù)采集1人,數(shù)據(jù)挖掘1人。
團隊規(guī)模:總參與人數(shù)為6人,總開發(fā)時間3個月。
2020.x -2020x APP音樂吧
項目描述:對網(wǎng)易云音樂爬取,用于APP應(yīng)用中個人中心可以自動設(shè)置的背景音樂。
本職工作:我負責(zé)對網(wǎng)易云音樂進行數(shù)據(jù)抓取,爬取音樂制作人,演唱者,標(biāo)題,音頻數(shù)據(jù)。
項目技術(shù):requests,bs4,urllib,json ,AES
項目問題
1、發(fā)現(xiàn)頁面請求的參數(shù)是加密。解決方案:利用fiddler抓包對js的監(jiān)控,發(fā)現(xiàn),參數(shù)在js中經(jīng)過了base64與
Cipher中的AES雙層加密。通過逆推,將加密過程成功解密,得到原有參數(shù)。
團隊協(xié)作:web前端2人,Django后臺1人,MySQL數(shù)據(jù)庫1人,數(shù)據(jù)采集1人
團隊規(guī)模:總參與5人,總開發(fā)時間4個月
2020.x -2020x app電商鏈接
項目描述:建造一個第三方應(yīng)用,主要是為了配合公司產(chǎn)品進行電商消費功能。
本職工作:我負責(zé)對天貓進行關(guān)鍵字爬取,將詳情頁的價格,數(shù)量,點贊數(shù),總銷量等相關(guān)信息采集。
項目技術(shù):requests,bs4
項目問題
1、數(shù)據(jù)源分散。解決方案:仔細研究發(fā)現(xiàn),整體數(shù)據(jù)分靜態(tài)與動態(tài)ajax加載而來。需要從ajax與原頁面
2個部分一塊去爬取。
2、不同關(guān)鍵字的頁面結(jié)構(gòu)不同。解決方案:設(shè)置通用爬蟲,并定期維護抓取,將爬蟲完善。
團隊協(xié)作:web前端5人,Django后臺1人,MySQL數(shù)據(jù)庫1人,數(shù)據(jù)采集2人
團隊規(guī)模:總參與9人,總開發(fā)時間4個月
2020.x -2020x APP電子書商城
項目描述:對頂點網(wǎng)站進行全站爬取所有小說,時間,作者。用于APP端電子書城。
本職工作:我負責(zé)對頂點小說進行全站爬取。
項目技術(shù):scrapy框架,Redis去重,分布式爬取。
項目問題
1、如何做到增量爬取,連載小說實時更新。解決方案:首先爬取全網(wǎng)所有文章的章節(jié)url存入Redis中,
然后在從Redis中一條一條讀取url并進行爬取。在存的時候,寫一個腳本,將章節(jié)數(shù)轉(zhuǎn)換成整數(shù),方便
排序。
2、如何做到增量爬取。解決方案:爬取時,先與redis中的url進行對比,如果存在則放棄爬取,如果不
存在,則繼續(xù)爬取內(nèi)容。
3、如何提高爬取效率。解決方案:用python自帶的twisted adbapi進行異步存庫。
團隊協(xié)作:web前端2人,Django后臺1人,MySQL數(shù)據(jù)庫1人,數(shù)據(jù)采集1人
團隊規(guī)模:總參與5人,總開發(fā)時間2個月
2020.x -2020x 美食不用等
項目描述:Django搭建后臺,做成美食訂單類APP。
本職工作:我負責(zé)項目中的菜單增刪改查等操作。
項目技術(shù):Django框架,
自我評價
本人熱愛編程,熟練掌握python。熟練使用MySQL,redis,Mongo數(shù)據(jù)庫。性格沉穩(wěn),勇于擔(dān)當(dāng),敢于拼搏,樂于接收新鮮事物,抗壓能力較強。在工作中上進心強,喜歡不斷的挑戰(zhàn)自我,突破自我。
內(nèi)容來源說明:本文章來自網(wǎng)絡(luò)收集,如侵犯了你的權(quán)益,請聯(lián)系QQ:2772182309進行刪除。
http://www.90xin.cn/article/106141.html