DoraHacks 武漢二等獎復(fù)盤

Dorahacks 武漢 華科安步咖啡 2017/10/22
首先能夠參與這樣一個盛大互聯(lián)網(wǎng)hackaton活動本身就極具吸引力,連續(xù)工作24h,產(chǎn)出對現(xiàn)實問題的解決方案,本來抱著試一試的態(tài)度去參加,但沒想到最后能在16組隊伍中得到二等獎,收獲很多,復(fù)盤。
主要項目人員有產(chǎn)品組兩人、爬蟲組兩人、算法組兩人。
項目為爬取微博用戶粉絲,建立用戶畫像。
通過:爬取數(shù)據(jù)-預(yù)處理-建立樣本集-建立某標(biāo)簽的測試集-特征提取-篩選變量-使用函數(shù)-得到結(jié)果。
項目成果:建立假粉測試集與真粉測試集,對關(guān)曉彤粉絲分析得到其假粉數(shù)量大約在百分之5%,對項目應(yīng)用場景進行了合理推廣。

一開始對于項目的設(shè)想是做互聯(lián)網(wǎng)招聘垂直領(lǐng)域聚合平臺,結(jié)合簡歷插件,以及運營方案。
問題:整個項目完整過程并沒有理清思路,以及這三者的關(guān)聯(lián),做產(chǎn)品的hackton最好以前就有PPT與整體思路。
后來這個項目沒有被團隊采納,我覺得是一個正確的決策,一來這個的實現(xiàn)難度不一般,也不太符合比賽geek的氣質(zhì),二來團隊沒有前端,所以最優(yōu)選擇是放棄。
后續(xù)團隊采取了分析大V用戶畫像的idea,本身這個項目與dorahacks的氣質(zhì)也最相襯。

在一個技術(shù)驅(qū)動、算法為主的團隊里做PM,確實工作量上確實與常接觸的用戶需求方面的產(chǎn)品工作不同,我的工作內(nèi)容有:

   尋找對標(biāo)產(chǎn)品。
   分析市場現(xiàn)狀。
   考慮商業(yè)與變現(xiàn)方面。
   將抽象需求轉(zhuǎn)化為具象的實現(xiàn)方法。
   提供技術(shù)解決方案的建議。
   對技術(shù)應(yīng)用場景進行考慮。

在整個hackton過程,一直處于興奮的狀態(tài)24h沒有睡覺也依然沒有困意。前期主要做對于爬取數(shù)據(jù)的分類,在整個微博中能爬取哪些數(shù)據(jù)?爬取哪些數(shù)據(jù)是有意義的?將抽象的爬取用戶信息變成爬取用戶的哪幾個數(shù)據(jù)。后期想通過人工做一個分類,限定某些數(shù)據(jù)量大小,這也取決于對于我們想篩選人群的定義。后來發(fā)現(xiàn)依靠經(jīng)驗以及人工的分類低效而不準(zhǔn)確。改變想法后利用技術(shù)實現(xiàn),有兩個方案:將大V粉絲關(guān)注的其他ID與已爬取的某垂直領(lǐng)域大V的ID進行對比,大于n個貼上相應(yīng)標(biāo)簽,通過機器學(xué)習(xí)發(fā)現(xiàn)特定粉絲的模式,再進行篩選。在技術(shù)實現(xiàn)溝通后,人工采集了真粉與假粉的賬號,建立樣本集,用于機器學(xué)習(xí)與某大V粉絲對比。由于開發(fā)時間以及爬取數(shù)據(jù)時間的問題,第一項想法沒有實現(xiàn),但是后一種方法同樣可行且可信任,通過使用不同的樣本集可以利用這一套技術(shù)的方法,實現(xiàn)多種應(yīng)用場景。

微博的開放性越來越差以及越來越不友好,導(dǎo)致爬數(shù)據(jù)時出現(xiàn)了沒有意識到的問題。粉絲列表只能看前20頁,雖然前20頁可以不斷更新粉絲列表,但是并不明確更新粉絲列表排名的規(guī)則,可能是活躍粉絲被排在前面,導(dǎo)致樣本集的數(shù)據(jù)可能是被污染的。(尤其是目前樣本量較小。)以及Python 2的編碼問題。

在進行一個項目前先過流程與最小可行化產(chǎn)品,以此作為前期調(diào)研可以在后面?zhèn)鬟f需求時溝通的更好。

工作量安排上一個從零到一的項目難免出現(xiàn)一部分人工作另一部分人清閑。

對于需求的傳遞,一定要跟緊技術(shù)人員的開發(fā)進度,隨時溝通需求,確認(rèn)需求的變更。

在討論時涉及的數(shù)據(jù)量太大,想做標(biāo)簽是是一個模糊的需求,需要進一步明確與量化,分詞、語義分析等方法難度明顯。

在整個項目過程中,一開始宏大的設(shè)想與定位,之后抓取粉絲發(fā)現(xiàn)的問題而焦慮。在缺乏靈感時找其他同學(xué)聊天得到假粉樣本集,得知無法貼標(biāo)簽后想去擴展技術(shù)應(yīng)用價值,剛剛開始爬數(shù)據(jù)時其實還沒想清楚如何利用數(shù)據(jù),后來去不斷地和算法同學(xué)聊,討論明確了方法。

感覺產(chǎn)品懂技術(shù)甚至本身會技術(shù)還是很有必要的,在溝通需求與進度跟蹤還是很重要的。

一開始有些方向不清晰,后來發(fā)現(xiàn)技術(shù)的擴展性與想象空間都很大,再后來遇到問題停滯不前,再到深夜寄希望于數(shù)據(jù)處理。有過失去信心,沒有定位的時候,也有焦慮的時候,不斷地身陷自我懷疑,甚至PPT答辯時有過關(guān)于討論技術(shù)細節(jié)的風(fēng)格是不是合適的焦慮,上臺的演講風(fēng)格有沒有清楚傳達。后來發(fā)現(xiàn)其實堅定初心保持信心才是合適的。我自己的缺點也在比賽中有體現(xiàn),演講的沒有重點與語速過快,本身缺乏leadership,對于現(xiàn)實與理想有不同,無法實現(xiàn)確實是需要接受。

作為一個產(chǎn)品,從里面收益頗豐,不過最重要的是有一群極其靠譜的技術(shù)小伙伴,大家都很有激情,與探索的實力,讓我體驗到一種make things happen的感覺,主辦方的贊助商閃銀主動聯(lián)系我們,說期待有技術(shù)合作,很感謝主辦方,也希望技術(shù)同學(xué)有更多收獲。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容