在2013年美柚成立之初,架構采用自建機房的傳統開發方式,當時托管機房内服務器數量達300台之多,在2014年美柚接觸阿裡雲之後,逐漸采用阿裡雲的産品,從最開始接觸公測的ADS到現在使用的ECS、MaxCompute、RDS、分析型數據庫、TAE、阿裡雲雲盾等等,目前美柚形成了混合雲的模式。目前,美柚的整個官網全部部署在阿裡雲上,同時美柚還基于阿裡雲建立了電商柚子街,并且還基于阿裡雲搭建了BI系統。美柚為了緩解自建大數據集群的規模較小的情況,積極采用阿裡雲大數據平台對數據進行分析和處理計算。
“通過阿裡雲提供的豐富的開發套件和算法庫,大大縮短了美柚從想法到産品的時間。”
——黃益聰
美柚技術總監
采用的阿裡雲産品
為了緩解自建大數據集群的規模較小的情況,美柚需要采用阿裡雲大數據平台對數據進行分析和處理計算。
随着美柚不斷發展,系統逐漸受到一些惡意攻擊,包括惡意抓取、DDoS攻擊等,因此API實時監控顯得不可或缺,這需要借助阿裡雲盾DDoS高防IP抵禦部分網絡攻擊,并進行流量清洗和分析。
美柚通過社區 工具 電商為廣大女性提供一站式綜合服務,滿足女性群體交流溝通、知識獲取、購物三大需求。《互聯網周刊》發布2015年度APP分類排行榜,美柚位居女性APP第一位。同年12月,在清科集團、投資界主辦的2015中國最具投資價值企業50強評選中,美柚憑借在女性市場的卓越表現從3000多家報名企業中脫穎而出,獲評“2015中國最具投資價值企業50強”,截止到2015年7月,美柚用戶超過1億,日活躍用戶500萬。
美柚基于阿裡雲和自建機房的混合雲架構
美柚混合雲的服務分布
美柚混合雲架構的雲上設施和雲下設施分工各不相同。因為最初的架構是在托管機房上建立的,所以現在主要的App接口、社區、廣告系統、用戶中心、柚币中心以及包括App和社區的運營後台都部署在托管機房;同時搜索、推送、實時監控、反垃圾等最初建立起的基礎服務也是部署在托管機房裡面的;此外,托管機房内也有一些如Spark、Hadoop等大數據處理平台,但集群規模相對較小。
目前,美柚的整個官網全部部署在阿裡雲上,同時美柚電商柚子街也是基于阿裡雲建立的,包括整個電商平台和運營後台、招商系統。此外,還基于阿裡雲搭建了BI系統。最後,為了緩解自建大數據集群的規模較小的情況,積極采用阿裡雲大數據平台對數據進行分析和處理計算。
美柚混合雲之間的數據交互
混合雲之間的數據交互
上圖是托管機房和阿裡雲之間的數據流通情況,可以看到每天會有一部分數據包括業務日志、數據庫的增量數據會從托管機房流向阿裡雲。數據流向阿裡雲的ODPS後,在ODPS内進行一些數據計算和算法模型的訓練。然後再将計算的結果導入ADS和RDS中,其中導入的ADS支持BI系統,并且ADS能夠多值列查詢和毫秒級的實時響應,有利于生成BI報表;另一部分數據存入RDS中,不僅降低了存儲成本,同時也提高了數據的安全性。經阿裡雲計算和處理後,部分數據還需要回流到托管機房的數據庫和數倉内,回流的目的是因為現在還有一些比較重要的服務還在托管機房内部署,并且從機房調用可以極好的縮短調用的延遲。每日從自建機房流向阿裡雲的數據量相當大,對于一些重要的數據如用戶數據,在自有機房和阿裡雲上進行了雙活,首先從業務數據庫先同步到自建機房的HBase集群中做一個備份,然後在阿裡雲上也做了一個備份,這些數據以一小時為間隔進行同步,以此确保重要數據的安全。
從機房到阿裡雲上采用逐類更新的方式,準實時的數據依舊在托管機房處理;對一些大數據計算和實時性要求不是很高的數據将其流向阿裡雲,借助阿裡雲超強的計算能力和超大的集群規模進行計算處理,同時這些數據會在T 1日進行更新。
API實時監控
美柚基于阿裡雲的API實時監控
随着美柚不斷發展,系統逐漸受到一些惡意攻擊,包括惡意抓取、DDoS攻擊等,因此API實時監控顯得不可或缺。目前通過使用阿裡雲盾DDoS高防IP,有效地抵禦部分網絡攻擊,并可以進行流量清洗和分析。在此基礎上,美柚還自主研發了API實時監控系統,監控系統的數據是來自托管機房的實時處理計算平台,通過監控系統可以實時觀察服務端響應時間、處理數目以及各個接口的調用分布。通過全鍊路實時監控服務質量,保障用戶極緻體驗。同時作為一個移動互聯網公司,美柚将API實時監控從傳統的服務部署轉向移動化,在移動端Android/IOS進行實時業務監控與預警,使得開發和運維在任一地點任意時間都能對實時業務了如指掌,可以第一時間發現問題所在。
大數據智能挖掘
大數據助力社區電商生态
上圖是美柚大數據智能挖掘的大緻框架,作為一個社區電商一體化的公司,美柚利用大數據挖掘打通整個生态系統。以用戶為中心,通過對用戶的深入分析,形成用戶畫像,深入理解用戶需求,個性化的改造社區使其更有溫度、更具黏性。同時基于對用戶的理解,使得社群電商能夠進行精準化的推薦,深入了解用戶的需求。基于對女性用戶的理解,對用戶做了多維度的劃分,品牌商和廣告主精準的投放廣告,可得到更高的收益。
美柚采用兩套系統存儲用戶數據,在阿裡雲上,用戶數據主要存放在ADS上,将用戶特征存放在ADS的多值列中;在自建機房内,采用Kylin中的Cube來存放用戶的基礎維度的特征,便于快速的查詢。
美柚大數據應用
美柚大數據産品地圖
上圖是大數據産品地圖,圖中包含了美柚利用大數據衍生的産品。其中已上線的BI系統,是通過大數據分析形成的報表類,它能夠加深對系統的理解和輔助下一步業務決策的進行;另一個是反垃圾算法,通過大數據算法對一些垃圾廣告智能識别、處理。還有實時業務監控、首頁推薦、個性化推送、個性化搜索等功能。同時情感分析、輿情監控、關聯推薦、SSP、DMP、Ad Exchange等功能還在開發中。
反垃圾算法
這張圖展示了美柚利用大數據進行反垃圾算法的整體框架,主要包含兩部分。虛線上方是反垃圾算法的訓練流程,最開始是基于NLP自然語言處理進行,首先對文本數據(垃圾貼和正常貼)進行分詞,這些分詞需要定期更新,然後再對帖子進行特征處理和選取,将提取之後的特征送入分類器模型訓練,其中分類器包括貝葉斯分類、邏輯回歸分類等,通過訓練輸出分類模型的結果。這些訓練最初是在自有機房進行的,後來随着數據量的增加,已将部分模型訓練遷移到阿裡雲上。
虛線下方是機房内實時計算的處理流程,用戶發帖和回複之後,将其寫入Kafka消息隊列,首先會對白名單用戶過濾,然後一是依據分類模型的訓練效果,對文本進行識别和分類,對垃圾帖和非垃圾帖進行判别;另外的方式就是通過Simhash算法對文本相似對度進行計算,進行相似貼統計,最後通過這些策略彙總,生成整個反垃圾算法。近期美柚對該算法又做了進一步的叠代,對用戶的昵稱、發帖時間間隔、發帖行為進行分析,更好地進行了預防垃圾帖。通過阿裡雲提供的豐富的開發套件和算法庫,大大縮短了美柚從想法到産品的時間。
雲栖社區場景研究小組成員:賈子甲、仲浩
本文為雲栖社區原創内容,未經允許不得轉載。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!