elasticsearch高可靠方案-tft每日頭條

elasticsearch高可靠方案

科技更新时间:2024-11-15 23:27:56

　　 elasticsearch高可靠方案（在清博大數據的應用與實踐）(1)

　　本篇内容是清博大數據技術副總裁王歡帶來的基于Elasticsearch技術的應用與實踐分享。分享人：清博大數據技術副總裁王歡

　　關于Elasticsearch在清博的應用和實踐，本文将通過四個部分展開介紹：

　　關于清博典型業務場景痛點與訴求阿裡雲Elasticsearch實踐與收益一、關于清博大數據 清博數據成立于2014年，是一家專注于内容數據領域，是基于網絡公開數據，依托自然語言處理、知識圖譜、事理圖譜等AI技術，挖掘有價值的數據以及關系，為政務部門、企業、媒體和高校的網絡空間數據治理，提供一站式解決方案的公司。

　　清博大數據的主要業務布局有：

　　 elasticsearch高可靠方案（在清博大數據的應用與實踐）(2)

　　清博指數，已經成為業内知名的新媒體賬号評估服務體系；清博輿情，是業内主流輿情SaaS服務平台，為數十萬B端網絡品牌跟蹤管理提供一站式服務；清博融媒，助力政企、校園的融媒體建設；産業數據，基于數據和技術的積累，在汽車大數據和環保大數據等産業數據領域也有布局。二、典型業務場景 上文所提到的業務方向中都有Elasticsearch的參與和支持。下面介紹幾個典型的應用場景。

　　清博輿情

　　下圖展示的是清博輿情中常見的分析模塊。

　　 elasticsearch高可靠方案（在清博大數據的應用與實踐）(3)

　　清博輿情利用NLP技術給常見的每條新聞及評論打上7個情緒标簽，然後基于标簽分析每天的情緒走勢和情緒分布情況。這個應用可以理解為，針對某個事件，大衆在不同情感表達下的聲量大小。

　　另外，我們也對事件的發布和媒體敏感信息報道進行渠道統計，統計後就可以直觀的看到一個事件的重要或敏感的傳播節點，這就為業務的決策者提供了非常直觀的決策參考。除此之外，系統還為用戶提供發文類型、提及地區、熱詞分析等十多個常用的統計分析模塊。

　　以上所描述的統計分析，都是基于Elasticsearch強大的聚合統計能力，包括嵌套的統計能力實現的。由于清博大數據提供的是線上的SaaS服務，在同個頁面會迸發請求查詢或聚合多個接口等需求，這就對Elasticsearch的聚合統計性能和内存使用率，都提出了更高的要求。

　　多維度的檢索

　　多維度檢索在清博大數據也是比較常見的業務場景。在輿情高級檢索模塊，清博檢索提供了基于時間、發布平台、情感、媒體類别、發布地區等十多個維度的複合檢索。同時還提供了基于term和match price的精确或模糊檢索的複雜查詢方式。

　　不同于日志檢索場景，清博的多維度檢索業務，需要權衡召回率和準确率，需要對标題跟正文設置不同的打分策略。比如給标題設置更高的權重，給正文設置相對較低的權重。另外，産品還能對包括阿拉伯語、日語、韓語、德語、法語等多國語言進行文本檢索，這就涉及到了多語種的分詞與檢索召回。

　　 elasticsearch高可靠方案（在清博大數據的應用與實踐）(4)

　　賬号畫像

　　下圖是清博指數平台一個微信公衆号的畫像頁面，展示了公衆号系列數據，包括閱讀統計、閱讀點贊、在看、發文趨勢、發布習慣等數據指标的統計模塊。通過這些模塊，用戶可以直觀的了解一個公衆号的發布情況、文章傳播情況等，不僅給運營者提供了全方位、可參考的數據，也給廣告投放的用戶提供客觀投放參考。

　　三、痛點與訴求 上文列舉的不同業務場景都離不開Elasticsearch強大的查詢和聚合能力，那麼實現這樣的功能有哪些痛點與訴求呢？

　　從上面業務場景列舉可以看出，清博大數據的業務基本上都是基于文本檢索，那麼它具有的特點包括：

　　需要支持多種語言檢索；由于是在線的SaaS系統，需要實現亞秒級響應；需要支持上百個索引字段；需要滿足聚合查詢多和叠代頻繁；基于以上的業務特點就要求Elasticsearch具備高性能、平衡檢索的召回率和準确率，并具有動态伸縮的能力。

　　 elasticsearch高可靠方案（在清博大數據的應用與實踐）(5)

　　基于以上的業務特點和服務要求，對清博大數據來講，業務痛點可以分為三個方面：

　　1、成本

　　單篇文檔不同于日志數據，占用索引空間大，所需的SSD存儲昂貴；

　　2、運維

　　當業務數據不斷增加，需要頻繁擴節點；同時，由于是在線SaaS業務，所以需要實現亞秒級響應速度；并且在節點升級、增加内存等在線升級時，不停止服務。

　　 elasticsearch高可靠方案（在清博大數據的應用與實踐）(6)

　　3、兼容性

　　實現Elasticsearch集群遷移、本地化部署，業務代碼無感知适配；雲端備份索引可以兼容開源的Elasticsearch。

　　針對以上的業務痛點，清博大數據對雲端Elasticsearch也提出了三點訴求：

　　1、成本

　　平滑擴縮容，索引支持冷熱分離，熱數據才放到SSD存儲，從而降低存儲成本；

　　2、運維

　　需要有簡單的運維工具支持一鍵擴縮容和節點升級等能力；需要支持豐富的運維指标，在達到一定阈值時，可以有不同類型的報警通知；需要支持平滑升級不對業務産生影響；

　　3、兼容性

　　阿裡雲Elasticsearch 100%兼容開源生态，并支持自定義的分詞器，實現熱更新分詞詞典，方便備份與恢複。雲上備份與索引，可以快速在開源Elasticsearch上恢複或拉起服務。

　　 elasticsearch高可靠方案（在清博大數據的應用與實踐）(7)

　　四、雲上實踐與收益 清博大數據在遷移之前是基于Apache Solr自建的搜索集群，為了提升搜索性能和鞏固集群穩定性，創建了很多小的Solr集群。在上遊數據分析之後，通過一套路由機制寫入到不同的Solr集群，在查詢時通過同一套機制，自動選擇對應的集群。在不同的集群中查詢不同的數據，可以分散單個集群壓力，如果有小集群異常隻會影響部分業務。

　　但是太多分散且小的集群也會出現很多問題，比如增加故障的概率、缺少統一運維管理平台、運維管理成本過高、無法自動擴充Shard、需要手動增加節點擴容等等。

　　 elasticsearch高可靠方案（在清博大數據的應用與實踐）(8)

　　相比之下，阿裡雲Elasticsearch提供智能的、統一的運維平台，不僅可以多維度地監控告警，也能及時發現集群問題，而且阿裡雲ES專家的支持也減少了大量的運維成本。

　　阿裡雲ES自動Shard，提升系統性能，提高了系統的檢索性能；阿裡雲ES節點的伸縮能力，可以靈活應對業務逐步增加，節省大量一次性投入的成本。

　　在遷移過程中，清博大數據同步升級了數據架構，整個平台是分層的數據模式。最底層是數據接入層，包括上述提到的各平台社交文本數據。所有的數據源首先會推送到Kafka集群，通過消息隊列對各個業務模塊進行檢索。

　　再往上一層是數據處理和存儲層。在存儲層，像新聞标題、發布時間、原始URL等信息存儲到HBASE。一些不需要檢索内容的鏡像數據會存到OSS上進行長期存儲，并把OSS的路徑存到HBASE，方便後面的檢查。

　　在數據處理這一層，使用 Flink 實時流處理引擎，通過RPC的方式實時調用NLP相關的算法服務，為每一條文本内容打上情感屬性、情緒分類、新聞類型和地域等标簽，方便下遊業務使用。

　　再上一層是整個ES的基礎設施，包括ES集群和智能網關兩層服務。在ES集群層，根據業務特點把近兩年的數據放到冷數據集群，使用價格相對較低的高效雲盤，把近三個月的數據放到熱數據集群，使用SSD盤進行冷熱集群分離，同時根據不同平台大小對索引進行拆分，分為微信、微博、短視頻等等索引。

　　為了提高ES的安全性和訪問的可控性，清博大數據開發了智能網關服務，屏蔽了直連ES的方式。在智能網關層，有很多業務都要調用ES數據，為了防止單個業務占用過多資源，影響到其他業務使用，網關可以為每個業務分配各自的QPS并設置優先級。一旦集群出現問題，可以對低優先級的業務進行熔斷限流，以保證高優先級的業務。

　　由于在ES的數據層把索引按照來源進行拆分，數據被分散到多個集群中，這會給查詢帶來一定的麻煩。為了方便前端業務的調用，網關路由所有模塊可以根據業務端查詢的數據類型，自動路由到對應的索引，同時網關層也會對業務端查詢進行優化，比如根據時間段選擇對應索引，而不是掃描全部索引。

　　最上面一層是業務接入層，包括上文提到的輿情業務、指數業務、融媒業務等等。

　　基于阿裡雲ES打造的統一數據平台，也可以看作是一個分層架構，如下圖。

　　 elasticsearch高可靠方案（在清博大數據的應用與實踐）(10)

　　最底層文檔寫入ES索引前，會先進入路由層。路由服務會根據文檔的來源、發布時間、機型狀态等，選擇對應的集群以及索引，比如自動選擇對應平台或者是對應索引所在的機器。

　　對日增數據量比較少的平台，會按照周或月進行索引拆分。對日增數據量很大的平台，路由會按天創建索引，這樣就避免單個索引過大、數據過于傾斜而影響整個集群性能的問題，使每個索引的大小保持基本相同。

　　再向上一層是多個ES集群，包括不同平台的數據集群和冷熱數據集群。前面一層經過路由策略之後，最終數據會分散到對應集群的對應索引中。為了方便查詢，通過開發的Proxy，對用戶特定的索引查詢、多索引查詢和聚合查詢，甚至跨集群查詢等，可以對數據進行查詢集合，做到對業務端底層的索引細節屏蔽、業務端無感知、降低業務端調用成本，同時也方便底層的叠代升級。

　　基于以上的架構，在阿裡雲的ES數據平台提供近三個月超過100億的熱數據，在近三個月的索引占用空間超過60TB，日增網絡公開内容數據超過1.2億，單篇文檔搜索字段超過200。

　　 elasticsearch高可靠方案（在清博大數據的應用與實踐）(11)

　　在這麼大數據量的情況下，頻繁變動升級會帶來一些問題。值得一提的是，利用阿裡雲ES診斷功能，可以很方便地發現ES集群潛在的問題，也為集群的運維方向提供診斷經營。

　　在阿裡雲ES各種功能的加持下，清博大數據平台的穩定性較之以前提升了60%，整個運維時間減少了80%。正是由于阿裡雲Elasticsearch平台的各種能力，讓團隊可以把更多的精力放到産品開發和叠代上，比如基于平台能力快速開發了輕薄融媒平台，為清博融媒平台提供内容檢索服務。

　　在開發的政府補貼類應用中提供政策搜索服務，為後面的推薦算法提供出色的結果，也為年終公衆号運營畫像類應用提供相關統計服務。除此之外，基于平台的能力還能提供更多的産品形态。

　　 elasticsearch高可靠方案（在清博大數據的應用與實踐）(12)

　　本文為阿裡雲原創内容，未經允許不得轉載。

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技機械革命i73060高色域筆記本
為什麼數碼産品會越來越便宜？相信很多人心中都會有這樣的疑問，數碼産品已經不再像曾經那麼稀有了，可以說“大哥大”的時代早已過去！就拿筆記本電腦來說，目前的情況是一線品牌、小衆品牌交織在一起，競争非常激烈。多數品牌為了增加産品競争力，隻能通過提... 2023-01-20
科技漢蘭達與昂科旗的比較
有一說一，随着各大新勢力汽車品牌的崛起，其對傳統汽車品牌以及用戶的消費習慣影響也在愈發加大。舉個很簡單的例子，以前我們買中高端大七座SUV，要求夠實用、夠豪華就行了，但是，在科技思潮的影響下，我們逐漸不再滿足于傳統需求，更希望新科技與傳統豪... 2023-01-20
科技 unity協程相關學習筆記
unity協程相關學習筆記?在上一篇關于P/INVOKE的文章中，我們學習了如何從Unity内部調用非托管方法，以及如何跨互操作屏障傳遞參數和返回值，今天小編就來聊一聊關于unity協程相關學習筆記?接下來我們就一起去研究一下吧!unity... 2023-03-18
科技水星mr804路由器能用手機上網嗎
水星(MERCURY)MR804路由器上網設置方法，一台新購買(恢複出廠設置後)的水星MR804無線路由器，要實現連接Internet上網，需要經過以下幾個配置步驟：1、連接水星MR804路由器；2、設置電腦IP地址；3、設置水星MR804... 2023-02-23
科技完整型企業管理erp系統免費試用
2011年元旦，一個叫2BizBox的ERP軟件突然出現在網絡上，宣稱永遠免費。這是一個來自美國的大型ERP軟件，功能很強，界面也漂亮，專攻離散制造業。這個免費ERP軟件迅速引起廣大網友瘋狂下載，3天元旦假期被下載了2萬次，服務器一度癱瘓。... 2022-12-22
科技電腦版微信為什麼一直閃退怎麼辦
電腦版微信為什麼一直閃退怎麼辦?文件損壞造成微信閃退遇到這個問題反複重新安裝微信是解決不了問題，需要先清空微信數據然後重新安裝才可以解決辦法：按菜單鍵，找到系統設置->應用程序(部分手機名稱不一樣)，在列表中找到微信圖标，點擊彈出程序信息界... 2022-06-17
科技 12年老電腦建議裝的系統版本
windows10怎麼重裝系統，很多網友給我留言問怎麼安裝系統，今天我就教教大家怎麼給電腦安裝系統首先我們要準備一個u盤系統這個u盤系統我是提前做好的把u盤插入電腦usb識别接口然後開機這裡很重要啊一定要先插系統右盤再開機不同的主闆的話它的... 2022-12-26
科技華碩z490主闆配什麼内存條
早些時候，英特爾正式确認H410/B460主闆将不支持11代RocketLake桌面處理器，意味着新一代CPU的起步門檻已經定在了更高端的Z490平台。想要獲得最完整體驗的消費者，還是需要為11代處理器選購同步上市的500系列主闆。為了驗證... 2023-03-15
科技二手主闆怎麼樣
電腦主闆推薦的二手主闆CPU組合：（為了更容易看出來主闆是低、中還是高端，會列原價，但是是一個大約的價格，準确的發行價格我也不知道上哪能獲取）LGA775架構也叫SocketT。支持至SATA2。約DDR2、3。由于隻支持至sata2，不是... 2023-01-13
科技虎牙直播如何卡等級
如今的直播平台内容越發的豐富，關聯性也越來越強，單一直播作用，顯然不能夠滿足觀衆和用戶的需要。近日，虎牙直播APP9.0版本升級，加入很多新功能，讓用戶和觀衆，有更好的直播體驗，具體有什麼變化呢？讓我們一一道來：首先其中包括改版了搜索頁、直... 2022-12-25
科技速賣通俄羅斯各年齡段網購情況
雨果網獲悉，全球速賣通于3月底在俄羅斯首次推出手機話費餘額支付服務，該國四大手機運營商——MTC、Megafon、Beeline、Tele2的用戶可通過手機話費餘額進行付款。據介紹，速賣通是在俄羅斯第一個推出類似服務的外國電商企業，其在該國... 2023-03-15
科技英睿達和金士頓ddr4内存條哪個好
IT之家1月30日消息今年，AMD推出了7nm工藝的移動處理器，全面支持DDR43200高頻内存，另外爆料稱英特爾即将推出的十代移動标壓處理器也将支持DDR43200高頻内存。因此，筆記本上延續好幾年的DDR42400/2666内存有望在今... 2023-02-01
科技聯想筆記本亮度調不了了怎麼辦
聯想筆記本電腦屏幕亮度調節不了怎麼回事?很多朋友在使用筆記本電腦的時候會遇到這樣的問題：自己的筆記本電腦顯示器調節不了，或者關閉的話調節不了。那麼這究竟是怎麼回事呢?接下來我們一起來了解一下聯想筆記本電腦屏幕亮度調節不了怎麼回事。一、檢查筆... 2023-03-17
科技微軟win11預計發布時間
IT之家11月29日消息，微軟今天向Beta頻道發布了Windows11InsiderPreviewBuild22621.1020和Build22623.1020(KB5020035)版本更新。Build22623.1020=默認開啟新功能... 2023-03-17
科技 5g雙模和獨立組網哪個好
華為Mate30系列發布，小米9Pro5G手機也即将發布，然而，發現近期網絡上又陷入了真假5G之分。所謂真假5G，無非是NSA（非獨立組網）與SA（獨立組網）的争吵。目前由于基帶的原因，僅僅華為系/榮耀系已發布或将發布的5G手機支持NSA/... 2023-02-14
科技電腦有哪幾大誤區
買電腦，被忽悠翻車？用電腦，又踩坑被坑？Yo哥很帥？所以今天Yo哥就随便聊聊2023買電腦，錯誤認知TOP10！你以為你以為的，就是你以為的嗎？準備買電腦的同學，一定要看完！點贊了嗎？關注了嗎？謝謝！第十名，以為所有電腦，都像樂高一樣，可以... 2023-03-14
科技删除的數據怎麼快速恢複
數據誤删怎麼恢複？電腦已經成為了我們平時工作中最常用的辦公用具，每天都會産生大量的數據，而數據對于我們來說又多重要，想必也無需小編多言。但就是有很多粗心的用戶在清理電腦文件時，總是會不小心删除掉一些重要文件。如果放在以前，文件删除了就代表着... 2023-01-01
科技音頻增益的四種模式
音頻增益的四種模式?一、音頻人類能夠聽到的所有聲音都稱之為音頻，人耳可以聽到的聲音頻率在20Hz~20kHz之間，我來為大家講解一下關于音頻增益的四種模式?跟着小編一起來看一看吧!音頻增益的四種模式一、音頻人類能夠聽到的所有聲音都稱之為音頻... 2023-03-02
科技碎紙機如何加油
讓産品好玩點，讓結果直接點，《有料評測》隻做你最關心的評測内容。在國内當下企業中，人力成本已經占據企業運營成本相當大的比重，為了提升企業的利潤，如今企業中的行政、人力、IT部門紛紛想辦法提升員工的日常工作效率，無論是每月的醫保上門報銷，還是... 2022-11-28
科技國外有什麼好的體育直播平台
國外有什麼好的體育直播平台?SportLemon.tvSportLenon.tv也許是全球最全面、最可靠的體育直播網站了，網站幾乎提供所有體育比賽直播，但通常隻提供鍊接，我來為大家講解一下關于國外有什麼好的體育直播平台?跟着小編一起來看一看... 2023-03-16
科技魔獸世界9.0pvp獸王獵裝備
本文适用人群為隻想大秘境混個2000分拿坐騎，以及團本不參與M開荒（偶爾混混H或者M1）的玩家（或是更沒有追求的玩家）。一、天賦選擇現階段獸王獵的天賦選擇空間很小，這也導緻玩兒久了會感到無聊。但也有好的一方面，那就是一套天賦基本可以通吃團隊... 2022-12-02
科技真皮大号的腰帶
安華警用裝備有好多種皮質多功能更腰帶（八件套），型号分别為YAH-01，DSB-8,DSB-7,DSB-6,DSB-5等。都是嚴格按照《公安單警裝備—皮革多功能腰帶制造與驗收規範》制造生産。組成：腰帶釺子帶體斜挂帶手铐包對講機包強光手電包警... 2023-02-06
科技 iphone卡死機
前兩天的iPhone郵件漏洞，大家貌似都不怎麼當一回事呀。那也是，畢竟郵件這個App應該很少人會用到。但接下來這個bug，你就不能這麼想咯。推特上一個精神小夥@EverythingApplePro，發現了一串特殊字符，會使iPhone變得卡... 2022-12-27
科技易開得淨水器慕薩
不知道大家有沒有聽過這麼一句話，沒有什麼事兒是喝水解決不了的，如果有那就多喝點。确實，【多喝水】這句樸實無華的語言背後暗含着很多好處，比如：飯前多喝水能讓你增強飽腹感，從而幫助控制體重；多喝水能預防結石、促進新陳代謝；感冒時多喝水能加速治愈... 2023-04-02
科技就業失業登記證手機上怎麼辦理
就業/失業登記是政府掌握勞動者就業、失業狀況的重要手段，是落實就業創業政策、提供就業創業服務的基礎性工作。辦理就業登記和失業登記的勞動者可按規定享受公共就業創業服務、就業創業扶持政策和申領失業保險待遇。哪些人可以辦理就業/失業登記？四川省戶... 2023-02-09
科技征信報告怎麼查詢個人征信
昨天給大家講了我國征信的發展曆程；今天給大家解釋下什麼是個人征信；個人征信的影響；哪些不良的記錄會上個人征信；及上征信之後怎麼解決。什麼是個人征信？個人征信指的就是個人信用，所以個人征信也有另外一個名字“個人信用征信”，是依法設立的個人信用... 2023-01-25
科技 u盤插入電腦沒反應怎麼處理
U盤插入電腦沒反應怎麼辦？今天U盤插入電腦沒反應？相信很多人都遇到過這種正常U盤插上沒反應的悲催事情，小編這兩天也不幸遇上，經過一番折騰終于解決問題，現在把正常U盤插入電腦沒反應的解決方法告訴大家。首先要确定U盤是100%正常的，插入自己的... 2022-11-19
科技六一兒童節畫畫創意
6月1日是國際兒童節，中國科技館發布消息稱，中國數字科技館當天正式上線“讓科學插上藝術的翅膀——喜迎二十大·第四屆華夏兒藝科幻繪畫作品展”，通過線上方式，為全國小朋友獻上一份特别的兒童節禮物。參展優秀科幻繪畫作品之一。中國科技館供圖中國科技... 2022-12-22
科技蘋果折疊屏大揭秘
作者｜fanfan來源｜極果編輯部随着衆多安卓手機廠商紛紛涉足折疊屏領域，蘋果也按耐不住這塊蛋糕了，折疊屏市場即将迎來一個新的強有力的玩家。#數碼科技要聞#去年9月一份爆料顯示，蘋果正研發多種折疊屏方案的設計，有望支持上下翻折和左右翻折，... 2023-02-01
科技登錄qq時不知道自己qq号怎麼辦
簡介：在别人電腦上登錄QQ後，QQ軟件會自動記錄你的QQ号碼，這樣就存在安全風險。方法：删除列表中的QQ号碼步驟：第一步：點擊輸入框旁邊的黑色小箭頭第二步：點擊×号第三步：勾選從列表中删除此帳号第四步：點擊【确定】, 2023-03-25

tft每日頭條

> 科技

> elasticsearch高可靠方案

elasticsearch高可靠方案

相关科技资讯推荐

热门科技资讯推荐

网友关注