cassandra導出數據-tft每日頭條

cassandra導出數據

科技更新时间:2025-07-17 11:53:11

cassandra導出數據（Cassandra時間序列大規模數據建模）1

在開始使用Cassandra和時間序列數據時，人們面臨的最大挑戰之一是理解編寫工作負載對集群的影響。過快地寫入單個分區可能會創建熱點，從而限制向外擴展的能力。分區太大可能會導緻修複、流和讀取性能方面的問題。從大分區的中間讀取會帶來很大的開銷，并導緻GC壓力的增加。Cassandra 4.0應該可以提高大分區的性能，但是它不能完全解決我已經提到的其他問題。在可預見的未來，我們将需要考慮它們的性能影響，并相應地進行計劃。

在這篇文章中，我将讨論一種常見的Cassandra數據建模技術，稱為bucketing。bucketing是一種策略，讓我們可以控制每個分區中存儲多少數據，以及将寫出的數據分散到整個集群。這篇文章将讨論兩種形式的攻擊。當數據模型需要進一步擴展時，可以結合使用這些技術。讀者應該已經熟悉了分區的解剖和基本的CQL命令。

當我們第一次使用Cassandra學習數據建模時，我們可能會看到如下内容:

CREATE TABLE raw_data ( sensor text, ts timeuuid, readint int, primary key(sensor, ts)) WITH CLUSTERING ORDER BY (ts DESC) AND compaction = {'class': 'TimeWindowCompactionStrategy', 'compaction_window_size': 1, 'compaction_window_unit': 'DAYS'};

這是存儲一些非常簡單的傳感器數據的一個很好的第一個數據模型。通常我們收集的數據要比整數複雜得多，但在這篇文章中，我們将關注鍵。我們利用TWCS作為壓縮戰略。TWCS将幫助我們處理壓縮大分區的開銷，這将使我們的CPU和I/O處于控制之下。不幸的是，它仍然有一些明顯的限制。如果我們不使用TTL，那麼當我們接收更多數據時，我們的分區大小将無限地持續增長。如上所述，在修複、流化或從任意時間片讀取數據時，大分區會帶來很大的開銷。

為了分解這個大分區，我們将利用第一種形式的bucketing。我們将根據時間窗口将我們的分區分成更小的分區。理想的大小是将分區保持在100MB以下。例如，如果我們每天存儲50-75MB的數據，那麼每天每個傳感器一個分區就是一個不錯的選擇。隻要分區不超過100MB，我們也可以簡單地使用周(從某個紀元開始)、月和年。無論選擇什麼，留一點增長空間是個好主意。

為此，我們将向分區鍵添加另一個組件。修改之前的數據模型，我們将添加一個day字段:

CREATE TABLE raw_data_by_day (sensor text,day text,ts timeuuid,reading int,primary key((sensor, day), ts)) WITH CLUSTERING ORDER BY (ts DESC) AND COMPACTION = {'class': 'TimeWindowCompactionStrategy', 'compaction_window_unit': 'DAYS', 'compaction_window_size': 1};

插入到表中需要使用date和now()值(你也可以在你的應用代碼中生成一個TimeUUID):

INSERT INTO raw_data_by_day (sensor, day, ts, reading) VALUES ('mysensor', '2017-01-01', now(), 10);

這是限制每個分區的數據量的一種方法。為了跨多天獲取大量數據，您需要每天發出一個查詢。這樣查詢的好處在于，我們可以将工作分散到整個集群，而不是要求單個節點執行大量工作。我們還可以通過依賴驅動程序中的異步調用并行地發出這些查詢。對于這種用例，Python驅動程序甚至有一個方便的輔助函數:

from itertools import productfrom cassandra.concurrent import execute_concurrent_with_args

days = ["2017-07-01", "2017-07-12", "2017-07-03"] # collecting three days worth of datasession = Cluster(["127.0.0.1"]).connect("blog")prepared = session.prepare("SELECT day, ts, reading FROM raw_data_by_day WHERE sensor = ? and day = ?")

args = product(["mysensor"], days) # args: ('test', '2017-07-01'), ('test', '2017-07-12'), ('test', '2017-07-03')

# driver handles concurrency for youresults = execute_concurrent_with_args(session, prepared, args)

# Results:#[ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x106d36750>),# ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x106d36a90>),# ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x106d36550>)]

這種技術的一種變體是每個時間窗口使用不同的表。例如，每月使用一個表意味着每年有12個表:

CREATE TABLE raw_data_may_2017 ( sensor text, ts timeuuid, reading int, primary key(sensor, ts)) WITH COMPACTION = {'class': 'TimeWindowCompactionStrategy', 'compaction_window_unit': 'DAYS', 'compaction_window_size': 1};

這種策略的主要好處是有助于存檔和快速删除舊數據。例如，在每個月的開始，我們可以将上個月的數據以拼花的格式歸檔到HDFS或S3中，利用便宜的存儲來進行分析。當我們不再需要Cassandra中的數據時，我們可以簡單地删除表。您可能會看到，在創建和删除表時需要進行一些額外的維護，因此，這種方法實際上隻有在需要歸檔時才有用。還有其他存檔數據的方法，因此這種類型的bucketing可能是不必要的。

上面的策略主要是防止分區在長時間内變得太大。如果我們有一個可預測的工作負載和有很小變化的分區大小，這是很好的。我們可能會攝入太多的信息，以至于單個節點無法寫出數據，或者一小部分對象的攝入率要高得多。Twitter就是一個很好的例子，有些人擁有數千萬的追随者，但這并不常見。對于我們需要大規模使用的這些類型的賬戶，通常會有一個單獨的代碼路徑

第二種技術在任何給定時間使用多個分區将插入扇出到整個集群。這個策略的好處是，我們可以使用一個分區來處理小卷，使用多個分區來處理大卷。

我們在這個設計中所做的權衡是在讀取時我們需要使用散射聚集，這有明顯的更高的開銷。這可能會使分頁更加困難。我們需要能夠跟蹤我們為每個小發明攝取了多少數據。這是為了确保我們可以選擇正确數量的分區來使用。如果我們使用太多的桶，我們就會在很多分區上執行很多非常小的讀取操作。如果桶太少，我們會得到非常大的分區，這些分區不能很好地壓縮、修複、流處理，并且讀取性能很差。

在這個例子中，我們将研究一個理論模型，它适用于那些在Twitter這樣的社交網絡上關注大量用戶的人。大多數帳戶都可以使用一個單獨的分區來接收消息，但有些人/機器人可能會關注數百萬個帳戶。

免責聲明:我不知道Twitter實際上是如何存儲他們的數據的，這隻是一個簡單的例子來讨論。

CREATE TABLE tweet_stream ( account text, day text, bucket int, ts timeuuid, message text, primary key((account, day, bucket), ts)) WITH CLUSTERING ORDER BY (ts DESC) AND COMPACTION = {'class': 'TimeWindowCompactionStrategy', 'compaction_window_unit': 'DAYS', 'compaction_window_size': 1};

這個數據模型擴展了前面的數據模型，将bucket添加到分區鍵中。現在，每天都可以從多個桶中獲取數據。當需要讀取時，我們需要從所有分區中獲取所需的結果。為了演示，我們将插入一些數據到我們的分區:

cqlsh:blog> insert into tweet_stream (account, day, bucket, ts, message) VALUES ('jon_haddad', '2017-07-01', 0, now(), 'hi');cqlsh:blog> insert into tweet_stream (account, day, bucket, ts, message) VALUES ('jon_haddad', '2017-07-01', 1, now(), 'hi2');cqlsh:blog> insert into tweet_stream (account, day, bucket, ts, message) VALUES ('jon_haddad', '2017-07-01', 2, now(), 'hi3');cqlsh:blog> insert into tweet_stream (account, day, bucket, ts, message) VALUES ('jon_haddad', '2017-07-01', 3, now(), 'hi4');

如果我們想要十個最新的消息，我們可以這樣做:

from itertools import chainfrom cassandra.util import unix_time_from_uuid1

prepared = session.prepare("SELECT ts, message FROM tweet_stream WHERE account = ? and day = ? and bucket = ? LIMIT 10")# let's get 10 buckets partitions = range(10)# [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

args = product(["jon_haddad"], ["2017-07-01"], partitions)

result = execute_concurrent_with_args(session, prepared, args)

# [ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x106d1e6d0>),# ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x106d1d710>),# ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x106d1d4d0>),# ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x106d1d950>),# ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x106d1db10>),# ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x106d1dfd0>),# ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x106d1dd90>),# ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x106d1d290>),# ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x106d1e250>),# ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x106d1e490>)]

results = [x.result_or_exc for x in result]

# append all the results togetherdata = chain(*results) sorted_results = sorted(data, key=lambda x: unix_time_from_uuid1(x.ts), reverse=True)

# newest stuff first# [Row(ts=UUID('e1c59e60-7406-11e7-9458-897782c5d96c'), message=u'hi4'),# Row(ts=UUID('dd6ddd00-7406-11e7-9458-897782c5d96c'), message=u'hi3'),# Row(ts=UUID('d4422560-7406-11e7-9458-897782c5d96c'), message=u'hi2'),# Row(ts=UUID('d17dae30-7406-11e7-9458-897782c5d96c'), message=u'hi')]

這個例子隻使用了10個項目，所以我們可以作為懶惰的程序員，合并列表，然後對它們排序。如果我們想獲取更多的元素我們就需要k路歸并算法。我們将在以後的博客中進一步讨論這個話題。

此時，您應該對如何圍繞集群分發數據和請求有了更好的理解，這使得集群可以比使用單個分區時擴展得更大。記住每個問題都是不同的，沒有萬能的解決方案。

本文：http://jiagoushi.pro/node/1348
,
更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技照相最清晰的手機是哪一款
努比亞Z17S【天極網手機頻道】自從手機功能性越來越強，拍照現在已經成為了我們的生活方式，處處都離不開。而拍照功能作為近兩年手機功能亮點的主流，在硬件上也出現了規律性的變化。當然啦，手機高像素的攝像頭能為我們帶來更豐富的畫面細節，另外，同樣... 2022-12-27
科技天下hd守旗子攻略
今天看到很多人讨論玄鐵兵有人說無用有人說很肉說到底沒有數據就沒有發言權今天讓我用數據帶領大家深入了解兩大肉寵的秘密。首先，我們要确認兩個概念1.物理免傷=百分比削減物理傷害，與防禦為疊乘關系。舉例：某寵40%物防30%物免某人10000物理... 2022-11-29
科技微軟win10系統升級教程
Microsoft為所有用戶提供了Win10系統升級助手，官方Win10系統升級助手肯定會容易且效率高于自己，但許多小夥夥伴不知道在哪裡下載Win10系統升級助手，也不知道如何使用Win10系統升級助手，您可以看看本教程。具體步驟：1.要下... 2023-02-23
科技筆記本電腦連接無線網顯示未識别的網絡...
筆記本電腦連接無線網顯示未識别的網絡怎麼解決啊?打開電腦“控制面闆”，點擊“網絡連接”，選擇本地連接，右鍵點擊本地連接圖标後選“屬性”，在“常規”選項卡中雙擊“Internet協議(TCP/IP)”，選擇“使用下面的IP地址”，在IP地址中... 2022-06-20
科技一加手機小小屏幕大有可為
如果你的PPT的産品介紹頁需要加标注，你一般是怎麼添加的呢？是用哪種形式呢？我相信很多人可能不會花太多的心思在這個小細節上，但我今天在一加手機的宣傳圖中發現了他家設計師的小心思！我這裡直接把一加手機的宣傳圖放在這裡，大家自己看一下，這裡有什... 2022-12-13
科技進銷存軟件用哪種好
數字化的時代，使越來越多企業引入進銷存軟件，因為這是提升效率的一大助力，軟件管理總比紙筆墨方便，好使還省事而且精準，而目前市面上的進銷存軟件有很多，我們該如何挑選呢？下面列舉了幾個品牌進銷存的優勢：1.速達軟件速達軟件成立至今20多年，專注... 2022-11-27
科技電腦無法連接網絡怎麼辦
電腦無法連接網絡怎麼辦?方法一：找到我的電腦，右擊鼠标，選擇管理找到左側服務和應用程序選項，選擇服務找到WLANAutoConfig，選擇重啟此服務即可，現在小編就來說說關于電腦無法連接網絡怎麼辦?下面内容希望能幫助到你，我們來一起看看吧!... 2022-07-02
科技為什麼用手機玩王者榮耀老是卡
作者宅男遊戲推送王者榮耀作為一款現象級火爆手遊其吸金指數絕對讓人頭皮發麻但就是作為騰訊主打的金牌手遊卻随着一次又一次的更新，很多玩家發現自己的手機越玩越卡尤其是王者榮耀在推出高幀率模式之後開啟高頻率的時候順暢都果然有了很大的提高但是好景不長... 2023-01-26
科技 coreldraw命令大全
進入coreldraw之後，要展開工作，必須先創建新文件或打開已有文件，這也是CorelDRAW最基本的操作之一。本章節主要講解CorelDRAW的基本操作方法，這些知識是學習CorelDRAW最基礎内容，對後面的進階學習非常重要，希望同學... 2022-11-21
科技 qq新出的會員
蟄伏多年QQ會員今天有個小夥伴突然心血來潮，要跟差評君比QQ等級。。。小夥伴的QQ，52級其實，差評君已經很久沒用QQ了，等級什麼的，也完全不在意，但是既然要比，怎麼能慫！差評君的QQ，68級（至于為什麼要打馬賽克，除了不想透露QQ号外，實... 2022-10-21
科技快手送芒果會員
北京快手科技有限公司與湖南經視簽署戰略合作協議。紅網時刻11月19日訊（通訊員張語琴記者廖潔）近日，北京快手科技有限公司與湖南經視在北京簽署戰略合作協議。雙方将通過媒體号、達人号矩陣建設，短視頻IP打造，商業化運營等途徑，探索短視頻時代電視... 2022-12-16
科技怎樣看自己的手機号綁定了幾個
用了很久的号碼，我們很難想起都綁定了哪些東西，支付寶、微信等各種軟件，銀行卡等等一大堆東西，如果想要換号碼，要解綁這些，你還記得起來嗎!教大家幾招查詢自己手機号綁定的辦法!1、網站查詢有網站專門提供了此類查詢服務，例如REG007，輸入自己... 2022-12-05
科技目前cpu處理器排名
二手CPU、洋垃圾CPU處理器大全-随時更新文件查找。二手CPU、洋垃圾CPU處理器大全-随時更新文件查找。使用方法，按CTRLF鍵，在查找框中輸入你要查找的型号，看是不是名單中，如果在，那就是洋垃圾或者二手貨。。如果沒有找到具體型号，開頭... 2022-11-29
科技 macbookpro哪個配置性價比最...
MacBook已經問世一段時間了，在那段時間裡，它們已經鞏固了自己作為一些最受歡迎的筆記本電腦的地位。它們設計精良，易于使用，并具有一些出色的功能。但為什麼它們如此受歡迎？更重要的是，為什麼它們比基于Windows的筆記本電腦更好？在本文中... 2022-10-27
科技你見過這款手機嗎
随着手機功能不斷增加，無論是出行、購物、娛樂都能用手機搞定，人們在日常生活中似乎越來越離不開它。而手機的耗電量也随之劇增，即使将電池容量提升到4000mAh以上，也難以滿足用戶的需求，衆多消費者開始産生“低電量焦慮症”，也就是說當看到手機電... 2022-12-09
科技大數據怎麼定義
其實大數據具有3方面的特點第一個VOLUME，指的是數據的數量龐大，比如我們用excel去寫文檔，一個excel最多能寫1048576行，而大數據遠遠超級這個範圍，并且比數據庫的概念還要廣。第二個VELOCITY，指的是速度，也就算處理起來... 2022-11-05
科技汽車刹車系統到底該如何升級?
汽車刹車系統到底該如何升級?最為簡單，就是單活塞卡鉗換雙活塞卡鉗，這種是最為保險，一，不會打破車本身的刹車平衡，二，價錢合理，三，相對升級價錢與得到的效果合理，下面我們就來說一說關于汽車刹車系統到底該如何升級?我們一起去了解并探讨一下這個問... 2022-06-13
科技拉力競速3華麗操作
遊戲介紹《RushRally（拉力競速）》系列的第3部終于終于上架啦。此前玩過《RushRally2》的玩家，應該不會對拉力賽車的物理操作，精美畫質陌生，第三部在前作的基礎上有了更多的進步其次，第三部作品在第二部遊戲作品上保持了優點，采取新... 2022-11-08
科技黑鲨遊戲手機4s 測評
品玩10月13日訊，今日，黑鲨遊戲手機4S/Pro正式發布，搭載骁龍870/888Plus處理器，售價2699元起。黑鲨遊戲手機4S擁有玄黑、霧白兩款配色，全系搭載金屬中框，速度感拉，納米光刻紋理工藝，為科技賦予光影質感。該機搭載骁龍870... 2022-12-16
科技微信視頻有回音是什麼原因
微信視頻有回音是什麼原因?微信視頻時有回音原因：對方設備是不是開了外放模式（戴耳機試試），現在小編就來說說關于微信視頻有回音是什麼原因?下面内容希望能幫助到你，我們來一起看看吧!微信視頻有回音是什麼原因微信視頻時有回音原因：對方設備是不是開... 2022-07-05
科技硫酸銅在水産養殖用量
硫酸銅，對于廣大的消費者來說是相對比較陌生的，但是對于水産養殖戶來說并不算陌生，因為其在水産養殖上有着廣泛的應用。雖然硫酸銅大家常用的一種藥物，但是對于一些用法以及特性很多朋友卻不是很清楚，在此我将簡要介紹一下。五水硫酸銅晶體硫酸銅的特性... 2022-11-29
科技用手機号搜不到對方微信号怎麼辦
用手機号搜不到對方微信号怎麼辦?進行一些設置就好了首先需要找到相關設置選項，點擊菜單下的微信設置，我來為大家科普一下關于用手機号搜不到對方微信号怎麼辦?下面希望有你要的答案，我們一起來看看吧!用手機号搜不到對方微信号怎麼辦進行一些設置就好了... 2022-06-15
科技手機忘記了密碼怎麼辦不用刷機
手機現在是人手都有一部，很多人也意識到手機安全的重要性，都會給手機上一個安全鎖，也就是都會給手機的屏幕設置一個鎖屏幕嘛。但是大家在日常生活中使用手機是否會遇到過這樣的情況？就是手機的鎖屏密碼忘記了，怎也打不開。如果出去找維修師傅刷機或者是解... 2022-11-13
科技淘寶赤兔轉化率在後台怎麼查看
淘寶赤兔轉化率在後台怎麼查看?淘寶商家需要時刻關注店鋪各方面的數據，才能知道店鋪目前的發展狀況比如查看客服的接待人數和咨詢人數那麼，他抱商家怎麼看每天接待人數？，接下來我們就來聊聊關于淘寶赤兔轉化率在後台怎麼查看?以下内容大家不妨參考一二希... 2022-10-08
科技手機用哪個輸入法比較好用啊
【PConline資訊】來自移動互聯網第三方數據研究機構iiMediaResearch（艾媒咨詢）的數據顯示，中國手機網民選擇當前使用最多的是“搜狗輸入法”，使用搜狗的首要原因為“系統自帶”，iiMediaResearch分析師同時還認為，... 2022-11-05
科技值得購買的幾款性價比超高的手機
很多用戶想用上不錯的配置，但又糾結高配置手機價格又太貴，小編挑選了四款大品牌手機，同地性能方面也不錯，價格不超過2000元的産品推薦給大家。這些産品在各個方面雖然都沒有辦法和高性能旗艦級手機相比，但已經非常不錯。OPPOK10OPPOK10... 2023-01-01
科技幾百m怎麼壓縮分享給朋友看
很多時候視頻文件太大，上傳受到各種限制，下面這個視頻時長21分鐘，體積有1.27G，用這個方法可以壓縮成109M高清MP4格式，真是太厲害了。1.首先我們需要用到迅捷壓縮工具，打開後所有功能一目了然，支持5種壓縮方式：圖片壓縮、視頻壓縮、P... 2023-01-17
科技 excel表格導入cad
EXCEL在現實中的運用越來越廣泛，簡單的操作快可以帶來更便捷的方式，下面介紹如何從Excel中一個表格的數據導入到另一個表格操作方法01如圖，這裡我們有兩張表格，在表1中，有兩個人的數學成績，而在表2中，有兩個人的物理成績，我們要做的就是... 2022-12-10
科技鴻蒙系統會讓谷歌慌嗎
2012年，諾基亞在大屏手機和新智能系統的沖擊下，已經逐漸失去自己的市場，轉而由三星、蘋果和“中華酷聯”等手機占據手機市場的主流位置。小編拿着三星S5830把玩着，卡頓了就刷機，雖然新的系統可能存在着各種bug，但是會給用戶更多的新鮮感，真... 2022-11-18
科技期刊文獻查詢數據庫
目前，不少經濟商務類的期刊發行網絡版，一般都提供免費閱讀各期期刊目次頁的内容，有的還提供期刊論文全文的免費浏覽或電子郵件服務。（1）網絡經濟期刊數據庫EconomicJournalsontheWeb這是美國紐約州立大學SUNY屬下的Oswe... 2022-11-06

tft每日頭條

> 科技

> cassandra導出數據

cassandra導出數據

相关科技资讯推荐

热门科技资讯推荐

网友关注