樣本和樣本數據的區别-tft每日頭條

樣本和樣本數據的區别

生活更新时间:2025-07-04 21:11:21

在本篇文章中，我們将讨論機器學習和深度學習的不同領域中的一個熱門話題:零樣本和少樣本學習(Zero and Few Shot learning)，它們在自然語言處理到計算機視覺中都有不同的應用場景。

少樣本學習

在監督分類器中，所有的模型試圖學習的是區分不同的對象的的特征，無論數據是什麼形式存在的，例如圖像、視頻還是文本都是一樣的。而·少樣本學習的思想是通過比較數據來學習區分類，這樣模型使用的數據更少，并且比經典模型表現得更好。在少樣本學習中通常會使用支持集（support set）代替訓練集。

少樣本學習是一種元學習技術。元學習的意思是:學會學習。元學習是元認知的一個分支，研究的是對自身學習和學習過程的方法和認知過程。

支持集

支持集其實與訓練集的數據是一樣的，但由于學習方法不同所以我們稱之為支持集。

K-Way N-Shot支持集：支持集具有K類，每個類都有N樣本。 N-Shot意味着為每個類提供的樣本數。如果每個另類都有更多樣本，模型可以學習的更好。

樣本和樣本數據的區别（零樣本和少樣本學習）1

在較少的類中，模型可以更輕松地對數據進行分類。總的來說，我們可以說：更少的k和更多的n更好。

為什麼把他成做支持集呢？還記得SVM中的支持向量嗎，就是SVM中區别分類邊界的數據，支持集也是這個意思。

相似性函數

少樣本學習的想法是相似性函數。這意味着應該計算SIM（X，X’），其中“ SIM”是相似性函數，而X和X’是樣本。首先要做的是從大型數據集中學習相似性函數。然後将相似性函數應用于預測。

孿生網絡

孿生網絡使用正面和負樣本進行分類。以下是正和負樣本的示例：

（Tiger1，Tiger2，1）| （CAR1，CAR2，1）（Tiger1，Car2，0）| （Tiger1，Car1，0）

網絡結構就是這樣：

樣本和樣本數據的區别（零樣本和少樣本學習）2

孿生網絡首先使用數據集中的兩個圖像，然後使用一些層（在這裡的圖像數據示例，使用卷積層），創建輸入的編碼向量。最後使用差異層和不同的損失函數嘗試學習相似性函數。

輸入該網絡的數據是：

XA：錨數據：從數據集随機選擇
X ：正數據：與錨相同的類
X-：負數據：錨不同的類别

F函數（CNN）用于創建編碼向量。在編碼向量後，我們可以使用：

D = || f（x^ ） - f（x^a）||²d- = || f（x^a）-f（x^ - ）||²

有了邊緣alpha和相似性值，我們可以決定樣本的類别。

我們希望d-> =（d ） alpha，否則，損失為（d ） alpha-（d-）。

因此損失函數是：max {（d ） alpha-（d-）}

Few-Shot

少樣本學習的基本思想是給定一個k-way n-shot的支持集，在大規模訓練集上訓練一個暹羅網絡。然後使用查詢的方式來預測樣本的類别。

在訓練少樣本學習之前，首先我們預訓練CNN的特征提取(又稱嵌入)，使用标準監督學習或Siamese網絡對CNN進行預訓練。

在微調中，(x_j, y_j)是支持集中有标記的樣本。f(x_j)是經過預訓練的CNN提取的特征向量。P_j = Softmax(W.f(x_j) b)作為預測。這可以通過使用微調來讓W = M，b = 0。，這意味着在支持集中學習W和b:

樣本和樣本數據的區别（零樣本和少樣本學習）3

樣例

樣本和樣本數據的區别（零樣本和少樣本學習）4

考慮 3-way 2-shot的支持集。在每個圖像上應用神經網絡F以進行特征提取。由于每個類都有兩個圖像，因此每個類都有兩個特征向量。可以得到這兩個向量的均值。由于我們有3類别，我們将有3個平均的向量。現在我們把它們标準化。每個向量是每個類的表示。對于預測，我們輸入一個查詢圖像。得到查詢圖像的特征向量。我們再将其标準化，然後将這個向量與3個均值向量進行比較。

樣本和樣本數據的區别（零樣本和少樣本學習）5

通過比較這樣就得到了我們的預測分類

單樣本學習

one-shot learning是少樣本學習的一種特殊情況，即從一個樣本學習并再次識别物體。

單樣本的一種方法是使用CNN和帶有(n 1)的softmax來檢測模型看到的圖像中是否存在新的圖像。但是當你的訓練數據集中沒有足夠的樣本時，他并不能很好地工作。并且除了新的類别外還必須在SoftMax層中使用（M 1）神經元再次訓練模型。

但是我們可以使用相似函數。

d(img1, img2) =圖像間差異程度，若d(img1, img2) <= r:相同;若d(img1, img2) > r:不同

零樣本學習

首先，讓我們看看為什麼零樣本學習很重要。我們面對的是數量龐大且不斷增長的類别。很難收集和注釋實例。并且新的類别不斷出現。

零樣本學習是人類可以做到的，但是經典的機器學習不能。例如跨語言字典歸納(每一對語言，每個單詞是一個類别)。

從監督到零樣本的模式識别

我們以前在經典的分類模型中的做法是這樣的:

樣本和樣本數據的區别（零樣本和少樣本學習）6

但當出現新的類别時，該怎麼做呢?關鍵是零樣本學習。零樣本學習的主要思想是将類别嵌入為向量。

樣本和樣本數據的區别（零樣本和少樣本學習）7

特征類别向量映射:v = f(x)

如果出現了新的類别，我們可以得到其新的類别向量嵌入，然後使用最近的鄰居并将這些向量視為标簽。數據類别向量圖可以推廣到新類别。相當于我們正在從過去的經驗中進行遷移學習。

零樣本學習是如何工作的?

在回歸/分類方法的訓練步驟中，我們會得到一些已知的類-類别向量v和數據x。而我們想要學習的是數據屬性v=f(x)。例如使用支持向量機(SVM)。

在測試階段，我們想要為新類指定向量v*。然後使用f(x*)來查找新的分類。這種方法簡單且快速，而且還具有類别的可分離性。

在零樣本學習中，使用energy函數來判斷類别是否匹配。設x是數據，v是類别向量。在訓練階段，我們訓練energy函數E(x,v)=x 'Wv(這被稱為返回标量的雙線性嵌入)。

數據和任務匹配(x=v)時E_w(x,v)會變得很大，當數據和任務不匹配時(x!=v)，E_w(x,b)很小。訓練的目标是最大化這個函數的邊緣間距。

而在測試階段:

分類新類實例x*,為一些新類指定v*向量計算每個v*的E(x*， v*),找到最大邊際的類别，最大邊際可分離性意味着更高的準确性，但與經典的機器學習模型不同，它是複雜和緩慢的。

從哪裡獲得類别向量呢?

“監督”來源:(1)類屬性的手工标注，(2)分類類層次的矢量編碼

“無監督”來源:現有的非結構化數據(Word2Vec就是一個例子)

零樣本學習的一些問題

1、領域轉移時零樣本學習需要重新訓練/測試

樣本和樣本數據的區别（零樣本和少樣本學習）8

2、多标簽zero-shot

有時我們想要多标簽分類，而不是單标簽分類，這是處理分類向量就會很麻煩，這時可以添加每一個可能的組合向量，例如:樹，樹山，樹海灘，…，但是這其實造成了實際分類數量的成倍的增長。

3、深度網絡能夠進行零樣本學習

樣本和樣本數據的區别（零樣本和少樣本學習）9

将許多經典的和最新的遷移學習算法作為特殊情況目前還無法驗證否有好處

目前零樣本學習的進展和應用

1、将其用于音頻識别|無人機視覺類向量=>上下文向量，通過上下文向量對任何新的上下文進行泛化例如在無人機視覺中，協變量上下文向量:距離、俯仰、速度、橫搖、偏航等

2、跨語言詞典歸納：查找不同語言的單詞對應

總結

零樣本和少樣本學習方法減少了對注釋數據的依賴。因此對于新的領域和收集數據的困難的領域他們是很重要的。少樣本(Few-Shot Learning FSL)是一種機器學習問題(由E, T和P指定)，其中E隻包含有限數量的例子，并帶有監督信息。現有的FSL問題主要是監督學習問題。零樣本學習(Zero-shot learning, ZSL)是機器學習中的一個問題解決方案，學習者在測試時從訓練中沒有觀察到的類中觀察樣本，并預測他們所屬的類。

作者：Amirhossein Abaskohi

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

生活耳塞可以共用嗎
一般情況下耳塞最好不要共用，由于耳塞也算是一種貼身物品，塞進耳朵的同時很容易沾染他人耳道的一些髒物，甚至會容易造成一些耳道疾病的傳染，所以為了安全起見最好不要共用，可适當的選用一次性耳塞最佳，還要保養好耳塞。耳塞是比較常見的物品，一般是可以共用的，但不建議共用耳塞，耳塞也算是一種貼身物品，，耳朵容易... 2023-07-18
生活炸雞柳用黃面包糠還是白面包糠好吃炸雞...
雞柳的做法比較多，炸着吃是最常見的一種吃法，它的做法比較簡單，操作起來很方便，很多人都會自己在家炸雞柳吃。炸雞柳一般都會裹面包糠，可以用白色面包糠，也可以用黃色面包糠，但是黃色面包糠炸出來會更好看一些。炸雞柳用黃面包糠還是白面包糠好吃黃面包糠會更好看一些，但是味道和口感沒有什麼區别。從顔色上來說，黃... 2023-07-18
生活沒有巴旦木的奶棗做法怎樣做沒有巴旦木...
1、紅棗30顆，黃油10克，棉花糖90克，奶粉20克，杏仁30個。2、紅棗去核，把杏仁塞進去。3、把黃油放不粘鍋裡小火加熱至黃油融化。4、倒入棉花糖，一直攪拌，最小火至全部融化。5、倒入奶粉，攪拌至全部融化關火。6、倒入紅棗，翻拌到每一個紅棗都沾上糖。7、再一個一個扯下來，裹一層奶粉，完成，超級簡單... 2023-07-18
生活社保繳費檔次可以用手機查到嗎2023...
靈活就業社保，那麼參保人可以根據自己的經濟能力，選擇合适的繳費檔次來繳納，接下來跟小編一起來看看社保繳費檔次六個檔次分别是什麼？可以用手機查到嗎？一、社保繳費檔次六個檔次分别是什麼社保繳費檔次的六個檔次分别是當地上年度職工月平均工資水平的40%、60%、80%、100%、200%和300%。若是參保... 2023-07-18
生活 2023年五一高鐵票會漲價嗎2023...
五一勞動節是生活中比較常見的一個節假日，很多人都會放假回家或者外出遊玩，所以很多人都會做火車高鐵出行。不過五一高鐵票一般是不會漲價的，這個都是統一定價的，不會随意更改。2023年五一高鐵票會漲價嗎一般不會漲價，這都是提前規定好的價格，不會随意更改的。1、五一勞動節假期屬于出行高峰階段，高鐵/火車票供... 2023-07-18
生活百家姓的第一個姓是什麼
傳統的百家姓第一個姓為趙，後幾名為錢孫李、周吳鄭王、馮陳褚衛、蔣沈韓楊、朱秦尤許、何呂施張、孔曹嚴華。2020年最新排名的百家姓第一個是李，後幾名的排名為王張劉陳、楊趙黃周、吳徐孫胡、朱高林何。傳統的百家姓第一個姓為趙，後幾名為錢孫李、周吳鄭王、馮陳褚衛、蔣沈韓楊、朱秦尤許、何呂施張、孔曹嚴華。20... 2023-07-18
生活白衣服洗衣機洗不幹淨
白衣服用洗衣機清洗不幹淨，可以将其用溫水加入洗滌劑浸泡一會，等衣服上的油漬溶解後放入洗衣機中，也可按照分類的方式，比較髒的需要提前浸泡，放入洗衣機内的水位可以适當的調低，漂洗衣服時可适當調高水量。1、溫水浸泡白衣服在洗衣機中很難徹底清洗幹淨，我們可以将衣服用溫水浸泡，加入适量的洗衣粉，等衣服上的油漬... 2023-07-18
生活奶棗杏仁做法比例網紅小零食杏仁奶棗的...
1、杏仁奶棗的用料：紅棗100克、大杏仁40克、無鹽黃油30克、棉花糖90克、細砂糖8克、奶粉25克25克、表面撒的奶粉20克。2、準備好所用的食材，分别稱重好重量備用。3、把紅棗清洗幹淨，用廚房紙擦幹紅棗表面的水分，用吸管或者泡芙裱花嘴，取出棗核。4、棗核都去掉以後，把大杏仁塞入紅棗裡，填滿棗核空... 2023-07-18
生活中元節是什麼節
中元節為三大鬼節之一，别名“七月節”、“亡人節”、“施孤”，時間為每年農曆的七月十五，唐朝時期皇帝會下令三日之内不能宰殺漁獵、南北朝時期帝王與大臣還會供佛濟度苦厄衆生，民間有布田、放燈等各種活動，寄托對逝去之人的思念。中元節又為“七月節”，是三大鬼節之一，中元節是道教的說法，名稱起源為北魏時期，在某... 2023-07-18
生活榴蓮怎麼選才是最好的榴蓮不熟打開了怎...
榴蓮是一種口感獨特、風味濃郁的熱帶水果，在東南亞等地區廣受歡迎。但是，要想選到最好的榴蓮并不容易，因為它有很多種類，每一種都有自己的特點和判斷方法，那榴蓮怎麼選才是最好的？不熟打開了怎麼催熟？一、榴蓮怎麼選才是最好的？1、外觀選擇好的榴蓮外皮應該均勻光滑，沒有明顯的破損和裂紋。此外，榴蓮的外皮顔色應... 2023-07-18
生活榨油機怎麼分幾級壓榨
二級壓榨是隻有一個高壓圓排，兩個壓力點，三級壓榨榨油機是有兩個高壓圓排，三個壓力點，四級壓榨榨油機有三個高壓圓排，也就是四個壓力點，榨油機要根據農作物的含油量進行選擇，高油農作物不宜選擇4級榨油機。榨油機主要有二級壓榨、三級壓榨、四級壓榨三種級别，二級壓榨隻有一個高壓圓排，兩個壓力點，榨油的力度比較... 2023-07-18
生活老鼠嫁女所揭示的道理老鼠嫁女的故事
1、說明的道理是：現實生活中，很多人都在一味地追求着完美，殊不知完美的未必是适合的。那個讓你感覺輕松、舒服、快樂、幸福、适合的才是屬于你的，才是能屬于你的，無論是人、是工作、還是夢想。2、老鼠找個貓當女婿，最後貓咪給它的女兒吃了。不要攀附權貴，做什麼事都要應該結合自己的實際情況而去做，老鼠找來找去，... 2023-07-18
生活魚腥草能長期泡水喝嗎
魚腥草不建議長期泡水喝，其中含有含有微量毒性，對于肝髒和腎髒有一定的影響。且魚腥草屬于寒性植物，長期食用還可能導緻腸胃不适。魚腥草具有清熱解毒、祛風除濕的作用，但過量食用或飲用則不利于身體健康。魚腥草中含有微量毒性，因此不建議長期泡水喝。魚腥草中的毒性對于腎髒有一定的影響，長期飲用可能造成腎髒功能受... 2023-07-18
生活可能南方的陽光照着北方的風是什麼歌
最近網上又有很多歌曲火了，大家對這些突然爆火的歌曲名字也都十分的好奇。可能南方的陽光照着北方的風是什麼歌？這首歌曲近期在抖音上面出現的頻率很高，不少網友表示喜歡該歌曲，下面來看下關于抖音可能南方的陽光照着北方的風歌名及歌詞分享。可能南方的陽光照着北方的風是什麼歌歌名：《可能》，歌手:程響歌詞分享可能... 2023-07-18
生活冠心病人出門為什麼要帶應急藥物
據一份關于我國院前死亡病例的分析報告顯示，院前死亡已占到人口總死亡數68.35%，而猝死在院前死亡中占第一位。院前死亡指沒有送到醫院搶救，就已經死亡。西安交通大學醫學院第一附屬醫院急救中心王雪副教授認為，在疾病突發時，沒有及時服用急救藥物，是導緻猝死的主要原因之一。猝死多見于中老年人，其中源于心血管... 2023-07-18
生活愛舒床墊怎麼樣呢
根據相關的研究數據表面，現如今我們國家，失眠已經越來越頻繁了，經常失眠的人群也在不斷的擴大當中。我們都知道良好的睡眠質量對我們的健康起着非常重要的作用。失眠的問題不僅僅影響了我們的生活和工作，也影響了我們的健康。好的床墊能夠很好的改善我們的失眠狀況。愛舒床墊是近些年來市場評價比較高的一個品牌，實踐證... 2023-07-18
生活玉石床墊好在哪些方面
床墊是家家戶戶必備的一件床上用品，一款舒适的床墊能給人們帶來優質的睡眠。目前市場上的床墊種類較多，玉石床墊便是其中一款很好的床墊，它對人們的身體健康以及休息時間都有很大的幫助。但是還是會有部分朋友不太了解玉石床墊，并不知道它究竟怎麼樣。那麼下面小編就來給大家具體說說玉石床墊好在哪些方面，感興趣的朋友... 2023-07-18
生活代表土最旺的字有哪些帶土字旁的字寓意...
每個人一出生就注定了一些運勢，因為生辰八字帶給我們的信息就是如此，因此許多父母會根據孩子五行八字來給他起名，若是缺失那就補齊以平衡運勢。下面是小編整理的代表土最旺的字有哪些，希望能夠幫助到大家。代表土最旺的字有哪些1、軒：該字意為高昂、氣度不凡，軒昂壯麗。2、堅：該字意為堅強、堅定、不改初衷。3、坤... 2023-07-18
生活蟑螂怕什麼
蟑螂害怕硼酸，當蟑螂誤食硼酸之後，會脫水而死，洗衣粉也有消滅蟑螂的作用，将洗衣粉兌水放置在角落中，可以使蟑螂中毒而死，另外蟑螂還害怕幹燥的環境以及曬幹的橘子皮，兩者能夠達到驅趕蟑螂的作用。1、硼酸蟑螂害怕硼酸物質，誤食之後蟑螂會脫水而死，在日常生活中我們可以取兩勺的硼酸粉以及一勺的糖攪拌均勻，放置在... 2023-07-18
生活世界上最大的水母是什麼水母世界上最大...
提到水母，很多人都會認為它們小小的，看起來晶瑩剔透，猶如一個個水中的精靈一般，但是世界之大無奇不有，水母也有很多體型碩大的，那你知道世界上最大的水母是什麼水母？世界上最大的水母有多大？下面就和小編一起看一看世界上最大的水母是北極霞水母，它的觸手長達40多米，接下來跟小編一起來看看最新相關資訊吧。世界... 2023-07-18
生活 2023深圳社保繳費基數有幾個檔次2...
同樣繳納社保費用，但是因為選擇的深圳社保檔次不同，所以我們要承擔的費用，以及享受到的待遇也不同。即便是有工作單位，因為單位申報的社保繳費檔次不同，也會直接影響到我們的社保待遇。而且很多人是自行交社保，那麼也要注意好繳費檔次具體标準。接下來跟小編一起來看看深圳社保繳費檔次是怎樣的？深圳社保繳費基數有幾... 2023-07-18
生活修複車漆劃痕小妙招常見的四種車漆劃痕...
1、淺劃痕修複等于是劃傷了車漆表面而已，修複方法很簡單，隻需要用混合劑按照劃痕的線路擦拭處理，等擦的劃痕消失了，用細混合劑重複擦一遍再打蠟就可以了。2、輕劃痕修複就是比淺的稍微深一點，但是買有露出金屬面，隻需要用稍柔的筆尖沾點油漆點上去，等到幹燥以後就可以了。3、深劃痕修複基本是露出了金屬面，尤其是... 2023-07-18
生活大暑是幾月幾日
大暑為每年的7月22～24日之間，2019年大暑的時間為7月23日，是二十四節氣之一，民間有飲伏茶、燒伏香以及喝羊頭湯等習俗，大暑正處于三伏中的中伏，因此天氣較為炎熱，晝夜時差較大，需要合理安排作息時間。大暑的時間為每年的7月22～24日之間，2019年大暑的時間是7月23日，大暑是二十四節氣之一，... 2023-07-18
生活 2023年長沙社保一個月要交多少錢長...
長沙社保基數是按照繳費基準值來進行調整的，每年社會平均工資上漲，勢必也會影響到社保繳費基數的上下限。而且很多單位一直都是按照最低标準交社保費用，社保繳費基數上調，那麼我們要承擔的社保費用也同樣會提升。下面跟小編一起來看看2023年長沙社保繳費基數是多少，長沙現在社保一個月要交多少錢長沙社保繳費基數如... 2023-07-18
生活蠶絲被和羽絨被哪個好
人們的需求不用，當然選擇的被子材質也是不同的，最近聽到有不少人在家居用品的市場上正在讨論蠶絲被和羽絨被哪個好這個問題，為了能幫助這些人解決這個問題，下面小編就為大家詳細的來介紹下蠶絲被和羽絨被的一些信息，一起跟着小編往下來看看吧。蠶絲被和羽絨被哪個好1、蠶絲被優點蠶絲被具有順滑的手感，舒服的親膚感。... 2023-07-18
生活床單多久洗一次
床上用品屬于貼身的生活用品，其中床單的清潔度也影響着人們的健康，很多人就會疑問床單多久洗一次才合理，小編就在這裡總結了在不同季節床單多久洗一次，還有床單洗滌劑和方法的小常識哦！床單多久洗一次一、床單洗滌頻率床單洗滌頻率1、床單多久洗一次—冬季很多人認為在冬季的時候，床單顯然是可以久一點換洗，因為在... 2023-07-18
生活得了甲流吃什麼水果好得快一點得了甲流...
甲流是比較常見的一種傳染性病毒，它可以傳染很多的人，尤其是體質比較差的人群，比如老人和小孩。得了甲流可以吃一些水果補充營養，比如蘋果、橙子、草莓、香蕉以及猕猴桃等，但是不建議吃來西瓜、榴蓮以及梨子。得了甲流吃什麼水果好得快一點甲型流感患者可以吃橙子、猕猴桃、蘋果、西瓜或草莓等水果。甲型流感通常是一種... 2023-07-18
生活 2023年哈爾濱醫保繳費基數是多少？
我市以2023年度全省繳納基本養老保險費使用的上年度全口徑就業人員平均工資77160.00元（6430.00元/月）。下面跟小編一起來看看2023年哈爾濱職工醫保繳費基數是多少？2023年我市職工醫保繳費基數确定了！全市參保單位及廣大參保群衆，注意了，2023年度職工基本醫療保險繳費基數有變動了。為... 2023-07-18
生活電壓力鍋怎麼蒸米飯
電壓力鍋蒸米飯需要取适量的大米用清水沖洗幹淨，去除裡面的雜質，之後将其放入鍋中，加入相同的含量的清水，接通電源，打開開關，隻需20分鐘左右的時間便能蒸熟，大家也可以按照自己電壓力鍋所設置的程序去蒸。1、米飯處理電壓力鍋蒸米飯需要先将米飯進行處理，大米的含量可以在1量杯左右，用清水将大米多淘洗幾次，去... 2023-07-18
生活除和除以的區别
除是除數在前，被除數在後是，除以是被除數在前，除數在後，例如5除30等于6，30除以5等于6，兩者的除法算式雖然不同，但是結果卻是相同的，目前新版的小學數學教材以及将除去掉，按照國際通用的，被除數除以除數等于商的的規則進行設置。除是除數在前，被除數在後，除以是被除數在前，除數在後，例如5除30等于6... 2023-07-18

tft每日頭條

> 生活

> 樣本和樣本數據的區别

樣本和樣本數據的區别

相关生活资讯推荐

热门生活资讯推荐

网友关注