fine-line擴展器教程-tft每日頭條

fine-line擴展器教程

生活更新时间:2025-04-04 06:37:49

fine-line擴展器教程（幹貨BERTfine-tune）1

從 11 月初開始，google-research 就陸續開源了 BERT 的各個版本。google 此次開源的 BERT 是通過 tensorflow 高級 API—— tf.estimator 進行封裝 (wrapper) 的。因此對于不同數據集的适配，隻需要修改代碼中的 processor 部分，就能進行代碼的訓練、交叉驗證和測試。

在自己的數據集上運行 BERT

BERT 的代碼同論文裡描述的一緻，主要分為兩個部分。一個是訓練語言模型（language model）的預訓練（pretrain）部分。另一個是訓練具體任務 (task) 的 fine-tune 部分。在開源的代碼中，預訓練的入口是在 run_pretraining.py 而 fine-tune 的入口針對不同的任務分别在 run_classifier.py 和 run_squad.py。其中 run_classifier.py 适用的任務為分類任務。如 CoLA、MRPC、MultiNLI 這些數據集。而 run_squad.py 适用的是閱讀理解 (MRC) 任務，如 squad2.0 和 squad1.1。

預訓練是 BERT 很重要的一個部分，與此同時，預訓練需要巨大的運算資源。按照論文裡描述的參數，其 Base 的設定在消費級的顯卡 Titan x 或 Titan 1080ti(12GB RAM) 上，甚至需要近幾個月的時間進行預訓練，同時還會面臨顯存不足的問題。不過所幸的是谷歌滿足了 Issues#2 裡各國開發者的請求，針對大部分語言都公布了 BERT 的預訓練模型。因此在我們可以比較方便地在自己的數據集上進行 fine-tune。

下載預訓練模型

對于中文而言，google 公布了一個參數較小的 BERT 預訓練模型。具體參數數值如下所示：

Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters
模型的下載鍊接可以在 github 上 google 的開源代碼裡找到。對下載的壓縮文件進行解壓，可以看到文件裡有五個文件，其中 bert_model.ckpt 開頭的文件是負責模型變量載入的，而 vocab.txt 是訓練時中文文本采用的字典，最後 bert_config.json 是 BERT 在訓練時，可選調整的一些參數。
修改 processor
任何模型的訓練、預測都是需要有一個明确的輸入，而 BERT 代碼中 processor 就是負責對模型的輸入進行處理。我們以分類任務的為例，介紹如何修改 processor 來運行自己數據集上的 fine-tune。在 run_classsifier.py 文件中我們可以看到，google 對于一些公開數據集已經寫了一些 processor，如 XnliProcessor,MnliProcessor,MrpcProcessor 和 ColaProcessor。這給我們提供了一個很好的示例，指導我們如何針對自己的數據集來寫 processor。

對于一個需要執行訓練、交叉驗證和測試完整過程的模型而言，自定義的 processor 裡需要繼承 DataProcessor，并重載獲取 label 的 get_labels 和獲取單個輸入的 get_train_examples,get_dev_examples 和 get_test_examples 函數。其分别會在 main 函數的 FLAGS.do_train、FLAGS.do_eval 和 FLAGS.do_predict 階段被調用。

這三個函數的内容是相差無幾的，區别隻在于需要指定各自讀入文件的地址。

以 get_train_examples 為例，函數需要返回一個由 InputExample 類組成的 list。InputExample 類是一個很簡單的類，隻有初始化函數，需要傳入的參數中 guid 是用來區分每個 example 的，可以按照 train-%d’%(i) 的方式進行定義。text_a 是一串字符串，text_b 則是另一串字符串。在進行後續輸入處理後 (BERT 代碼中已包含，不需要自己完成) text_a 和 text_b 将組合成 [CLS] text_a [SEP] text_b [SEP] 的形式傳入模型。最後一個參數 label 也是字符串的形式，label 的内容需要保證出現在 get_labels 函數返回的 list 裡。

舉一個例子，假設我們想要處理一個能夠判斷句子相似度的模型，現在在 data_dir 的路徑下有一個名為 train.csv 的輸入文件，如果我們現在輸入文件的格式如下 csv 形式：

複制代碼

1, 你好, 您好 0, 你好, 你家住哪

那麼我們可以寫一個如下的 get_train_examples 的函數。當然對于 csv 的處理，可以使用諸如 csv.reader 的形式進行讀入。

複制代碼

def get_train_examples(self, data_dir): file_path = os.path.join(data_dir, 'train.csv') with open(file_path, 'r') as f: reader = f.readlines() examples = [] for index, line in enumerate(reader): guid = 'train-%d'%index split_line = line.strip().split(',') text_a = tokenization.convert_to_unicode(split_line[1]) text_b = tokenization.convert_to_unicode(split_line[2]) label = split_line[0] examples.append(InputExample(guid=guid, text_a=text_a, text_b=text_b, label=label)) return examples

同時對應判斷句子相似度這個二分類任務，get_labels 函數可以寫成如下的形式：

複制代碼

def get_labels(self): return ['0','1']

在對 get_dev_examples 和 get_test_examples 函數做類似 get_train_examples 的操作後，便完成了對 processor 的修改。其中 get_test_examples 可以傳入一個随意的 label 數值，因為在模型的預測（prediction）中 label 将不會參與計算。
修改 processor 字典
修改完成 processor 後，需要在在原本 main 函數的 processor 字典裡，加入修改後的 processor 類，即可在運行參數裡指定調用該 processor。

複制代碼

processors = { "cola": ColaProcessor, "mnli": MnliProcessor, "mrpc": MrpcProcessor, "xnli": XnliProcessor, "selfsim": SelfProcessor # 添加自己的 processor }
運行 fine-tune
之後就可以直接運行 run_classsifier.py 進行模型的訓練。在運行時需要制定一些參數，一個較為完整的運行參數如下所示：

複制代碼

export BERT_BASE_DIR=/path/to/bert/chinese_L-12_H-768_A-12 # 全局變量下載的預訓練 bert 地址 export MY_DATASET=/path/to/xnli # 全局變量數據集所在地址 python run_classifier.py \ --task_name=selfsim \ # 自己添加 processor 在 processors 字典裡的 key 名 --do_train=true \ --do_eval=true \ --dopredict=true \ --data_dir=$MY_DATASET \ --vocab_file=$BERT_BASE_DIR/vocab.txt \ --bert_config_file=$BERT_BASE_DIR/bert_config.json \ --init_checkpoint=$BERT_BASE_DIR/bert_model.ckpt \ --max_seq_length=128 \ # 模型參數 --train_batch_size=32 \ --learning_rate=5e-5 \ --num_train_epochs=2.0 \ --output_dir=/tmp/selfsim_output/ # 模型輸出路徑
BERT 源代碼裡還有什麼
在開始訓練我們自己 fine-tune 的 BERT 後，我們可以再來看看 BERT 代碼裡除了 processor 之外的一些部分。

我們可以發現，process 在得到字符串形式的輸入後，在 file_based_convert_examples_to_features 裡先是對字符串長度，加入 [CLS] 和 [SEP] 等一些處理後，将其寫入成 TFrecord 的形式。這是為了能在 estimator 裡有一個更為高效和簡易的讀入。

我們還可以發現，在 create_model 的函數裡，除了從 modeling.py 獲取模型主幹輸出之外，還有進行 fine-tune 時候的 loss 計算。因此，如果對于 fine-tune 的結構有自定義的要求，可以在這部分對代碼進行修改。如進行 NER 任務的時候，可以按照 BERT 論文裡的方式，不隻讀第一位的 logits，而是将每一位 logits 進行讀取。

BERT 這次開源的代碼，由于是考慮在 google 自己的 TPU 上高效地運行，因此采用的 estimator 是 tf.contrib.tpu.TPUEstimator, 雖然 TPU 的 estimator 同樣可以在 gpu 和 cpu 上運行，但若想在 gpu 上更高效地做一些提升，可以考慮将其換成 tf.estimator.Estimator, 于此同時 model_fn 裡一些 tf.contrib.tpu.TPUEstimatorSpec 也需要修改成 tf.estimator.EstimatorSpec 的形式，以及相關調用參數也需要做一些調整。在轉換成較普通的 estimator 後便可以使用常用的方式對 estimator 進行處理，如生成用于部署的.pb 文件等。
GitHub Issues 裡一些有趣的内容
從 google 對 BERT 進行開源開始，Issues 裡的讨論便異常活躍，BERT 論文第一作者 Jacob Devlin 也積極地在 Issues 裡進行回應，在交流讨論中，産生了一些很有趣的内容。

在 GitHub Issues#95 中大家讨論了 BERT 模型在今年 AI-Challenger 比賽上的應用。我們也同樣嘗試了 BERT 在 AI-Challenger 的機器閱讀理解（mrc）賽道的表現。如果簡單得地将 mrc 的文本連接成一個長字符串的形式，可以在 dev 集上得到 79.1% 的準确率。

如果參考 openAI 的 GPT 論文裡 multi-choice 的形式對 BERT 的輸入輸出代碼進行修改則可以将準确率提高到 79.3%。采用的參數都是 BERT 默認的參數，而單一模型成績在賽道的 test a 排名中已經能超過榜單上的第一名。因此，在相關中文的任務中，bert 能有很大的想象空間。

在 GitHub Issues#123 中，@hanxiao 給出了一個采用 ZeroMQ 便捷部署 BERT 的 service，可以直接調用訓練好的模型作為應用的接口。同時他将 BERT 改為一個大的 encode 模型，将文本通過 BERT 進行 encode，來實現句子級的 encode。此外，他對比了多 GPU 上的性能，發現 bert 在多 GPU 并行上的出色表現。
總結
總的來說，google 此次開源的 BERT 和其預訓練模型是非常有價值的，可探索和改進的内容也很多。相關數據集上已經出現了對 BERT 進行修改後的複合模型，如 squad2.0 上哈工大 (HIT) 的 AoA DA BERT 以及西湖大學（DAMO）的 SLQA BERT。在感謝 google 這份付出的同時，我們也可以借此站在巨人的肩膀上，嘗試将其運用在自然語言處理領域的方方面面，讓人工智能的夢想更近一步。
,
更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

生活普通快遞能發身份證嗎
普通快遞能發身份證嗎?琅琊新聞網11月2日訊（記者王芬）為了維護社會穩定，按國家郵政局要求，從11月1日起到明年3月底，全國範圍内集中開展危爆物品、寄遞物流清理整頓行動，全行業全面落實執行“收寄驗視實名收寄過機安檢”“三個100%”制度，實... 2023-01-12
生活鳴人在博人傳中的六道模式
日本動漫火影忍者《博人傳》漫畫劇情中，内容出現燃點。随着大筒木一式的消失，川木擺脫大筒木一式的“楔”。然而，一度失去的“楔”，再次出現在川木身上。不僅如此，川木當着漩渦鳴人的面，對漩渦博人出手了，漩渦博人的胸膛被貫穿，倒地不起。川木太“愛”... 2022-12-11
生活甲醛超标會讓身體有什麼不良反應
一說到甲醛，中國老百姓稱得上“聞虎色變”，這是每個家庭都離不開的一個問題，不管你是新房裝修，還是老房改造，都有甲醛問題，甚至一些住了十幾二十年的房子，也有甲醛問題，這是避免不了的。甲醛檢測劑，簡單的十幾塊錢便可測試家裡的甲醛甲醛危害嚴重麼？... 2022-11-28
生活海參最新的吃法
海參是什麼呢！！！！海參是生活在海邊至8000米的海洋軟體動物。他的身體呈圓筒狀，渾身長滿肉刺。海參多栖息于水深13-15m的海藻繁茂、風浪沖擊小、水流緩慢、透明度較大、無大量淡水注入的海區。生活生深自低潮線以下2-20m，幼小者生活在淺水... 2023-02-23
生活家常微波爐蛋糕的做法
家常微波爐蛋糕的做法?材料：雞蛋2個，面粉40克，泡打粉1/2茶匙，色拉油1/2大匙，牛奶30克，白糖40克，我來為大家講解一下關于家常微波爐蛋糕的做法?跟着小編一起來看一看吧!家常微波爐蛋糕的做法材料：雞蛋2個，面粉40克，泡打粉1/2茶... 2022-07-19
生活感覺自己真的老了很多
感覺自己真的老了很多?老了，真的感覺老了一切都變化太大，再不說那些胡話老了，純真的心靈老了，不過僅僅二三十出頭嗎？卻真的感覺老了我真的老了，我已嘗過太多了天真離我越來越遠，我卻根本不留不住它我真的老了嗎？看見受傷打架我好害怕生存，說白了更像... 2023-02-18
生活紅眼回歸boff有多少提升
今天淩晨，暴雪官方宣布了開放安格瑞拉和沙塔爾天空衛隊任務和日常現已加入遊戲内容：這項測試将在團本開測前截止。很多新玩家可能對這兩個新聲望陣營有所陌生，這裡介紹一下：奧格瑞拉奧格瑞拉是刀鋒山一群被埃匹希斯水晶影響并脫胎換骨的食人魔氏族。想要和... 2022-12-02
生活阿彌陀佛跟南無阿彌陀佛有區别嗎
7月1号星期五氣溫25°晴休息了一晚，體力也恢複好了。今天就在縣城走走。先去農貿市場附近看了看。這裡的瓜果蔬菜，都是本地人自己種的，看着好新鮮脆嫩，就像剛從地裡采摘下來一樣，還帶着泥土的芳香，就拿過來了，濃濃的原汁原味的感覺。有的要價好像很... 2023-03-28
生活枸杞頭為什麼要焯水啊
枸杞頭為什麼要焯水啊?枸杞頭焯水是為了去掉裡面青澀的味道，我來為大家講解一下關于枸杞頭為什麼要焯水啊?跟着小編一起來看一看吧!枸杞頭為什麼要焯水啊枸杞頭焯水是為了去掉裡面青澀的味道。将枸杞頭處理幹淨，接着起鍋燒水，水開後将洗淨的枸杞頭放入鍋... 2022-07-13
生活曉夢大師的真實身份
大家猜了一個多星期掩日的身份原本以為會在第7集公布，結果實在是太過于驚喜，到頭來，觀衆們還是被擺了一道，醒醒吧，這是夢境，一切皆有可能，你要說是認真，那就真的輸了。這一出套娃行為，讓得原本6.4分的滄海橫流，向更低分數前進了一大步。套娃掩日... 2023-03-18
生活什麼叫做黃花大閨女
自古以來，中國民間總會有許多對不同身份的人，有着許多很有韻味的稱謂。像稱呼老者為老翁老妪，稱呼孩兒為黃口總角，尤其是青少年時期，幾乎是每長一歲就要換一個稱呼。當然，現在大部分這樣坊間的口頭稱呼，已經被白話文所替代了，隻有在一些文學作品中我們... 2023-01-31
生活豬什麼部位排骨都是脆骨
#紅紅火火過大年#給您帶來最新的美食資訊，家庭最實用的烹饪技巧，關注「辣爸食堂」幸福每一天豬肉，是中國人民餐桌上最主要的肉類，含有豐富的蛋白質、脂肪、鈣、鐵、磷等營養成分。關于豬肉的烹饪方式，成百上千種，無一不是美味佳肴。豬身上全是寶，除了... 2022-12-17
生活怎樣用手機制作電子畫冊
随着互聯網的普及，同樣也帶動了企業制作産品畫冊設計行業，從而出現了3D電子畫冊，3D電子畫冊查看起來是十分方便的，它最突出的優勢就是隻需有一台電腦或者手機就可查看，它不用占用任何的資源和空間，隻要有途徑，還可以傳播到世界各地,對比傳統紙質畫... 2023-03-02
生活廣西山崖竹子
竹子是世界上生長最快的植物，每天淩晨是竹子生長最快時。有一天看到一顆小竹筍也就五公分高度，沒有拍照。上面是第二天開始記錄的高度。上面是第三天的高度。上面是第四天的高度。上面是第五天的高度。上面是第六天的高度。你聽過竹子生長時發出的聲音嗎？我... 2023-02-04
生活怎麼考質量員證
質量官是建築行業的入門級證書，是就業的敲門磚，是從事建築行業的資格證書，是建築工程中不可缺少的崗位。質量官可以拓寬發展路徑，質量官→直接項目負責人/專業監理工程師→總監理工程師。近年來，随着我國建築業的快速發展，對考生的考試要求也更加嚴格，... 2023-02-05
生活佰草集的新玉潤适合什麼膚質
新玉潤玫瑰菁華霜新玉潤玫瑰菁華霜，蘊含金钗石斛、天門冬、鮮生地、山藥等組成的"新天地玉潤方"中草藥精華，質地豐盈滋潤，金钗石斛等中草藥精華能提高肌膚攝水能力，複合玫瑰精油，深層滋養，持久保濕抵禦幹燥，令肌膚瑩潤飽滿，如玉般晶瑩細滑。特别适合... 2022-10-31
生活 word怎麼分兩欄
word怎麼分兩欄?點擊菜單欄“頁面布局”下的“分欄”；，下面我們就來說一說關于word怎麼分兩欄?我們一起去了解并探讨一下這個問題吧!word怎麼分兩欄點擊菜單欄“頁面布局”下的“分欄”；點擊分欄旁的下拉鍵，選擇分欄格式；點擊兩欄，文章就... 2022-06-07
生活阿西莫夫代表作
阿西莫夫代表作?阿西莫夫一生著述衆多1979年2月，阿西莫夫出版了第200部作品1985年突破300部到了1987年8月，已上升到394部在阿西莫夫逝世前不久，他曾自述出版過467部著作，但研究他的作品的專家稱，他至少出版過480部著作目前... 2022-06-11
生活朱一龍好演員
#頭條創作挑戰賽#金雞獎頒獎典禮結束了。本屆頒獎典禮，即便紅毯上的美腿再修長，女星再驚豔，也壓蓋不住頒獎典禮的熱度了。青年演員朱一龍，首次提名，一擊必中，憑借《人生大事》中莫三妹這個角色，獲得了最佳男主角獎。此消息一出，立馬引爆了電影圈。什... 2023-02-23
生活開心一刻幽默笑話大全
1.老婆抱怨道："以前你都叫人家小心肝的，現在怎麼不叫了？是不是不愛我了？"我看了一眼她發福的身材，說："就你現在這造型，小是不可能了。要不叫你脂肪肝？"2.一人去算命，算命先生摸骨相面掐算八字後，說，你二十... 2023-02-05
生活廉頗連招技巧順序
廉頗連招技巧順序?最常用連招推薦：121這套連招讓廉頗可以打出很好的控制鍊效果，而且是非常的簡便的，一技能上去打出一段控制，最好是貼着敵方的，然後就釋放二技能然後秒接一技能，這樣可以打出雙倍的二技能傷害和兩段一技能控制傷害，這樣對于廉頗連招... 2022-07-18
生活 iphone12s什麼時候發布
最近關于iPhone12S的消息越來越多，消息很突然，浩南了解完後很出乎意料，給我們帶來了三個驚喜。首先可以确定的是下一代iPhone并不是iPhone13而是iPhone12S，這和曾經的iPhone6S是一個道理，這所謂的S其實隻是意味... 2023-01-09
生活智能制造關鍵技術對智能制造影響
智能制造關鍵技術對智能制造影響?國内對“智能制造”的定義在工業和信息化部公布的“2015年智能制造試點示範專項行動”中，智能制造定義為基于新一代信息技術，貫穿設計、生産、管理、服務等制造活動各個環節，具有信息深度自感知、智慧優化自決策、精準... 2023-03-24
生活最推薦新手玩的輔助
王者是一個團戰作戰的競技類遊戲，裡面有五種不同的職業類型（法師，射手，輔助，上單，打野），而對于女孩子來說了輔助其餘四種類型的英雄都需要一丢丢的操作，對于手殘，反應慢點的女孩子來說極其不友好，有時候玩的不好還會被一些噴，因此輔助位置被大部分... 2023-01-24
生活引流是個什麼東西
平時隻要在網上做生意，總是能夠聽到開拓市場或者是引流這樣的詞彙，關于引流有許多商家都不理解。引流這兩個字其實就是把流量引過來的意思，而流量就指的是購買我們産品的一個群體，如果流量越多，那麼出售出去的産品也就越大，今天具體講一下引流是什麼意思... 2023-02-28
生活 coreldraw怎麼平移複制
複制的設計都是由簡單的圖案和基礎的操作堆砌而成的，如何恰當地使用這些基礎操作，就是各位新學者要格外注意的地方。這次我們介紹CorelDRAW中的複制和鏡面操作。一、複制1.複制單個對象使用CorelDRAW時有許多種複制方法，都很簡單實用，... 2023-01-22
生活翡翠挂件配什麼鍊子好看
翡翠挂件配什麼鍊子好看?翡翠挂件配什麼鍊子好看：翡翠挂件：翡翠挂件配金屬挂鍊：在選擇金屬鍊子搭配翡翠挂件的時候一般是選擇24K的金鍊子或者純銀的銀鍊子，搭配的時候要注意翡翠顔色與挂鍊顔色的匹配，通常來講，白金和銀鍊子與翡翠挂件搭配起來可能會... 2022-07-11
生活 windows10設置光标
IT之家11月16日消息，在平時使用Win10/Win11系統的時候，我們常常會遇到找不到光标的情況。例如在超大屏幕或者多台顯示器的電腦上，準确定位到你的光标是一件比較困難的事情。你可能需要晃動鼠标，通過屏幕區域的變化來鎖定光标位置。而解決... 2023-01-31
生活什麼可以養胃護胃
什麼可以養胃護胃?平時主要是吃一些軟的容易消化的食物，不要吃一些太涼的食物，就有利于養胃的作用，接下來我們就來聊聊關于什麼可以養胃護胃?以下内容大家不妨參考一二希望能幫到您!什麼可以養胃護胃平時主要是吃一些軟的容易消化的食物，不要吃一些太涼... 2022-06-14
生活黑魚有沒有魚腥線
黑魚有沒有魚腥線?黑魚有沒有魚腥線:黑魚是沒有魚腥線的,魚腥線是魚類感覺水體流動的感覺器官草魚、鲫魚和鯉魚的魚腥線較為明顯,容易取出,而海魚的魚腥線則沒有淡水魚明顯，現在小編就來說說關于黑魚有沒有魚腥線?下面内容希望能幫助到你，我們來一起看... 2022-07-29

tft每日頭條

> 生活

> fine-line擴展器教程

fine-line擴展器教程

相关生活资讯推荐

热门生活资讯推荐

网友关注