<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=145304570664993&amp;ev=PageView&amp;noscript=1">

91视频APP

BERT Packing_Header_

Aug 11, 2021 \ Research, Natural Language Processing

BERT ??: ??? ??? ?? ?? ??? 2?? ??

???

Dr. Mario Michael Krell and Matej Kosec

??? ?? ????? ??? ??, BERT-Large? ???? ?? ??? ?? ??? 2? ?? ?????. ??? ??? ?? ??? ??? ???? ?? ? ???? ??? ???? ???.

??? ?? ??? ?? ?? ??? ???? ? ??? ?? ???? ??? ??? ???? ?? ?? ? ?? ???? ?? ? ???? ??? ?? ? ?? ??? ?????.

?? ??? ??? ??? ???? ??? BERT ????? ?????? ??? NNLSHP(Non-Negative Least Squares Histogram-Packing, ??? ???? ????? ??)? ??? ? ????.

??? ???? ?? NLP(??? ??)??? ??? ??

?? MLPerfTM? ?? ???? ?? ??? ??? BERT ??? ????? ??? ??? ???? ??????. ??? ?? ?? ? ?? ??? ? ?? ??? ??? ??? ???? ??????. BERT? ???? ?? ??? ?? ???? ??? ??? ???? ???? ?? ?? ? ??? ????? ???????.

??? Wikipedia ????? ???? ?? BERT-Large ?? ???????? ????? ?? ??? 50%? ???? ?? ??? ??? ?????? ??? ?? ?????

???? ?? ??? ??? ???? ?? ???? GPU?? ???? ???? ?? ?????, ?? ?? ??? ??? ? ??? ??? ??????

???? ?? ? ?? ??? ??? ?? ?????.

  1. ?? Wikipedia ????? ?? ??? ??? ?? ?????.
  2. BERT ??? ??? ?? ???? ???? ?? ???? ?? ???? ??? ???? ????.

 

??? ?? ??? 512? ??? ?? ??? 50%? ?? ??? ???. ??? 50%? ?? ???? ???? ??? ??? ??? 50% ? ?? ???? ??? ? ???? ??? ???? ??? 2? ???? ?? ???????.

wikipedia dataset distributions

?? 1: Wikipedia ???? ??

Wikipedia?? ?????? ??? ????. 

???? ???? ??? ????? ??? ????

?? ??? ?? ??? ??, ???? ? ??? ?? ? ?? ??? ?????. ?? 2? 3? SQuAD 1.1 ????? GLUE ????? ??? ?????.

squad_histogram

?? 2: ?? ??? ?? 384? ?? SQuAD 1.1 BERT ?? ?? ???? ??? ?? ?????

glue_histogram

?? 3: ?? ??? ?? 128? ?? GLUE ???? ??? ?? ?????

??? ??? ???? ??? ??? ????? ??? ?? ???

?? ?? ????? ?? ?? ??? ?? ?? ??? ??? ?????, ????? ????? ???? ??? ??? ?? ??? ??? ?? ? ?? ??? ?? ????? ?? ???? ???. ??? ???? ? ???? ???? ???? ??? ??? ???? ?? ??? ???? ??? ? ?? ??? ??????. ?? ??? ?? ?? ???? ?? ?? ??? ? ??? ??? ? ??, ??? ??? ??????

? ?? ???? ? ?? ?? ??? ?????.

  1. ?? ??? ????? ??? ?? ??? ??? ???? ???? ????
  2. ??? ?? ?? ????? BERT ?? ??
  3. ??? ???? ??

 

??

???? Wikipedia? ?? ??? ????? ????? ????? ??? ?????. ? ??? ????? ? ??(bin-packing) ???? ??? ????. ??? 3? ??? ???? ???? ???? ????? ???? ???? ???? ??? ??? ??? NP-?? ??? ?????. ??? ???? ?? ????? ?? \(O(n log(n))\)? ???? ??? ??? ????? ?????. ??? n? ??? ?(Wikipedia? ?? ~16M)? ?????. ??? ??? ?? ???? ???? ?? ??? ??? ?? ?????

??? ? ?? ??? ?? ???? ?? ?? ? ?????.

  1. ?? ??? ?? 3?? ??(? ?? ??? ?? ??? ??)
  2. ???? ? ??? ?? ??? ?? ?? ??? ??? ???????? ??

 

?? ??? ??? 512????. ??? ??????? ???? ??? ???? 1,600? ????? 512 ?? ??? ??????. ? ?? ?? 3?? ???? ??? ??, ???? ?? ?? ?? 22,000?? ?? ? ?????. ???? ???? ??? ???? ????? ???? ??? ?? ???? ?????. 4?? ???? ???? ????? ? ?? ?? ?? 22,000?? 940,000?? ?????, ?? ? ?? ??? ?? ??? ?? ?? ?? ??????. ?? ?? 3? ?? ??? ?? ?? ??? ??????.

?? ? ?? 3?? ?? ???? ???? ??? ????? ???? ?? ? ???? ??? ??? ?? ???? ??????. ??? ? ?? ??? ??? ??? ??? ?? ??? ???? ?? ??? NNLSHP ????? ??????.

NNLSHP(Non-Negative Least Squares Histogram-Packing, ??? ???? ?????-??)

? ??? ??? ??? ??? ???? ??? ????. ??? 1,600? ? ??? ?????? ????? ???, ?? ?????? ???? ??? ???? ?????. ????? ?? ?? ??? ??? ????? ?? ?????. ??? ???? ?? ????? ?? \(b\)? ??? ?? ???(\(Ax=b\))? ????? ??????. ?? ?? x? ?? ?? ?? ???? ??? ??? ????? ???? ???? ?? ??????.

???? ??? ?? ????????. ? ?? ?? ?? 3?? ??? ? ??? ??? ????? ?? ???? ???? ?????, ??? ???? 512???. ?? ?? ??? ??? ? ?? ? ??? ??? ??????. ?? ?? \(x\)? ? ??? ??? ????, 20,000?? ?? ? ??? ??? ???? ??? ?????. ?????? ????? ???? ? 600?? ??? ???????. ??? ???? ???? x? ?? ?? ?? ???? ???, ?? ?? \(x\)? ?? ?? ??? ????? ????? ?? ??????. ?? ???? ?? ???? ????? ??? ? ?? ??? ?? 30? ??? ??? ?? ? ????.

matrix

?? 4: ??? ?? 8 ? ?? ?? 3? ?? ?? ????? ? ?? ?? ???? ?? 1-8? ???? ????, ?? ?? ?? ?? ??? ??? ?? ?? ??? ?????.

??, ??? ??? ???? ?? ??? ???? ??? ? ?? ?? ?????. ?? ? ???? ????? ??? ?? ???? ??? ?? ???? ????? ?? ?? ??? ??????. ??? ??? ?? ? ?? ??? ???? ?? ?? ?? ?????.

SPFHP(Shortest-Pack-First Histogram Packing, ?? ? ? ????? ??)

NNLSHP? ??? ?? ?? ??? ??????. ??? ????? ? ?? ??? ?? ??? ?? 3?? ???? ?? ???? ??? ?? ? ??? ??????.

??? ??? ?? ?? ?????? ??? ????? ??? ??? ??? ?????? ??? ?????

? ?? ????? SPFHP?? ? ?? ??? ????.

  1. ?? ? ????? ?? ?? ????? ?????? ?? ?????.
  2. ?? ??? ??? ?? ?? ??? ? ? ??? ?????.
  3. ??? ?? ?? ?? ?? ?? ??? ??? ?? ?? ?? ?? ???? ?? ?? ?????.
  4. ??? ?? ?? ??? ??? ?? ?????.

 

? ?? ??? ???? ?? ???? 0.02??? ??? ?????.

?? ??? ? ???? ?? ??? ?? ?? ?? ?? ?? ?? ? ?? ??? ??? ?? ? ?? ??? ??????. ????? ???? ?? ???? ???? ?? ???? ?? ??????.

 

SPFHP? ?? ??

Wikipedia, SQuAD 1.1, GLUE ?? ??

? 1, 2, 3? ??? ? ????? ?? ??? ?????. ?? ??? ??? ???? ?? ?? ?????. ?? ?? 1? ?? BERT ?????. ?? ?? ?? ??? ??? ???? ?? ?? "??"? ?? ?????. ? ?? ?? ??? ????? ??? ?????. ???? ??? ?????? ?? ??? ???? ?????. ?? ??? ?? ?? 1? ?? ????? ??? ???? ?? ??? ?????.

? ?? ?? ?? ??? ?????.

  1. ??? ? ????? ??? ??? ?????.
  2. ?? ????? ??? ?? ??? ????. ?? ????? ?? ? ??? 2? ?????.
  3. SPFHP? ?? ??? ???? ?? ? ? ??????.
  4. ?? 3?? ??? ???? ?? NNLSHP? ? ????? ? ??????(99.75 ? 89.44).

 

? 1: Wikipedia??? ??? ?? ????(SPFHP ? NNLSHP)? ?? ?? ??

wikipedia

 
? 2: SQUaD 1.1 BERT ?? ??? ?? ??? ?? ????? ?? ??

SQuAD

 
? 3: GLUE ?????? ?? ??? ?? ????? ?? ??. ?? ??? ???? ?? ?? ? SPFHP ?? ??? ???????.

GLUE_

BERT ?? ??

BERT ?????? ???? ?? ???? ??? ?? ???? ????? ??? ???? ???? ????. ??? ??? 4?? ?? ??? ??? ???, MLM ??, NSP ?? ? ??????.

?? ?? ?? ???? ???? 4?? ?? ??? ??? ???? ?? ??? ?? ?? ???? ???? ??????. ???? ???? ??? ??? ???? ?? ?????. ?? ?? ???? ???? ?? ?? TensorFlow ?? ???? ? ? ??? ??????. ??? ??? ???? ??? ???? ???? ? ???? ??? ? ??? ????? ????.

??? ??? ?? ??

 

mask_matrix

?? 5: ??? ???? ?

 

?? ??? ?? ????? ????? ????? ??? ??? ???? ????? ???(? ??)? ?? ??? ??? ????

MLM ??? ?? ??? ??? ????.

?? ??

 

NSP ??? ???? ??? ??? ?????. ?? ??? ?? ? ???? ?? ??? ?? ? ????.

Wikipedia ???? ? ?? ?? ???

BERT? ????? ? ?? ??? ?????.

  1. ??? ?? ????? ??????
  2. ????? ?? ?? ???? ?? ??? ?? ?? ??? ??????

 

BERT?? ??? ??? ???? ? ???? ??? ??? ???? ?? ?? ?? ??? ?? ??? ????? ??? (???) ??? ??????. ??? ? 4? ?? ????. ????? ??? ???? ?? ?? ??(?: ???? ?? ??? ?? ? ??? ?? ??)?? ?? ??? ?? ??? ?????. ?? ??? ??(?? ??)?? ?? ?? ??? ????? ?? ??? ??? ??? ?????.

? 4: Wikipedia? ?? ??? ?? ????(SPFHP ? NNLSHP)? ?? ?? ?? ??

speed-up

??? ??? ??? ??? ????? ?? ??? ?? ???? ?? ?? ?? ?? ???? ????.

??? ???? ??

??? ?? ?? ?? ??(??)? ? ?? ??? ???, ??? ?? ??? ????? ???? ???. ??? ??? ?? ?? ??? ?? ?? ?? ??? ???? ?? ????? ?? ?? ???? ??? ????. ?? ??? ?????? ?? ???? ??? ???? ??? ??? ???? ???? ??? ? ????.

batch_correct_learning_curves_samples_accuracy_loss

?? 6: ??? ?? ??? ?? ??? ?? ??? ???? ??? ?? ? ???? ?? ??? ?? ?? ???? ??

 

??? ??: MLM ?? ??? ???? ?? ?? ? ??? ? ??? ??? ??????. ? ?? ??? ?? ???? ?? ???? ????? ? ?? ??? ???? ??? ?? ??? ? ????.

?? ??? ??? ?? ??? ?? ?? ??? ???? ???? ??? ????? ??? ?? ?? ??(2?)? ???? ?? ??? ???. ???? ? ?? ??? ????? ?? ????? ??????. ? ?? ???? ?? ??? ?? ??? ? ?? ??? ???, ??? ???? ??? ???????. LAMB ?????? ??? ?? ?? ????? ?? ??? ?????? ??? ?? ???? ??? ???? ???? ?? ?? ??? ????? ???? ?? ???? ??? ? ?????.

heuristics_learning_curves_samples_accuracy_loss

?? 7: ????? ??? ??? ?? ? ???? ?? ??? ?? ?? ??

?? ??, ??? 2? ?????? ??? ?? ?? ??? ????? ?? ? ? ?????. ? ??????? ?? ??? ??? ????? ?? ???? ??? ??? ??/??? ???? ???? ??? ???? ??? ???? ???? ?? ??? ?????.

??? ?? ?????? ??? ?? ??? ??? ?? ? ?????

best_learning_curves_relative_accuracy_loss

?? 8: ???? ???? ??? ?? ? ???? ?? ??? ?? ?? ?? ??

 

??? ??? ?????! ??? ??? ???? ??? ??? ??? ???????

 

??

??? ?? ???? ?? ??? ???? ??? ?? ? ????. ? ??? PyTorch ? TensorFlow? ??? ?? ??????? ??? ? ????. ??? ???? 2?? ?? ??? ???? ? ???? ?? ????? ??? ??? ?????

??? ? ???? ?? ?? ?? ??? ??? ??? ??? ??? ? ?? ???? ? ??? ?????. ?? ?????? ??? ??? ??? ???? ???? ???? ??? ? ?? ????. ?? ???? ?? ??? ?? ? ????? ??? ?????!

 

?????.

??? ?? ????? ?????? ????? ?? ?? Sheng Fu? Mrinal Iyer?? ?????, ??? ???? ??? ?? ????? ??? ?? Douglas Orr??? ??????.

??? ? ??