Vislabākais NLP modelis? Google BERT nosaka jaunus standartus 11 valodu uzdevumos

Jaunais Google AI papīrs BERT: dziļo divvirzienu transformatoru iepriekšēja apmācība valodas izpratnei saņem atzinības no mašīnmācības kopienas. Google pētnieki iepazīstina ar dziļu divvirzienu transformatora modeli, kas no jauna definē jaunākos sasniegumus 11 dabiskās valodas apstrādes uzdevumos, pat pārspējot cilvēku sniegumu sarežģītajā jautājumu atbildēšanas jomā. Daži svarīgākie punkti no papīra:

  • NLP pētnieki izmanto mūsdienās pieejamo lielo valodu datu daudzumu un izmanto nodošanas mācīšanās paņēmienus, lai izstrādātu jaunas pirmsmācības pieejas. Viņi vispirms apmāca modeļa arhitektūru vienas valodas modelēšanas mērķim un pēc tam to precīzi noregulē uzraudzītam pakārtotajam uzdevumam. Aylien pētījumu zinātnieks Sebastians Ruders savā blogā norāda, ka iepriekš apmācītiem modeļiem var būt “tāda pati plaša ietekme uz NLP, kā iepriekš sagatavotiem ImageNet modeļiem bija datora redze”.
  • BERT modeļa arhitektūra ir divvirzienu transformatora kodētājs. Transformatora izmantošana nav pārsteigums - šī ir pēdējā laika tendence, kas saistīta ar Transformatoru apmācības efektivitāti un izcilu sniegumu tālsatiksmes atkarību uztveršanā, salīdzinot ar atkārtotu neironu tīkla arhitektūru. Divvirzienu kodētājs tikmēr ir standout funkcija, kas atšķir BERT no OpenAI GPT (transformators no kreisās uz labo pusi) un ELMo (neatkarīgi apmācīta kreisās-labās un labās-kreisās LSTM apvienojums).
  • BERT ir milzīgs modelis ar 24 Transformatoru blokiem, 1024 slēptām vienībām katrā slānī un 340M parametriem.
  • Modelis ir iepriekš apmācīts 40 laikmetos, izmantojot 3,3 miljardu vārdu korpusu, ieskaitot BooksCorpus (800 miljoni vārdu) un angļu valodas Wikipedia (2,5 miljardi vārdu).
  • Treniņiem modelis darbojas uz 16 TPU podiem.
  • Pirmsskolas apmācības procesā pētnieki izvēlējās pieeju, kas nejauši maskēja procentus no ievadītajiem žetoniem (15 procentus), lai apmācītu dziļu divvirzienu attēlojumu. Viņi atsaucas uz šo metodi kā maskētās valodas modeli (MLM).
  • Iepriekš apmācīts valodas modelis nespēj izprast sakarības starp teikumiem, kas ir ļoti svarīgi tādos valodas uzdevumos kā atbilžu sniegšana uz jautājumiem un dabiskas valodas norādes. Tāpēc pētnieki iepriekš apmācīja bināru nākamā teikuma prognozēšanas uzdevumu, ko var triviāli ģenerēt no jebkura vienvalodas korpusa.
  • Precizēts modelis dažādām datu kopām uzlabo GLUE etalonu līdz 80,4 procentiem (7,6 procenti absolūtā uzlabojuma), MultiNLI precizitāte līdz 86,7 procentiem (5,6 procenti absolūtais uzlabojums), SQuAD v1.1 jautājums, atbildot uz testu F1 līdz 93,2 (1,5 absolūts uzlabojums). utt. kopumā 11 valodas uzdevumos.

Pirmais raksta autors ir Jēkabs Devlins, Google vecākais pētnieks, kura galvenā prioritāte ir dabisko valodu uzdevumu dziļu apguves modeļu izstrāde. Iepriekš viņš vadīja Microsoft Translate pāreju no frāzes balstītas tulkošanas uz neironu mašīntulkošanu (NMT) kā Microsoft Research galveno pētījumu zinātnieks no 2014. līdz 2017. gadam.

Google smadzeņu pētniecības zinātnieks Thangs Luongs ar entuziasmu tvīda “pirms dažām dienām tikko ir sācies jauns NLP laikmets: lieli pirmsskolas apmācības modeļi (Transformers 24 slāņi, 1024 dimensijas, 16 galvas) + masīvs aprēķins ir viss, kas jums nepieciešams.”

Ķīniešu AI dibināšanas uzņēmuma Tricorn galvenais zinātnieks Baoksuns Vangs arī uzslavēja Google dokumentu kā “pavērsienu” savā uzrunā šīs nedēļas Mākslīgā intelekta industrijas alianses konferencē Sužou, Ķīnā. Rakstā tiek izmantots milzīgs datu apjoms, aprēķināti un labi noslīpēti inženiertehniskie darbi, kas atspoguļo to, ko Vangs sauc par “Google vardarbīgas estētikas tradīciju”.

Iepriekš apmācīts modelis un kods tiks izlaists nākamo divu nedēļu laikā. Papīrs atrodas arXiv.

Atjaunināt:

Google ir atklājis avota papīra kodu un datus vietnē Github.

Žurnālists: Tonijs Pengs | Redaktors: Michael Sarazen

Sekojiet mums Twitter @Synced_Global, lai saņemtu ikdienas AI ziņas

Mēs zinām, ka jūs nevēlaties palaist garām nevienu stāstu. Abonējiet mūsu populāro Synced Global AI Weekly, lai saņemtu nedēļas AI atjauninājumus.