Article,

Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism.

, , , , , and .
CoRR, (2019)

Meta data

Tags

Users

  • @msteininger
  • @jonaskaiser
  • @nosebrain

Comments and Reviewsshow / hide

  • @jonaskaiser
    4 years ago (last updated 4 years ago)
    Nicht in Ausarbeitung genutzt, da BERT als Thema gewählt wurde und zur Betrachtung alternativer Modelle nur beschränkt Platz verfügbar ist.
Please log in to take part in the discussion (add own reviews or comments).