Distilacija znanja je tehnika, pri kateri se znanje velikega modela transformer prenese na manjši, bolj učinkovit model. To se doseže z usposabljanjem manjšega modela, da posnema izhode ali odločitve večjega modela, kar omogoča manjšemu modelu, da doseže podobno zmogljivost z manjšim številom parametrov in nižjimi računalniškimi zahtevami.