ALBERT je različica modela BERT, ki je zasnovana za zmanjšanje velikosti in povečanje hitrosti usposabljanja in napovedovanja, ne da bi pri tem žrtvovala zmogljivost. ALBERT doseže to z uporabo tehnik, kot so deljenje parametrov med plastmi in zmanjšanje velikosti vektorskih vložitev, kar vodi do manjše zahteve po računalniških virih in hitrejših rezultatih.