DistilBERT je manjša in bolj učinkovita različica modela BERT (Bidirectional Encoder Representations from Transformers), ki je bil ustvarjen z uporabo tehnike distilacije znanja. DistilBERT ohranja večino zmogljivosti izvirnega BERT modela, vendar zahteva manj računalniških virov in časa za usposabljanje in napovedovanje, kar ga naredi bolj primernega za vgradnjo v realnočasovne aplikacije in na napravah z omejenimi viri.