Het proces begint met het omzetten van teksten in zogenaamde embeddings. Inhoud wordt wiskundig voorgesteld als vectoren. Deze vectoren geven de semantische betekenis van een tekst weer, zodat niet alleen afzonderlijke trefwoorden, maar volledige inhoud met elkaar kan worden vergeleken. Gelijksoortige inhoud ligt dicht bij elkaar in de vectorruimte, ongeacht de specifieke formulering.
Voorbeeld: Twee thematisch vergelijkbare teksten liggen dicht bij elkaar in de vectorruimte.











