Одна из важных задач компьютерной лингвистики — объединение похожих текстов в группы. Это может быть как деление на заранее заданные классы («Спорт», «Политика» и т. п.), так и деление на основе сходства самих текстов. К примеру, новостные агрегаторы сперва объединяют похожие тексты в один сюжет, а затем относят его к определенному классу. На занятии мы поговорим о том, как можно оценивать расстояние между текстами, чем отличается задача классификации от задачи кластеризации и как такие задачи решаются.