Tomáš Kořistka
BI-VWM-B192-Vector-Model

Repository



Information retrieval – Vektorový model

Základní informace
Ve složce data/Gutenberg/txt jsou umístěny soubory, s nimiž jsme náš projekt testovali. Dále ve složce data/persistence jsou uloženy soubory, které se generují při preprocessingu a výpočtu vah termů (tj. je možné hned spustit aplikaci pro samotné dotazování).

Struktura projektu
Projekt se skládá ze tří oddělených aplikací:


preprocessing/ (základní zpracování dokumentů – odstranění nevýznamových slov, lematizace, uložení obsahu jednotlivých dokumentů do databáze)

weight_calculation/ (výpočet vah termů v jednotlivých dokumentech)

querying/ (dotazování na podobnost dokumentů z webového rozhraní)


Požadavky na běh
Jsou popsány u každé konkrétní aplikace v souboru REQUIREMENTS.md spolu s informacemi, odkud stáhnout a kam případně umístit knihovny třetích stran.