Added REQUIREMENTS.md for preprocessing

3248134d · Lukáš Paukert · f7947794 · 3248134d · 3248134d
Commit 3248134d authored 4 years ago by Lukáš Paukert
--- a/README.md
+++ b/README.md
 # Information retrieval – Vektorový model
  
+## Základní informace
+Ve složce `data/Gutenberg/txt` jsou umístěny soubory, s nimiž jsme náš projekt testovali. Dále ve složce `data/persistence` jsou uloženy soubory, které se generují při preprocessingu a výpočtu vah termů (tj. je možné hned spustit aplikaci pro samotné dotazování).
+
 ## Struktura projektu
-Projekt se skládá ze tří oddělených aplikací.
+Projekt se skládá ze tří oddělených aplikací:
 1) `preprocessing/` (základní zpracování dokumentů – odstranění nevýznamových slov, lematizace, uložení obsahu jednotlivých dokumentů do databáze)
 2) `weight_calculation/` (výpočet vah termů v jednotlivých dokumentech)
 3) `querying/` (dotazování na podobnost dokumentů z webového rozhraní)

--- a/preprocessing/REQUIREMENTS.md
+++ b/preprocessing/REQUIREMENTS.md
+# Požadavky
+- Python verze 3.6 a vyšší
+- knihovna pro práci s lidským jazykem NLTK:
+  - ke stažení [ZDE](https://www.nltk.org/install.html)
+  - návod, jak provést instalaci, je též k dispozici na stránce uvedené výše
+  - pokud nebudou balíčky stopwords, punkt a wordnet staženy automaticky, tak je nutné ještě provést následující sekvenci příkazů:
+    1) python3
+    2) import nltk
+    3) nltk.download('stopwords')
+    4) nltk.download('punkt')
+    5) nltk.download('wordnet')
+- nejdříve je potřeba spustit create skript pro vytvoření SQLite databáze s potřebnými tabulkami, poté je možné spustit samotný skript na preprocessing
+  - v našem případě lze toto provést z této složky pomocí příkazu:
+    - `sqlite3 ./../data/persistence/docs_and_terms.db < src/database/create-script.sql`
+- skript na preprocessing se spouští se třemi parametry – cestou ke složce s dokumenty k preprocessingu (přepínač -i), cestou kde je uložena databáze (přepínač -o) a cestou kam má být uložen soubor s nejvyššími výskyty termů (přepínač -f)
+  - z této složky by šel například spustit následovně:
+    - `python3 -m src.main.py -i ./../data/Gutenberg/txt/ -o ./../data/persistence/docs_and_terms.db -f ./../data/persistence/most_frequent_words.json`