From 3248134d24ad59454a3dba3e4089bd369c9f7638 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Luk=C3=A1=C5=A1=20Paukert?= <paukeluk@fit.cvut.cz>
Date: Thu, 14 May 2020 22:11:45 +0200
Subject: [PATCH] Added REQUIREMENTS.md for preprocessing

---
 README.md                     |  5 ++++-
 preprocessing/REQUIREMENTS.md | 17 +++++++++++++++++
 2 files changed, 21 insertions(+), 1 deletion(-)
 create mode 100644 preprocessing/REQUIREMENTS.md

diff --git a/README.md b/README.md
index ab3fe10..17ed3e1 100644
--- a/README.md
+++ b/README.md
@@ -1,7 +1,10 @@
 # Information retrieval – Vektorový model
 
+## Základní informace
+Ve složce `data/Gutenberg/txt` jsou umístěny soubory, s nimiž jsme náš projekt testovali. Dále ve složce `data/persistence` jsou uloženy soubory, které se generují při preprocessingu a výpočtu vah termů (tj. je možné hned spustit aplikaci pro samotné dotazování).
+
 ## Struktura projektu
-Projekt se skládá ze tří oddělených aplikací.
+Projekt se skládá ze tří oddělených aplikací:
 1) `preprocessing/` (základní zpracování dokumentů – odstranění nevýznamových slov, lematizace, uložení obsahu jednotlivých dokumentů do databáze)
 2) `weight_calculation/` (výpočet vah termů v jednotlivých dokumentech)
 3) `querying/` (dotazování na podobnost dokumentů z webového rozhraní)
diff --git a/preprocessing/REQUIREMENTS.md b/preprocessing/REQUIREMENTS.md
new file mode 100644
index 0000000..8e08a7f
--- /dev/null
+++ b/preprocessing/REQUIREMENTS.md
@@ -0,0 +1,17 @@
+# PoĹľadavky
+- Python verze 3.6 a vyšší
+- knihovna pro práci s lidským jazykem NLTK:
+  - ke staĹľenĂ­ [ZDE](https://www.nltk.org/install.html)
+  - návod, jak provést instalaci, je též k dispozici na stránce uvedené výše
+  - pokud nebudou balíčky stopwords, punkt a wordnet staženy automaticky, tak je nutné ještě provést následující sekvenci příkazů:
+    1) python3
+    2) import nltk
+    3) nltk.download('stopwords')
+    4) nltk.download('punkt')
+    5) nltk.download('wordnet')
+- nejdříve je potřeba spustit create skript pro vytvoření SQLite databáze s potřebnými tabulkami, poté je možné spustit samotný skript na preprocessing
+  - v našem případě lze toto provést z této složky pomocí příkazu:
+    - `sqlite3 ./../data/persistence/docs_and_terms.db < src/database/create-script.sql`
+- skript na preprocessing se spouští se třemi parametry – cestou ke složce s dokumenty k preprocessingu (přepínač -i), cestou kde je uložena databáze (přepínač -o) a cestou kam má být uložen soubor s nejvyššími výskyty termů (přepínač -f)
+  - z této složky by šel například spustit následovně:
+    - `python3 -m src.main.py -i ./../data/Gutenberg/txt/ -o ./../data/persistence/docs_and_terms.db -f ./../data/persistence/most_frequent_words.json`
-- 
GitLab