From 3248134d24ad59454a3dba3e4089bd369c9f7638 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Luk=C3=A1=C5=A1=20Paukert?= <paukeluk@fit.cvut.cz>
Date: Thu, 14 May 2020 22:11:45 +0200
Subject: [PATCH] Added REQUIREMENTS.md for preprocessing

---
 README.md                     |  5 ++++-
 preprocessing/REQUIREMENTS.md | 17 +++++++++++++++++
 2 files changed, 21 insertions(+), 1 deletion(-)
 create mode 100644 preprocessing/REQUIREMENTS.md

diff --git a/README.md b/README.md
index ab3fe10..17ed3e1 100644
--- a/README.md
+++ b/README.md
@@ -1,7 +1,10 @@
 # Information retrieval â€“ VektorovĂ˝ model
 
+## ZĂˇkladnĂ informace
+Ve sloĹľce `data/Gutenberg/txt` jsou umĂstÄ›ny soubory, s nimiĹľ jsme nĂˇĹˇ projekt testovali. DĂˇle ve sloĹľce `data/persistence` jsou uloĹľeny soubory, kterĂ© se generujĂ pĹ™i preprocessingu a vĂ˝poÄŤtu vah termĹŻ (tj. je moĹľnĂ© hned spustit aplikaci pro samotnĂ© dotazovĂˇnĂ).
+
 ## Struktura projektu
-Projekt se sklĂˇdĂˇ ze tĹ™Ă oddÄ›lenĂ˝ch aplikacĂ.
+Projekt se sklĂˇdĂˇ ze tĹ™Ă oddÄ›lenĂ˝ch aplikacĂ:
 1) `preprocessing/` (zĂˇkladnĂ zpracovĂˇnĂ dokumentĹŻ â€“ odstranÄ›nĂ nevĂ˝znamovĂ˝ch slov, lematizace, uloĹľenĂ obsahu jednotlivĂ˝ch dokumentĹŻ do databĂˇze)
 2) `weight_calculation/` (vĂ˝poÄŤet vah termĹŻ v jednotlivĂ˝ch dokumentech)
 3) `querying/` (dotazovĂˇnĂ na podobnost dokumentĹŻ z webovĂ©ho rozhranĂ)
diff --git a/preprocessing/REQUIREMENTS.md b/preprocessing/REQUIREMENTS.md
new file mode 100644
index 0000000..8e08a7f
--- /dev/null
+++ b/preprocessing/REQUIREMENTS.md
@@ -0,0 +1,17 @@
+# PoĹľadavky
+- Python verze 3.6 a vyĹˇĹˇĂ
+- knihovna pro prĂˇci s lidskĂ˝m jazykem NLTK:
+  - ke staĹľenĂ [ZDE](https://www.nltk.org/install.html)
+  - nĂˇvod, jak provĂ©st instalaci, je tĂ©Ĺľ k dispozici na strĂˇnce uvedenĂ© vĂ˝Ĺˇe
+  - pokud nebudou balĂÄŤky stopwords, punkt a wordnet staĹľeny automaticky, tak je nutnĂ© jeĹˇtÄ› provĂ©st nĂˇsledujĂcĂ sekvenci pĹ™ĂkazĹŻ:
+    1) python3
+    2) import nltk
+    3) nltk.download('stopwords')
+    4) nltk.download('punkt')
+    5) nltk.download('wordnet')
+- nejdĹ™Ăve je potĹ™eba spustit create skript pro vytvoĹ™enĂ SQLite databĂˇze s potĹ™ebnĂ˝mi tabulkami, potĂ© je moĹľnĂ© spustit samotnĂ˝ skript na preprocessing
+  - v naĹˇem pĹ™ĂpadÄ› lze toto provĂ©st z tĂ©to sloĹľky pomocĂ pĹ™Ăkazu:
+    - `sqlite3 ./../data/persistence/docs_and_terms.db < src/database/create-script.sql`
+- skript na preprocessing se spouĹˇtĂ se tĹ™emi parametry â€“ cestou ke sloĹľce s dokumenty k preprocessingu (pĹ™epĂnaÄŤ -i), cestou kde je uloĹľena databĂˇze (pĹ™epĂnaÄŤ -o) a cestou kam mĂˇ bĂ˝t uloĹľen soubor s nejvyĹˇĹˇĂmi vĂ˝skyty termĹŻ (pĹ™epĂnaÄŤ -f)
+  - z tĂ©to sloĹľky by Ĺˇel napĹ™Ăklad spustit nĂˇsledovnÄ›:
+    - `python3 -m src.main.py -i ./../data/Gutenberg/txt/ -o ./../data/persistence/docs_and_terms.db -f ./../data/persistence/most_frequent_words.json`
-- 
GitLab