diff --git a/README.md b/README.md index ab3fe10cf97d3c37da4fb9c3c4165c4cf5ad5480..17ed3e18a184525767460576db63b0f4b92aef93 100644 --- a/README.md +++ b/README.md @@ -1,7 +1,10 @@ # Information retrieval – VektorovĂ˝ model +## ZákladnĂ informace +Ve sloĹľce `data/Gutenberg/txt` jsou umĂstÄ›ny soubory, s nimiĹľ jsme náš projekt testovali. Dále ve sloĹľce `data/persistence` jsou uloĹľeny soubory, kterĂ© se generujĂ pĹ™i preprocessingu a vĂ˝poÄŤtu vah termĹŻ (tj. je moĹľnĂ© hned spustit aplikaci pro samotnĂ© dotazovánĂ). + ## Struktura projektu -Projekt se skládá ze třà oddÄ›lenĂ˝ch aplikacĂ. +Projekt se skládá ze třà oddÄ›lenĂ˝ch aplikacĂ: 1) `preprocessing/` (základnĂ zpracovánĂ dokumentĹŻ – odstranÄ›nĂ nevĂ˝znamovĂ˝ch slov, lematizace, uloĹľenĂ obsahu jednotlivĂ˝ch dokumentĹŻ do databáze) 2) `weight_calculation/` (vĂ˝poÄŤet vah termĹŻ v jednotlivĂ˝ch dokumentech) 3) `querying/` (dotazovánĂ na podobnost dokumentĹŻ z webovĂ©ho rozhranĂ) diff --git a/preprocessing/REQUIREMENTS.md b/preprocessing/REQUIREMENTS.md new file mode 100644 index 0000000000000000000000000000000000000000..8e08a7fe7e5f2ae13cdfb21ce2e3e2777f8bbab5 --- /dev/null +++ b/preprocessing/REQUIREMENTS.md @@ -0,0 +1,17 @@ +# PoĹľadavky +- Python verze 3.6 a vyššà +- knihovna pro práci s lidskĂ˝m jazykem NLTK: + - ke staĹľenĂ [ZDE](https://www.nltk.org/install.html) + - návod, jak provĂ©st instalaci, je tĂ©Ĺľ k dispozici na stránce uvedenĂ© výše + - pokud nebudou balĂÄŤky stopwords, punkt a wordnet staĹľeny automaticky, tak je nutnĂ© ještÄ› provĂ©st následujĂcĂ sekvenci pĹ™ĂkazĹŻ: + 1) python3 + 2) import nltk + 3) nltk.download('stopwords') + 4) nltk.download('punkt') + 5) nltk.download('wordnet') +- nejdĹ™Ăve je potĹ™eba spustit create skript pro vytvoĹ™enĂ SQLite databáze s potĹ™ebnĂ˝mi tabulkami, potĂ© je moĹľnĂ© spustit samotnĂ˝ skript na preprocessing + - v našem pĹ™ĂpadÄ› lze toto provĂ©st z tĂ©to sloĹľky pomocĂ pĹ™Ăkazu: + - `sqlite3 ./../data/persistence/docs_and_terms.db < src/database/create-script.sql` +- skript na preprocessing se spouštĂ se tĹ™emi parametry – cestou ke sloĹľce s dokumenty k preprocessingu (pĹ™epĂnaÄŤ -i), cestou kde je uloĹľena databáze (pĹ™epĂnaÄŤ -o) a cestou kam má bĂ˝t uloĹľen soubor s nejvyššĂmi vĂ˝skyty termĹŻ (pĹ™epĂnaÄŤ -f) + - z tĂ©to sloĹľky by šel napĹ™Ăklad spustit následovnÄ›: + - `python3 -m src.main.py -i ./../data/Gutenberg/txt/ -o ./../data/persistence/docs_and_terms.db -f ./../data/persistence/most_frequent_words.json`