From 3248134d24ad59454a3dba3e4089bd369c9f7638 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Luk=C3=A1=C5=A1=20Paukert?= <paukeluk@fit.cvut.cz> Date: Thu, 14 May 2020 22:11:45 +0200 Subject: [PATCH] Added REQUIREMENTS.md for preprocessing --- README.md | 5 ++++- preprocessing/REQUIREMENTS.md | 17 +++++++++++++++++ 2 files changed, 21 insertions(+), 1 deletion(-) create mode 100644 preprocessing/REQUIREMENTS.md diff --git a/README.md b/README.md index ab3fe10..17ed3e1 100644 --- a/README.md +++ b/README.md @@ -1,7 +1,10 @@ # Information retrieval – VektorovĂ˝ model +## ZákladnĂ informace +Ve sloĹľce `data/Gutenberg/txt` jsou umĂstÄ›ny soubory, s nimiĹľ jsme náš projekt testovali. Dále ve sloĹľce `data/persistence` jsou uloĹľeny soubory, kterĂ© se generujĂ pĹ™i preprocessingu a vĂ˝poÄŤtu vah termĹŻ (tj. je moĹľnĂ© hned spustit aplikaci pro samotnĂ© dotazovánĂ). + ## Struktura projektu -Projekt se skládá ze třà oddÄ›lenĂ˝ch aplikacĂ. +Projekt se skládá ze třà oddÄ›lenĂ˝ch aplikacĂ: 1) `preprocessing/` (základnĂ zpracovánĂ dokumentĹŻ – odstranÄ›nĂ nevĂ˝znamovĂ˝ch slov, lematizace, uloĹľenĂ obsahu jednotlivĂ˝ch dokumentĹŻ do databáze) 2) `weight_calculation/` (vĂ˝poÄŤet vah termĹŻ v jednotlivĂ˝ch dokumentech) 3) `querying/` (dotazovánĂ na podobnost dokumentĹŻ z webovĂ©ho rozhranĂ) diff --git a/preprocessing/REQUIREMENTS.md b/preprocessing/REQUIREMENTS.md new file mode 100644 index 0000000..8e08a7f --- /dev/null +++ b/preprocessing/REQUIREMENTS.md @@ -0,0 +1,17 @@ +# PoĹľadavky +- Python verze 3.6 a vyššà +- knihovna pro práci s lidskĂ˝m jazykem NLTK: + - ke staĹľenĂ [ZDE](https://www.nltk.org/install.html) + - návod, jak provĂ©st instalaci, je tĂ©Ĺľ k dispozici na stránce uvedenĂ© výše + - pokud nebudou balĂÄŤky stopwords, punkt a wordnet staĹľeny automaticky, tak je nutnĂ© ještÄ› provĂ©st následujĂcĂ sekvenci pĹ™ĂkazĹŻ: + 1) python3 + 2) import nltk + 3) nltk.download('stopwords') + 4) nltk.download('punkt') + 5) nltk.download('wordnet') +- nejdĹ™Ăve je potĹ™eba spustit create skript pro vytvoĹ™enĂ SQLite databáze s potĹ™ebnĂ˝mi tabulkami, potĂ© je moĹľnĂ© spustit samotnĂ˝ skript na preprocessing + - v našem pĹ™ĂpadÄ› lze toto provĂ©st z tĂ©to sloĹľky pomocĂ pĹ™Ăkazu: + - `sqlite3 ./../data/persistence/docs_and_terms.db < src/database/create-script.sql` +- skript na preprocessing se spouštĂ se tĹ™emi parametry – cestou ke sloĹľce s dokumenty k preprocessingu (pĹ™epĂnaÄŤ -i), cestou kde je uloĹľena databáze (pĹ™epĂnaÄŤ -o) a cestou kam má bĂ˝t uloĹľen soubor s nejvyššĂmi vĂ˝skyty termĹŻ (pĹ™epĂnaÄŤ -f) + - z tĂ©to sloĹľky by šel napĹ™Ăklad spustit následovnÄ›: + - `python3 -m src.main.py -i ./../data/Gutenberg/txt/ -o ./../data/persistence/docs_and_terms.db -f ./../data/persistence/most_frequent_words.json` -- GitLab