Skip to content
Snippets Groups Projects
Commit 3248134d authored by Lukáš Paukert's avatar Lukáš Paukert
Browse files

Added REQUIREMENTS.md for preprocessing

parent f7947794
No related branches found
No related tags found
No related merge requests found
# Information retrieval – Vektorový model
 
## Základní informace
Ve složce `data/Gutenberg/txt` jsou umístěny soubory, s nimiž jsme náš projekt testovali. Dále ve složce `data/persistence` jsou uloženy soubory, které se generují při preprocessingu a výpočtu vah termů (tj. je možné hned spustit aplikaci pro samotné dotazování).
## Struktura projektu
Projekt se skládá ze tří oddělených aplikací.
Projekt se skládá ze tří oddělených aplikací:
1) `preprocessing/` (základní zpracování dokumentů – odstranění nevýznamových slov, lematizace, uložení obsahu jednotlivých dokumentů do databáze)
2) `weight_calculation/` (výpočet vah termů v jednotlivých dokumentech)
3) `querying/` (dotazování na podobnost dokumentů z webového rozhraní)
......
# Požadavky
- Python verze 3.6 a vyšší
- knihovna pro práci s lidským jazykem NLTK:
- ke stažení [ZDE](https://www.nltk.org/install.html)
- návod, jak provést instalaci, je též k dispozici na stránce uvedené výše
- pokud nebudou balíčky stopwords, punkt a wordnet staženy automaticky, tak je nutné ještě provést následující sekvenci příkazů:
1) python3
2) import nltk
3) nltk.download('stopwords')
4) nltk.download('punkt')
5) nltk.download('wordnet')
- nejdříve je potřeba spustit create skript pro vytvoření SQLite databáze s potřebnými tabulkami, poté je možné spustit samotný skript na preprocessing
- v našem případě lze toto provést z této složky pomocí příkazu:
- `sqlite3 ./../data/persistence/docs_and_terms.db < src/database/create-script.sql`
- skript na preprocessing se spouští se třemi parametry – cestou ke složce s dokumenty k preprocessingu (přepínač -i), cestou kde je uložena databáze (přepínač -o) a cestou kam má být uložen soubor s nejvyššími výskyty termů (přepínač -f)
- z této složky by šel například spustit následovně:
- `python3 -m src.main.py -i ./../data/Gutenberg/txt/ -o ./../data/persistence/docs_and_terms.db -f ./../data/persistence/most_frequent_words.json`
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment