@@ -5,13 +5,13 @@ Výsledný algoritmus bude natrénován na datasetu obsahujícím množství ang
Stažení datasetu
----------------
Dataset je příliš velký na uložení do GIT repozitáře. Pro otestování modelu je nutné stáhnout archiv https://www.kaggle.com/therohk/million-headlines/downloads/million-headlines.zip
V archivu se nachází soubor abcnews-date-text.csv, který je po extrakci potřeba umístit do složky ./model/data
Dataset je příliš velký na uložení do GIT repozitáře. Proto byl do repozitáře umístěn soubor s přibližně desetinou dat, kvalita výsledků na něm však bude pravděpodobně nízká. Pro opravdové otestování modelu je nutné stáhnout archiv https://www.kaggle.com/therohk/million-headlines/downloads/million-headlines.zip
V archivu se nachází soubor abcnews-date-text.csv, který je po extrakci potřeba umístit do složky ./model/data (a přepsat soubor s malými daty, který se tam již nachází).
Spuštění
---------
Pro základní spuštění byly připraveny tři skripty pro Unixový operační systém. V případě spouštění ve Windows by mělo stačit spustit místo nich .py skripty stejným způsobem jako jsou v nich volány.
Všechny tři příkazy předpokládají spouštění ze složky ./model
Všechny tři příkazy předpokládají spouštění ze složky ./model, testovány byly v Pythonu verze 3 a mohou pro správnou funkčnost vyžadovat doinstalování balíčků NLTK.