Skip to content
Snippets Groups Projects
Commit 6f242945 authored by Matej Sochor's avatar Matej Sochor
Browse files

Added some things for the comfort of the tester

parent 83d033f0
No related branches found
No related tags found
No related merge requests found
......@@ -5,13 +5,13 @@ Výsledný algoritmus bude natrénován na datasetu obsahujícím množství ang
 
Stažení datasetu
----------------
Dataset je příliš velký na uložení do GIT repozitáře. Pro otestování modelu je nutné stáhnout archiv https://www.kaggle.com/therohk/million-headlines/downloads/million-headlines.zip
V archivu se nachází soubor abcnews-date-text.csv, který je po extrakci potřeba umístit do složky ./model/data
Dataset je příliš velký na uložení do GIT repozitáře. Proto byl do repozitáře umístěn soubor s přibližně desetinou dat, kvalita výsledků na něm však bude pravděpodobně nízká. Pro opravdové otestování modelu je nutné stáhnout archiv https://www.kaggle.com/therohk/million-headlines/downloads/million-headlines.zip
V archivu se nachází soubor abcnews-date-text.csv, který je po extrakci potřeba umístit do složky ./model/data (a přepsat soubor s malými daty, který se tam již nachází).
 
Spuštění
---------
Pro základní spuštění byly připraveny tři skripty pro Unixový operační systém. V případě spouštění ve Windows by mělo stačit spustit místo nich .py skripty stejným způsobem jako jsou v nich volány.
Všechny tři příkazy předpokládají spouštění ze složky ./model
Všechny tři příkazy předpokládají spouštění ze složky ./model, testovány byly v Pythonu verze 3 a mohou pro správnou funkčnost vyžadovat doinstalování balíčků NLTK.
 
1. Předzpracování dat
-----------------------
......
This diff is collapsed.
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment