Мое решение 6 задачи отбора на Тинькофф поколение
Описание модели Doc2VecLM:
Модель представвляет собой гибрид Word2Vec (Skipgram), TF-IDF и линейного классификатора
Описание работы модели Doc2VecLM:
Word2VecWrapperвозвращает эмбеддинги для каждого слова во входной последовательностиTFIDFWrapperвозвращает tfidf скор каждого слова во входной последовательностиWord2VecWrapperэмбеддинги умножаются наTFIDFWrapperскоры и усредняются, что представляет собой общий контекст предложенияClassifierпринимает на вход эмбеддинг контекста и эмбеддингиlast_nпоследних слов и возвращает вероятности следующего слова
Тренировка модели:
bash train.sh
Генерация текста:
bash generate.sh