Поскольку вы используете gensim, вам, вероятно, следует использовать его реализацию doc2vec. doc2vec - это расширение word2vec на уровне фраз, предложений и документов. Это довольно простое расширение, описанное здесь
https://cs.stanford.edu/~quocle/paragraph_vector.pdf
Gensim хорош тем, что он интуитивно понятен, быстр и гибок. Что замечательно, так это то, что вы можете получить предварительно обученные вложения слов с официальной страницы word2vec, а слой syn0 модели Gensim Doc2Vec открыт, так что вы можете засеять вложения слов этими высококачественными векторами!
GoogleNews-vectors-negative300.bin.gz (ссылка на ссылку в Google Code)
Я думаю, что gensim - определенно самый простой (и пока что для меня лучший) инструмент для встраивания предложения в векторное пространство.
Существуют и другие методы преобразования предложения в вектор, кроме предложенного в статье Ле и Миколова выше. Сохер и Мэннинг из Стэнфорда, безусловно, два самых известных исследователя, работающих в этой области. Их работа основана на принципе композиции - семантика предложения происходит от:
1. semantics of the words
2. rules for how these words interact and combine into phrases
Они предложили несколько таких моделей (которые становятся все более сложными) того, как использовать композиционность для построения представлений на уровне предложений.
2011 - разворачивание рекурсивного автокодировщика (сравнительно просто. Если интересно, начните здесь)
2012 - матрично-векторная нейронная сеть
2013 - нейронная тензорная сеть
2015 - Tree LSTM
все его статьи доступны на socher.org. Некоторые из этих моделей доступны, но я все же рекомендую doc2vec от gensim. Во-первых, URAE 2011 года не особенно мощный. Кроме того, он поставляется с предварительно обученными весами, подходящими для перефразирования новостных данных. Код, который он предоставляет, не позволяет вам переобучать сеть. Вы также не можете поменять местами разные векторы слов, поэтому вы застряли на вложениях pre-word2vec 2011 года от Turian. Эти векторы определенно не на уровне word2vec или GloVe.
Еще не работал с Tree LSTM, но он кажется очень многообещающим!
tl; dr Да, используйте doc2vec от gensim. Но есть и другие методы!
14.07.2015