Python:Quel est le paramètre de taille dans la classe de modèle Gensim Word2vec

size est, comme vous le notez, la dimensionnalité du vecteur.

Word2Vec a besoin d'exemples de texte volumineux et variés pour créer ses vecteurs d'intégration « denses » par mot. (C'est la compétition entre de nombreux exemples contrastés pendant la formation qui permet aux vecteurs de mots de se déplacer vers des positions qui ont des distances et des relations spatiales intéressantes les unes avec les autres.)

Si vous n'avez qu'un vocabulaire de 30 mots, word2vec n'est probablement pas une technologie appropriée. Et si vous essayez de l'appliquer, vous voudriez utiliser une taille de vecteur bien inférieure à la taille de votre vocabulaire - idéalement beaucoup plus bas. Par exemple, des textes contenant de nombreux exemples de chacun des dizaines de milliers de mots peuvent justifier des vecteurs de mots à 100 dimensions.

L'utilisation d'une dimensionnalité supérieure à la taille du vocabulaire garantirait plus ou moins un "surajustement". La formation pourrait tendre vers un vecteur idiosyncrasique pour chaque mot - essentiellement comme un codage "one-hot" - qui fonctionnerait mieux que tout autre codage, car il n'y a pas d'interférence de mots croisés forcée en représentant un plus grand nombre de mots dans un plus petit nombre de dimensions.

Cela signifierait un modèle qui fait à peu près aussi bien que possible sur la tâche interne de prédiction de mots proches Word2Vec - mais ensuite terrible sur d'autres tâches en aval, car aucune connaissance généralisable des relations relatives n'a été capturée. (L'interférence des mots croisés est ce dont l'algorithme a besoin , sur de nombreux cycles de formation, pour s'installer progressivement dans un arrangement où des mots similaires doivent être similaires dans les poids appris et les mots contrastés différents.)