Python >> Tutoriel Python >  >> Python Tag >> NLTK

Langues disponibles NLTK pour les mots vides

Vérifiez d'abord si vous avez téléchargé nltk paquets.
Sinon, vous pouvez le télécharger en utilisant ci-dessous :

import nltk
nltk.download()

Après cela, vous pouvez trouver les fichiers de langue des mots vides dans le chemin ci-dessous.

C:/Users/username/AppData/Roming/nltk_data/corpora/stopwords

Il y a 21 langues prises en charge (j'ai installé nltk il y a quelques jours, ce numéro doit donc être à jour). Vous pouvez passer le nom du fichier en paramètre dans

nltk.corpus.stopwords.words('langauage')


os.listdir('/root/nltk_data/corpora/stopwords/')

['hungarian',
 'swedish',
 'kazakh',
 'norwegian',
 'finnish',
 'arabic',
 'indonesian',
 'portuguese',
 'turkish',
 'azerbaijani',
 'slovene',
 'spanish',
 'danish',
 'nepali',
 'romanian',
 'greek',
 'dutch',
 'README',
 'tajik',
 'german',
 'english',
 'russian',
 'french',
 'italian']

Lorsque vous importez les mots vides en utilisant :

from nltk.corpus import stopwords
english_stopwords = stopwords.words(language)

vous récupérez les mots vides en fonction de l'ID de fichier (langue). Afin de voir toutes les langues de mots vides disponibles, vous pouvez récupérer la liste des identifiants de fichiers en utilisant :

from nltk.corpus import stopwords
print(stopwords.fileids())

dans le cas de nltk v3.4.5, cela renvoie 23 langues :

['arabic', 
 'azerbaijani', 
 'danish', 
 'dutch', 
 'english', 
 'finnish', 
 'french', 
 'german', 
 'greek',
 'hungarian', 
 'indonesian', 
 'italian', 
 'kazakh', 
 'nepali', 
 'norwegian', 
 'portuguese', 
 'romanian', 
 'russian', 
 'slovene', 
 'spanish', 
 'swedish', 
 'tajik', 
 'turkish']

Prochain article
No