Python >> Tutoriel Python >  >> Python Tag >> NLTK

Tokenize un paragraphe en phrase puis en mots dans NLTK

Vous aviez probablement l'intention de boucler sur sent_text :

import nltk

sent_text = nltk.sent_tokenize(text) # this gives us a list of sentences
# now loop over each sentence and tokenize it separately
for sentence in sent_text:
    tokenized_text = nltk.word_tokenize(sentence)
    tagged = nltk.pos_tag(tokenized_text)
    print(tagged)

Voici une version plus courte. Cela vous donnera une structure de données avec chaque phrase individuelle et chaque jeton dans la phrase. Je préfère le TweetTokenizer pour le langage désordonné du monde réel. Le tokenizer de phrase est considéré comme décent, mais veillez à ne pas réduire la casse de votre mot avant cette étape, car cela peut avoir un impact sur la précision de la détection des limites du texte désordonné.

from nltk.tokenize import TweetTokenizer, sent_tokenize

tokenizer_words = TweetTokenizer()
tokens_sentences = [tokenizer_words.tokenize(t) for t in 
nltk.sent_tokenize(input_text)]
print(tokens_sentences)

Voici à quoi ressemble la sortie, que j'ai nettoyée pour que la structure ressorte :

[
['This', 'thing', 'seemed', 'to', 'overpower', 'and', 'astonish', 'the', 'little', 'dark-brown', 'dog', ',', 'and', 'wounded', 'him', 'to', 'the', 'heart', '.'], 
['He', 'sank', 'down', 'in', 'despair', 'at', 'the', "child's", 'feet', '.'], 
['When', 'the', 'blow', 'was', 'repeated', ',', 'together', 'with', 'an', 'admonition', 'in', 'childish', 'sentences', ',', 'he', 'turned', 'over', 'upon', 'his', 'back', ',', 'and', 'held', 'his', 'paws', 'in', 'a', 'peculiar', 'manner', '.'], 
['At', 'the', 'same', 'time', 'with', 'his', 'ears', 'and', 'his', 'eyes', 'he', 'offered', 'a', 'small', 'prayer', 'to', 'the', 'child', '.']
]