nltk (2) 썸네일형 리스트형 nltk PunktSentenceTokenizer Sentence Tokeninzer - Custom Sentence Tokenizer 문서에서 영어로된 문장을 분리하는 nltk sentence tokeninzer 를 이용하면 아주 쉽게 된다고 알려져 있다.( 링크 : nltk sentence tokeninzer ) from nltk.tokenize import sent_tokenize text = "this's a sent tokenize test. this is sent two. is this sent three? sent 4 is cool! Now it's your turn." sent_tokenize_list = sent_tokenize(text) print(str(sent_tokenize_list)) 이런 코드를 이용하여 nltk 의 sent_tokenizer 를 이용하면 “. “ 을 기준으로 문서에 있는 문장들이 분리가 된다... Sentence Tokenized English 영어로 된 문장은 아래와 같이 NLTK 라이브러리를 이용하면 Tokenize 할 수 있다. from nltk.tokenize import word_tokenize sentence = "this is my iphone(6s)" print("입력 :"+sentence) tokens = word_tokenize(sentence) print("배열로 나눈 결과 :" + str(tokens)) nltkTokenizedSentence = (' '.join(str(e) for e in tokens)) print("공백으로 합친 결과 :" +nltkTokenizedSentence) print("\n------------------------------------------------\n") from nltk.token.. 이전 1 다음