본문 바로가기

punkt sentence tokenizer

(1)

nltk PunktSentenceTokenizer Sentence Tokeninzer - Custom Sentence Tokenizer 문서에서 영어로된 문장을 분리하는 nltk sentence tokeninzer 를 이용하면 아주 쉽게 된다고 알려져 있다.( 링크 : nltk sentence tokeninzer ) from nltk.tokenize import sent_tokenize text = "this's a sent tokenize test. this is sent two. is this sent three? sent 4 is cool! Now it's your turn." sent_tokenize_list = sent_tokenize(text) print(str(sent_tokenize_list)) 이런 코드를 이용하여 nltk 의 sent_tokenizer 를 이용하면 “. “ 을 기준으로 문서에 있는 문장들이 분리가 된다...

이전 1 다음

티스토리툴바