[N-2] 07-TextSplitter/03-TokenTextSplitter #462
Merged
Add this suggestion to a batch that can be applied as a single commit.
This suggestion is invalid because no changes were made to the code.
Suggestions cannot be applied while the pull request is closed.
Suggestions cannot be applied while viewing a subset of changes.
Only one suggestion per line can be applied in a batch.
Add this suggestion to a batch that can be applied as a single commit.
Applying suggestions on deleted lines is not supported.
You must change the existing code in this line in order to create a valid suggestion.
Outdated suggestions cannot be applied.
This suggestion has been applied or marked resolved.
Suggestions cannot be applied from pending reviews.
Suggestions cannot be applied on multi-line comments.
Suggestions cannot be applied while the pull request is queued to merge.
Suggestion cannot be applied right now. Please check back later.
TokenTextSplitter
보다 더 많은 내용을 다루고 있는 좋은 점이 잘 드러나지 않고, 사실TokenTextSplitter
세션에서는 설명이 전무하여 의아하게 느낄 수 있습니다.tiktoken
과tokentextsplitter
,sentencetransformers
은 예시 사용인 것 같고NLTK
와spaCy
소개할 내용과 다른 것 같습니다. 제가 모델과 코드사용에 대해 아직 모르는 부분들이 많기 때문에hugging face
부분도 번역가 관점으로 다음과 같이 수정 제시 드려봅니다.Table of Contents
NLTKTextSplitter
에서chunk_size =200
를 봐주세요. 만약에 작업 여유가 조금 더 있으시다면 저희 목적이 튜토리얼이기 때문에 서로 다른 예시 파라미터가 소개될 때 설명을 추가해주시면 좋겠습니다. 예를 들어chunk_overlap
가 어떤 사례에서는0
으로 다른 사례에서는50
으로 사용했다면 특별한 이유가 있는 것일까요?-> 의견 부탁드립니다.
@teddylee777 파일명을 변경해서 PR을 하는경우 기존파일의 경우 어떻게 삭제를 진행 해야하는지 궁금합니다. 현재 파일 삭제한 후 pr 올렸는데, 따로 commit에는 내용이 없는 것 같아 질문드립니다.
늦어서 죄송합니다.