Proofread: 07-TextSplitter/03-TokenTextSplitter

안녕하세요 @johnny9210 님,
https://github.com/LangChain-OpenTutorial/LangChain-OpenTutorial/pull/104 (최초PR https://github.com/LangChain-OpenTutorial/LangChain-OpenTutorial/pull/75) 번역 과정에서 제안드릴 사항들 정리하였습다.

개인적으로, 제가 담당한 신규2팀 파트 중 가장 어렵게 느꼈고 그만큼 검토 요청드릴 부분이 많습니다. 아래 내용을 모두 반영하였을 때 내용을 보실 수 있게 수정본 커밋 [링크](https://github.com/chaeyoonyunakim/LangChain-OpenTutorial/commit/5b88e4e9e2ec947f0aa2c2c2335b6e4375886174) 추가하니 참고하여 반영 여부 의견 부탁드립니다. 특별히 해당 PR 리뷰어분들도 태그합니다 @BaBetterB @teddylee777 


1. 다른 파일 제목이 좋을 것 같습니다. 튜토리얼에서 `TokenTextSplitter`보다 더 많은 내용을 다루고 있는 좋은 점이 잘 드러나지 않고, 사실 `TokenTextSplitter` 세션에서는 설명이 전무하여 의아하게 느낄 수 있습니다.
2. KoNLPy는 한국어 데이터로 적용 필요합니다. [최초 컨트리뷰터의 PR] (https://github.com/langchain-ai/langchain/pull/16003)을 참조해주세요. 저희가 사용하는 한국어 튜토리얼은 랭체인의 How-to를 번역해 작성한 것으로 보입니다. 때문에 직역한 영어 표기보다 공식 가이드를 레퍼런싱하는 것이 나을 듯 하고 활용 데이터만 교체하면 될 듯 합니다.
3. NLTK의 대체 활용으로 spaCy가 소개된 만큼 튜토리얼 순서를 변경하면 좋겠습니다.
4. 소제목을 다르게 사용하는 것을 제안 드립니다. 번역 관점으로 판단하였을 때 `tiktoken`과 `tokentextsplitter`, `sentencetransformers`은 예시 사용인 것 같고 `NLTK`와 `spaCy`소개할 내용과 다른 것 같습니다. 제가 모델과 코드사용에 대해 아직 모르는 부분들이 많기 때문에 `hugging face` 부분도 번역가 관점으로 다음과 같이 수정 제시 드려봅니다.
### Table of Contents

- [Overview](#overview)
- [Environment Setup](#environment-setup)
- [Example Usage of Tiktoken](#example-usage-of-tiktoken)
- [Example Usage of TokenTextSplitter](#example-usage-of-tokentextsplitter)
- [Example Usage of SentenceTransformers](#example-usage-of-sentencetransformers)
- [Splitting Text with NLTK](#splitting-text-with-nltk)
- [Splitting Text with spaCy](#splitting-text-with-spacy)
- [Using KoNLPy for Korean NLP](#using-konlpy-for-korean-nlp)
- [Basic Usage of Hugging Face tokenizers](#basic-usage-of-hugging-face-tokenizers)

5. 설명 단락이 코드 전개와 일치해야 합니다. 예를 들어 `NLTKTextSplitter`에서 `chunk_size =200`를 봐주세요. 만약에 작업 여유가 조금 더 있으시다면 저희 목적이 튜토리얼이기 때문에 서로 다른 예시 파라미터가 소개될 때 설명을 추가해주시면 좋겠습니다. 예를 들어 `chunk_overlap`가 어떤 사례에서는 `0`으로 다른 사례에서는 `50`으로 사용했다면 특별한 이유가 있는 것일까요?
6. API 레퍼런스 추가 여부 확인 부탁드립니다.


해당 노트북 작업은 앞뒤 노트북 디펜던시가 있어 특히 많은 시간을 요구할 것 같습니다. 영어식 표현들은 주로 앞번 노트북 02-RecursiveCharacterTextSplitter에 (https://github.com/LangChain-OpenTutorial/LangChain-OpenTutorial/issues/110) 제안드린 내용과 동일하게 제안드립니다.


감사합니다.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Proofread: 07-TextSplitter/03-TokenTextSplitter #115

Table of Contents

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Proofread: 07-TextSplitter/03-TokenTextSplitter #115

Description

Table of Contents

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions