Thanks to visit codestin.com
Credit goes to github.com

Skip to content

Proofread: 07-TextSplitter/03-TokenTextSplitter #115

@chaeyoonyunakim

Description

@chaeyoonyunakim

안녕하세요 @johnny9210 님,
#104 (최초PR #75) 번역 과정에서 제안드릴 사항들 정리하였습다.

개인적으로, 제가 담당한 신규2팀 파트 중 가장 어렵게 느꼈고 그만큼 검토 요청드릴 부분이 많습니다. 아래 내용을 모두 반영하였을 때 내용을 보실 수 있게 수정본 커밋 링크 추가하니 참고하여 반영 여부 의견 부탁드립니다. 특별히 해당 PR 리뷰어분들도 태그합니다 @BaBetterB @teddylee777

  1. 다른 파일 제목이 좋을 것 같습니다. 튜토리얼에서 TokenTextSplitter보다 더 많은 내용을 다루고 있는 좋은 점이 잘 드러나지 않고, 사실 TokenTextSplitter 세션에서는 설명이 전무하여 의아하게 느낄 수 있습니다.
  2. KoNLPy는 한국어 데이터로 적용 필요합니다. [최초 컨트리뷰터의 PR] (https://github.com/langchain-ai/langchain/pull/16003)을 참조해주세요. 저희가 사용하는 한국어 튜토리얼은 랭체인의 How-to를 번역해 작성한 것으로 보입니다. 때문에 직역한 영어 표기보다 공식 가이드를 레퍼런싱하는 것이 나을 듯 하고 활용 데이터만 교체하면 될 듯 합니다.
  3. NLTK의 대체 활용으로 spaCy가 소개된 만큼 튜토리얼 순서를 변경하면 좋겠습니다.
  4. 소제목을 다르게 사용하는 것을 제안 드립니다. 번역 관점으로 판단하였을 때 tiktokentokentextsplitter, sentencetransformers은 예시 사용인 것 같고 NLTKspaCy소개할 내용과 다른 것 같습니다. 제가 모델과 코드사용에 대해 아직 모르는 부분들이 많기 때문에 hugging face 부분도 번역가 관점으로 다음과 같이 수정 제시 드려봅니다.

Table of Contents

  1. 설명 단락이 코드 전개와 일치해야 합니다. 예를 들어 NLTKTextSplitter에서 chunk_size =200를 봐주세요. 만약에 작업 여유가 조금 더 있으시다면 저희 목적이 튜토리얼이기 때문에 서로 다른 예시 파라미터가 소개될 때 설명을 추가해주시면 좋겠습니다. 예를 들어 chunk_overlap가 어떤 사례에서는 0으로 다른 사례에서는 50으로 사용했다면 특별한 이유가 있는 것일까요?
  2. API 레퍼런스 추가 여부 확인 부탁드립니다.

해당 노트북 작업은 앞뒤 노트북 디펜던시가 있어 특히 많은 시간을 요구할 것 같습니다. 영어식 표현들은 주로 앞번 노트북 02-RecursiveCharacterTextSplitter에 (#110) 제안드린 내용과 동일하게 제안드립니다.

감사합니다.

Metadata

Metadata

Labels

proofreading번역/검수팀 제안사항 반영

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions