-
Notifications
You must be signed in to change notification settings - Fork 283
Closed
Labels
proofreading번역/검수팀 제안사항 반영번역/검수팀 제안사항 반영
Description
안녕하세요 @johnny9210 님,
#104 (최초PR #75) 번역 과정에서 제안드릴 사항들 정리하였습다.
개인적으로, 제가 담당한 신규2팀 파트 중 가장 어렵게 느꼈고 그만큼 검토 요청드릴 부분이 많습니다. 아래 내용을 모두 반영하였을 때 내용을 보실 수 있게 수정본 커밋 링크 추가하니 참고하여 반영 여부 의견 부탁드립니다. 특별히 해당 PR 리뷰어분들도 태그합니다 @BaBetterB @teddylee777
- 다른 파일 제목이 좋을 것 같습니다. 튜토리얼에서
TokenTextSplitter
보다 더 많은 내용을 다루고 있는 좋은 점이 잘 드러나지 않고, 사실TokenTextSplitter
세션에서는 설명이 전무하여 의아하게 느낄 수 있습니다. - KoNLPy는 한국어 데이터로 적용 필요합니다. [최초 컨트리뷰터의 PR] (https://github.com/langchain-ai/langchain/pull/16003)을 참조해주세요. 저희가 사용하는 한국어 튜토리얼은 랭체인의 How-to를 번역해 작성한 것으로 보입니다. 때문에 직역한 영어 표기보다 공식 가이드를 레퍼런싱하는 것이 나을 듯 하고 활용 데이터만 교체하면 될 듯 합니다.
- NLTK의 대체 활용으로 spaCy가 소개된 만큼 튜토리얼 순서를 변경하면 좋겠습니다.
- 소제목을 다르게 사용하는 것을 제안 드립니다. 번역 관점으로 판단하였을 때
tiktoken
과tokentextsplitter
,sentencetransformers
은 예시 사용인 것 같고NLTK
와spaCy
소개할 내용과 다른 것 같습니다. 제가 모델과 코드사용에 대해 아직 모르는 부분들이 많기 때문에hugging face
부분도 번역가 관점으로 다음과 같이 수정 제시 드려봅니다.
Table of Contents
- Overview
- Environment Setup
- Example Usage of Tiktoken
- Example Usage of TokenTextSplitter
- Example Usage of SentenceTransformers
- Splitting Text with NLTK
- Splitting Text with spaCy
- Using KoNLPy for Korean NLP
- Basic Usage of Hugging Face tokenizers
- 설명 단락이 코드 전개와 일치해야 합니다. 예를 들어
NLTKTextSplitter
에서chunk_size =200
를 봐주세요. 만약에 작업 여유가 조금 더 있으시다면 저희 목적이 튜토리얼이기 때문에 서로 다른 예시 파라미터가 소개될 때 설명을 추가해주시면 좋겠습니다. 예를 들어chunk_overlap
가 어떤 사례에서는0
으로 다른 사례에서는50
으로 사용했다면 특별한 이유가 있는 것일까요? - API 레퍼런스 추가 여부 확인 부탁드립니다.
해당 노트북 작업은 앞뒤 노트북 디펜던시가 있어 특히 많은 시간을 요구할 것 같습니다. 영어식 표현들은 주로 앞번 노트북 02-RecursiveCharacterTextSplitter에 (#110) 제안드린 내용과 동일하게 제안드립니다.
감사합니다.
Metadata
Metadata
Labels
proofreading번역/검수팀 제안사항 반영번역/검수팀 제안사항 반영