Bert Tokenzation

回顾bert的tokenizer，并实现分词后token到raw_text_char的映射关系。

tokenization_bert.py 原始的bert分词方式

   tokenizer = FullTokenizer("vocab.txt")
   text = '哈哈，abn\u0303o'
   tokens = tokenizer.tokenize(text)
   #tokens:['哈', '哈', '，', 'ab', '##no']

长度为500的样本，totokenizer.tokenize耗时2.3ms

tokenization.py

  tokenizer = FullTokenizer("vocab.txt")
  text = '哈哈，abn\u0303o'
  tokens, index_map = tokenizer.tokenize(text)
  print(tokens, index_map)
  # tekens:['哈', '哈', '，', 'ab', '##no']
  # index_map:[[0], [1], [2], [3, 4], [5, 7]]

长度为500的样本，totokenizer.tokenize耗时5.1ms

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
readme.md		readme.md
tokenization.py		tokenization.py
tokenization_bert.py		tokenization_bert.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Bert Tokenzation

About

Uh oh!

Releases

Packages

Languages

kyang888/tokenization

Folders and files

Latest commit

History

Repository files navigation

Bert Tokenzation

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages