Thanks to visit codestin.com
Credit goes to github.com

Skip to content

mawo-ru/mawo-nlp-data

Folders and files

NameName
Last commit message
Last commit date

Latest commit

Β 

History

2 Commits
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 

Repository files navigation

MAWO NLP Data

Π”Π°Π½Π½Ρ‹Π΅ ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ для Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ СстСствСнного языка MAWO

License: MIT Release


πŸ“¦ ОписаниС

Π­Ρ‚ΠΎΡ‚ Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΉ содСрТит справочныС Π΄Π°Π½Π½Ρ‹Π΅, ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈ корпуса для Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊ MAWO:

  • mawo-pymorphy3 - ΠœΠΎΡ€Ρ„ΠΎΠ»ΠΎΠ³ΠΈΡ‡Π΅ΡΠΊΠΈΠΉ Π°Π½Π°Π»ΠΈΠ·Π°Ρ‚ΠΎΡ€
  • mawo-slovnet - NER, морфология, синтаксис
  • mawo-natasha - БСмантичСский Π°Π½Π°Π»ΠΈΠ·
  • mawo-razdel - ВокСнизация ΠΈ сСгмСнтация

Π”Π°Π½Π½Ρ‹Π΅ Ρ€Π°ΡΠΏΡ€ΠΎΡΡ‚Ρ€Π°Π½ΡΡŽΡ‚ΡΡ Ρ‡Π΅Ρ€Π΅Π· GitHub Releases для ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ Ρ€Π°Π·ΠΌΠ΅Ρ€Π° ΠΏΠ°ΠΊΠ΅Ρ‚ΠΎΠ².


πŸ“‚ Π‘Ρ‚Ρ€ΡƒΠΊΡ‚ΡƒΡ€Π° Ρ€Π΅Π»ΠΈΠ·ΠΎΠ²

v1.0.0 (Ρ‚Π΅ΠΊΡƒΡ‰ΠΈΠΉ)

Π€Π°ΠΉΠ» Π Π°Π·ΠΌΠ΅Ρ€ ОписаниС Π˜ΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Π²
natasha-data-v1.0.0.tar.gz 34M Embeddings + словари ΠΈΠΌΡ‘Π½ + ΠΌΠΎΠ΄Π΅Π»ΠΈ mawo-natasha
slovnet_ner_news_v1.tar.neural.gz 2.2M NER модСль mawo-slovnet, mawo-natasha
slovnet_morph_news_v1.tar.neural.gz 2.4M ΠœΠΎΡ€Ρ„ΠΎΠ»ΠΎΠ³ΠΈΡ‡Π΅ΡΠΊΠ°Ρ модСль mawo-slovnet, mawo-natasha
slovnet_syntax_news_v1.tar.neural.gz 2.5M БинтаксичСская модСль mawo-slovnet, mawo-natasha
opencorpora-2025.tar.gz 69M OpenCorpora корпус (ΠΎΠΏΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎ) mawo-pymorphy3
checksums.txt <1K SHA256 Ρ…Π΅ΡˆΠΈ всСх Ρ„Π°ΠΉΠ»ΠΎΠ² -

ΠžΠ±Ρ‰ΠΈΠΉ Ρ€Π°Π·ΠΌΠ΅Ρ€: ~110M


πŸš€ Установка

АвтоматичСская установка

Π‘ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²ΠΎ Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊ MAWO автоматичСски ΡΠΊΠ°Ρ‡ΠΈΠ²Π°ΡŽΡ‚ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΡ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ ΠΏΡ€ΠΈ ΠΏΠ΅Ρ€Π²ΠΎΠΌ использовании:

pip install mawo-natasha
# ΠŸΡ€ΠΈ ΠΏΠ΅Ρ€Π²ΠΎΠΌ запускС автоматичСски скачаСт natasha-data-v1.0.0.tar.gz

Ручная установка (offline)

Если Ρƒ вас Π½Π΅Ρ‚ доступа ΠΊ ΠΈΠ½Ρ‚Π΅Ρ€Π½Π΅Ρ‚Ρƒ ΠΈΠ»ΠΈ Π²Ρ‹ Ρ…ΠΎΡ‚ΠΈΡ‚Π΅ ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π·Π°Π³Ρ€ΡƒΠ·ΠΈΡ‚ΡŒ Π΄Π°Π½Π½Ρ‹Π΅:

1. Π‘ΠΊΠ°Ρ‡Π°Ρ‚ΡŒ Ρ€Π΅Π»ΠΈΠ·

# Для mawo-natasha
wget https://github.com/mawo-ru/mawo-nlp-data/releases/download/v1.0.0/natasha-data-v1.0.0.tar.gz
tar -xzf natasha-data-v1.0.0.tar.gz -C ~/.mawo-natasha/

# Для mawo-slovnet (ΠΎΠΏΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎ, ΠΌΠΎΠ΄Π΅Π»ΠΈ ΡƒΠΆΠ΅ Π²ΠΊΠ»ΡŽΡ‡Π΅Π½Ρ‹ Π² ΠΏΠ°ΠΊΠ΅Ρ‚)
wget https://github.com/mawo-ru/mawo-nlp-data/releases/download/v1.0.0/slovnet_ner_news_v1.tar.neural.gz
mkdir -p ~/.mawo-slovnet/models/
mv slovnet_ner_news_v1.tar.neural.gz ~/.mawo-slovnet/models/

# Для opencorpora (ΠΎΠΏΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎ, для ΠΏΡ€ΠΎΠ΄Π²ΠΈΠ½ΡƒΡ‚ΠΎΠ³ΠΎ морфологичСского Π°Π½Π°Π»ΠΈΠ·Π°)
wget https://github.com/mawo-ru/mawo-nlp-data/releases/download/v1.0.0/opencorpora-2025.tar.gz
tar -xzf opencorpora-2025.tar.gz -C ~/.mawo-pymorphy3/

2. ΠŸΡ€ΠΎΠ²Π΅Ρ€ΠΈΡ‚ΡŒ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Ρ‹Π΅ суммы

wget https://github.com/mawo-ru/mawo-nlp-data/releases/download/v1.0.0/checksums.txt
sha256sum -c checksums.txt

πŸ“‹ Π”Π΅Ρ‚Π°Π»ΡŒΠ½ΠΎΠ΅ описаниС Ρ€Π΅Π»ΠΈΠ·ΠΎΠ²

natasha-data-v1.0.0.tar.gz (34M)

Π‘ΠΎΠ΄Π΅Ρ€ΠΆΠΈΠΌΠΎΠ΅:

embeddings/
  navec_news_v1_1B_250K_300d_100q.emb  # 26M - Navec эмбСддинги (250K слов, 300 ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠΉ)
dictionaries/
  first.dict                            # Π‘Π»ΠΎΠ²Π°Ρ€ΡŒ ΠΈΠΌΡ‘Π½
  first_male_2025.dict                  # ΠœΡƒΠΆΡΠΊΠΈΠ΅ ΠΈΠΌΠ΅Π½Π°
  first_female_2025.dict                # ЖСнскиС ΠΈΠΌΠ΅Π½Π°
  first_all_2025.dict                   # ВсС ΠΈΠΌΠ΅Π½Π°
  maybe_first.dict                      # Π’ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹Π΅ ΠΈΠΌΠ΅Π½Π°
  last.dict                             # Π€Π°ΠΌΠΈΠ»ΠΈΠΈ
  last_updated_2025.dict                # ΠžΠ±Π½ΠΎΠ²Π»Ρ‘Π½Π½Ρ‹Π΅ Ρ„Π°ΠΌΠΈΠ»ΠΈΠΈ
  middle.dict                           # ΠžΡ‚Ρ‡Π΅ΡΡ‚Π²Π°
models/
  slovnet_ner_news_v1.model             # NER модСль
  slovnet_morph_news_v1.model           # ΠœΠΎΡ€Ρ„ΠΎΠ»ΠΎΠ³ΠΈΡ
  slovnet_syntax_news_v1.model          # Бинтаксис

НазначСниС: ΠžΡΠ½ΠΎΠ²Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ для Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΈ mawo-natasha (сСмантичСский Π°Π½Π°Π»ΠΈΠ·, распознаваниС ΠΈΠΌΡ‘Π½).

SHA256: bd5e1b074046175c629eead72a07640ac8606b0c4471a93e05888f1c6c9bfb2d


slovnet_*.tar.neural.gz (2.2-2.5M ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ)

Π‘ΠΎΠ΄Π΅Ρ€ΠΆΠΈΠΌΠΎΠ΅: НСйросСтСвыС ΠΌΠΎΠ΄Π΅Π»ΠΈ SlovNet, ΠΎΠ±ΡƒΡ‡Π΅Π½Π½Ρ‹Π΅ Π½Π° новостном корпусС:

  • slovnet_ner_news_v1 (2.2M) - РаспознаваниС ΠΈΠΌΠ΅Π½ΠΎΠ²Π°Π½Π½Ρ‹Ρ… сущностСй (PER, LOC, ORG)
  • slovnet_morph_news_v1 (2.4M) - ΠœΠΎΡ€Ρ„ΠΎΠ»ΠΎΠ³ΠΈΡ‡Π΅ΡΠΊΠΈΠΉ Π°Π½Π°Π»ΠΈΠ· (POS-Ρ‚Π΅Π³ΠΈ, ΠΏΠ°Π΄Π΅ΠΆΠΈ, число, Ρ€ΠΎΠ΄)
  • slovnet_syntax_news_v1 (2.5M) - БинтаксичСский Π°Π½Π°Π»ΠΈΠ· (зависимости)

НазначСниС: МодСли ΡƒΠΆΠ΅ Π²ΠΊΠ»ΡŽΡ‡Π΅Π½Ρ‹ Π² ΠΏΠ°ΠΊΠ΅Ρ‚Ρ‹ mawo-slovnet ΠΈ mawo-natasha, Π½ΠΎ доступны ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎ для ΠΎΠ±Π½ΠΎΠ²Π»Π΅Π½ΠΈΠΉ.

SHA256:

  • NER: b4880fd6d5536097485c985d7b8a11bd593ea83e286554abb3d5a1df1b2b1f0a
  • Morph: 276c8a3e6534a142e28b3b804cf269f4a8cb85c0c1342c059d17e1e84bb9ed18
  • Syntax: fd214b5424dca70d4a6634abb7a5ab27c1689bb0d49638c19647db18c0375d99

opencorpora-2025.tar.gz (69M)

Π‘ΠΎΠ΄Π΅Ρ€ΠΆΠΈΠΌΠΎΠ΅:

opencorpora_2025/
  opencorpora_annot_2025.xml   # 532M (сТато Π΄ΠΎ 50M) - XML с аннотациями
  opencorpora_annot_2025.pkl   # 309M (сТато Π΄ΠΎ 18M) - Pickle с аннотациями
  freqrnc2011.csv              # 1.8M - Частоты слов РНК
  freqrnc_readme.txt           # 1.4K - ОписаниС

НазначСниС: ΠŸΠΎΠ»Π½Ρ‹ΠΉ корпус OpenCorpora для ΠΏΡ€ΠΎΠ΄Π²ΠΈΠ½ΡƒΡ‚ΠΎΠ³ΠΎ морфологичСского Π°Π½Π°Π»ΠΈΠ·Π° (ΠΎΠΏΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎ).

ИспользованиС:

from mawo_pymorphy3 import MAWOMorphAnalyzer

# Π‘Π°Π·ΠΎΠ²Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ· (Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ Π±Π΅Π· opencorpora)
m = MAWOMorphAnalyzer()
print(m.parse('ΠΏΡ€ΠΈΠ²Π΅Ρ‚'))

# Π Π°ΡΡˆΠΈΡ€Π΅Π½Π½Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ· с корпусом
m = MAWOMorphAnalyzer(opencorpora_path='~/.mawo-pymorphy3/opencorpora_2025')
print(m.get_corpus_frequency('ΠΏΡ€ΠΈΠ²Π΅Ρ‚'))  # Частота слова Π² корпусС

SHA256: 171a8413b9d02e8eeed99a89958b6ebdb9ca0b91ba1f120085a3663cf8f2c484


πŸ™ Upstream-ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Ρ‹ ΠΈ благодарности

ΠŸΡ€ΠΎΠ΅ΠΊΡ‚ MAWO построСн Π½Π° основС ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΡ… ΠΎΡ‚Π»ΠΈΡ‡Π½Ρ‹Ρ… open-source ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ΠΎΠ²:

Natasha ΠΎΡ‚ АлСксандра ΠšΡƒΠΊΡƒΡˆΠΊΠΈΠ½Π°

  • natasha - NER ΠΈ сСмантичСский Π°Π½Π°Π»ΠΈΠ·
  • slovnet - ΠΌΠΎΠ΄Π΅Π»ΠΈ NER, ΠΌΠΎΡ€Ρ„ΠΎΠ»ΠΎΠ³ΠΈΠΈ ΠΈ синтаксиса
  • razdel - токСнизация ΠΈ сСгмСнтация
  • navec - Π²Π΅ΠΊΡ‚ΠΎΡ€Π½Ρ‹Π΅ прСдставлСния слов

Pymorphy ΠΎΡ‚ ΠœΠΈΡ…Π°ΠΈΠ»Π° ΠšΠΎΡ€ΠΎΠ±ΠΎΠ²Π°

  • pymorphy2 - морфологичСский Π°Π½Π°Π»ΠΈΠ·Π°Ρ‚ΠΎΡ€
  • pymorphy3 - обновлённая вСрсия

ЛингвистичСскиС корпуса

Полная информация ΠΎΠ± авторствС: см. ATTRIBUTION.md


πŸ”’ Π›ΠΈΡ†Π΅Π½Π·ΠΈΠΈ

Π”Π°Π½Π½Ρ‹Π΅

  • OpenCorpora: CC BY-SA 3.0
  • SlovNet ΠΌΠΎΠ΄Π΅Π»ΠΈ: MIT - Copyright (c) Alexander Kukushkin
  • Navec эмбСддинги: MIT - Copyright (c) Alexander Kukushkin
  • Π‘Π»ΠΎΠ²Π°Ρ€ΠΈ ΠΈΠΌΡ‘Π½: MIT - Copyright (c) Alexander Kukushkin
  • Pymorphy словари: MIT - Copyright (c) Mikhail Korobov

Код

ВсС Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΈ MAWO Ρ€Π°ΡΠΏΡ€ΠΎΡΡ‚Ρ€Π°Π½ΡΡŽΡ‚ΡΡ ΠΏΠΎΠ΄ Π»ΠΈΡ†Π΅Π½Π·ΠΈΠ΅ΠΉ MIT с сохранСниСм ΠΎΡ€ΠΈΠ³ΠΈΠ½Π°Π»ΡŒΠ½Ρ‹Ρ… copyright notices ΠΈΠ· upstream-ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ΠΎΠ².


πŸ“Š Бтатистика Π΄Π°Π½Π½Ρ‹Ρ…

Navec Embeddings

  • Π‘Π»ΠΎΠ²Π°Ρ€ΡŒ: 250 000 слов
  • Π Π°Π·ΠΌΠ΅Ρ€Π½ΠΎΡΡ‚ΡŒ: 300
  • ΠšΠ²Π°Π½Ρ‚ΠΈΠ·Π°Ρ†ΠΈΡ: 100 ΡƒΡ€ΠΎΠ²Π½Π΅ΠΉ
  • Π€ΠΎΡ€ΠΌΠ°Ρ‚: .emb (ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ Π±ΠΈΠ½Π°Ρ€Π½Ρ‹ΠΉ)
  • Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ: Новостной корпус (1B Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ²)

Π‘Π»ΠΎΠ²Π°Ρ€ΠΈ ΠΈΠΌΡ‘Π½ (2025)

  • ΠœΡƒΠΆΡΠΊΠΈΠ΅ ΠΈΠΌΠ΅Π½Π°: ~7 500 ΡƒΠ½ΠΈΠΊΠ°Π»ΡŒΠ½Ρ‹Ρ…
  • ЖСнскиС ΠΈΠΌΠ΅Π½Π°: ~8 200 ΡƒΠ½ΠΈΠΊΠ°Π»ΡŒΠ½Ρ‹Ρ…
  • Π€Π°ΠΌΠΈΠ»ΠΈΠΈ: ~95 000 ΡƒΠ½ΠΈΠΊΠ°Π»ΡŒΠ½Ρ‹Ρ…
  • ΠžΡ‚Ρ‡Π΅ΡΡ‚Π²Π°: ~2 100 ΡƒΠ½ΠΈΠΊΠ°Π»ΡŒΠ½Ρ‹Ρ…
  • ОбновлСниС: 2025-09-15

SlovNet ΠΌΠΎΠ΄Π΅Π»ΠΈ

  • ΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΠΉ корпус: Новости (LENTA, RIA, TASS)
  • Π’ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ NER: F1 = 0.96 (PER), 0.92 (LOC), 0.89 (ORG)
  • Π’ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ ΠΌΠΎΡ€Ρ„ΠΎΠ»ΠΎΠ³ΠΈΠΈ: 98.2% (POS), 96.7% (ΠΏΠ°Π΄Π΅ΠΆ)
  • Π’ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ синтаксиса: UAS = 94.1%, LAS = 92.3%

OpenCorpora

  • ЛСксСм: 391 845
  • Аннотированных ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΠΉ: ~55 000
  • Π’ΠΎΠΊΠ΅Π½ΠΎΠ²: ~1 000 000
  • ВСрсия: 0.92 (revision 417260)
  • Π”Π°Ρ‚Π° компиляции: 2025-09-15

πŸ”§ ИспользованиС Π² Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ°Ρ…

mawo-pymorphy3

from mawo_pymorphy3 import MAWOMorphAnalyzer

# АвтоматичСски ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ встроСнныС DAWG словари (13M)
m = MAWOMorphAnalyzer()
print(m.parse('ΠΏΡ€ΠΈΠ²Π΅Ρ‚'))
# [MAWOParse(word='ΠΏΡ€ΠΈΠ²Π΅Ρ‚', normal_form='ΠΏΡ€ΠΈΠ²Π΅Ρ‚', tag=OpencorporaTag('INTJ'), score=1.0, methods_stack=(...))]

# ΠžΠΏΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎ: ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΏΠΎΠ»Π½Ρ‹ΠΉ OpenCorpora корпус (69M)
m_full = MAWOMorphAnalyzer(opencorpora_path='~/.mawo-pymorphy3/opencorpora_2025')

mawo-slovnet

from mawo_slovnet import NER, Morph, Syntax

# МодСли ΡƒΠΆΠ΅ Π²ΠΊΠ»ΡŽΡ‡Π΅Π½Ρ‹ Π² ΠΏΠ°ΠΊΠ΅Ρ‚ (6.9M)
ner = NER()
morph = Morph()
syntax = Syntax()

text = "Π’Π»Π°Π΄ΠΈΠΌΠΈΡ€ ΠŸΡƒΡ‚ΠΈΠ½ выступил Π² МосквС"
print(ner(text))
# [Span(start=0, stop=14, type='PER', text='Π’Π»Π°Π΄ΠΈΠΌΠΈΡ€ ΠŸΡƒΡ‚ΠΈΠ½'),
#  Span(start=26, stop=32, type='LOC', text='МосквС')]

mawo-natasha

from mawo_natasha import Doc

# АвтоматичСски скачаСт natasha-data-v1.0.0.tar.gz (34M) ΠΏΡ€ΠΈ ΠΏΠ΅Ρ€Π²ΠΎΠΌ запускС
# Или ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ прСдустановлСнныС Π΄Π°Π½Π½Ρ‹Π΅ ΠΈΠ· ~/.mawo-natasha/
doc = Doc("АлСксандр Π‘Π΅Ρ€Π³Π΅Π΅Π²ΠΈΡ‡ ΠŸΡƒΡˆΠΊΠΈΠ½ родился Π² МосквС Π² 1799 Π³ΠΎΠ΄Ρƒ")

print(doc.tokens)  # Π’ΠΎΠΊΠ΅Π½Ρ‹
print(doc.sents)   # ΠŸΡ€Π΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΡ
print(doc.spans)   # Π˜ΠΌΠ΅Π½ΠΎΠ²Π°Π½Π½Ρ‹Π΅ сущности
# [Span(start=0, stop=29, type='PER', text='АлСксандр Π‘Π΅Ρ€Π³Π΅Π΅Π²ΠΈΡ‡ ΠŸΡƒΡˆΠΊΠΈΠ½'),
#  Span(start=41, stop=47, type='LOC', text='МосквС')]

mawo-razdel

from mawo_razdel import sentenize, tokenize

# ΠšΠΎΡ€ΠΏΡƒΡΠ° ΡƒΠΆΠ΅ Π²ΠΊΠ»ΡŽΡ‡Π΅Π½Ρ‹ Π² ΠΏΠ°ΠΊΠ΅Ρ‚ (21M)
text = "ΠŸΡ€ΠΈΠ²Π΅Ρ‚! Как Π΄Π΅Π»Π°? Всё Ρ…ΠΎΡ€ΠΎΡˆΠΎ."
sents = list(sentenize(text))
print(sents)
# [Substring(start=0, stop=7, text='ΠŸΡ€ΠΈΠ²Π΅Ρ‚!'),
#  Substring(start=8, stop=17, text='Как дСла?'),
#  Substring(start=18, stop=29, text='Всё Ρ…ΠΎΡ€ΠΎΡˆΠΎ.')]

tokens = list(tokenize(text))
print(tokens)
# [Substring(..., text='ΠŸΡ€ΠΈΠ²Π΅Ρ‚'), Substring(..., text='!'), ...]

πŸ“š ДокумСнтация

Полная докумСнтация доступна Π² рСпозиториях Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊ:


πŸ› οΈ Π Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠ°

Π‘ΠΎΠ·Π΄Π°Π½ΠΈΠ΅ Π½ΠΎΠ²Ρ‹Ρ… Ρ€Π΅Π»ΠΈΠ·ΠΎΠ²

# 1. ΠŸΠΎΠ΄Π³ΠΎΡ‚ΠΎΠ²ΠΈΡ‚ΡŒ Π΄Π°Π½Π½Ρ‹Π΅
mkdir -p releases/v1.1.0/

# 2. Π£ΠΏΠ°ΠΊΠΎΠ²Π°Ρ‚ΡŒ
tar -czf releases/v1.1.0/natasha-data-v1.1.0.tar.gz \
  embeddings/ dictionaries/ models/

# 3. Π‘ΠΎΠ·Π΄Π°Ρ‚ΡŒ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Ρ‹Π΅ суммы
cd releases/v1.1.0/
sha256sum *.tar.gz > checksums.txt

# 4. Π‘ΠΎΠ·Π΄Π°Ρ‚ΡŒ Ρ€Π΅Π»ΠΈΠ· Π½Π° GitHub
gh release create v1.1.0 \
  --title "MAWO NLP Data v1.1.0" \
  --notes "ΠžΠ±Π½ΠΎΠ²Π»Ρ‘Π½Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ для Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊ MAWO" \
  *.tar.gz checksums.txt

ΠŸΡ€ΠΎΠ²Π΅Ρ€ΠΊΠ° цСлостности

# Π‘ΠΊΠ°Ρ‡Π°Ρ‚ΡŒ checksums.txt
wget https://github.com/mawo-ru/mawo-nlp-data/releases/download/v1.0.0/checksums.txt

# ΠŸΡ€ΠΎΠ²Π΅Ρ€ΠΈΡ‚ΡŒ всС Ρ„Π°ΠΉΠ»Ρ‹
sha256sum -c checksums.txt

🀝 Π’ΠΊΠ»Π°Π΄

ΠœΡ‹ привСтствуСм Π²ΠΊΠ»Π°Π΄ Π² Ρ€Π°Π·Π²ΠΈΡ‚ΠΈΠ΅ Π΄Π°Π½Π½Ρ‹Ρ… MAWO!

Как ΠΏΠΎΠΌΠΎΡ‡ΡŒ

  1. Π”ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚ΡŒ словари ΠΈΠΌΡ‘Π½ - Π΄ΠΎΠ±Π°Π²ΠΈΡ‚ΡŒ Π½ΠΎΠ²Ρ‹Π΅ ΠΈΠΌΠ΅Π½Π°, Ρ„Π°ΠΌΠΈΠ»ΠΈΠΈ, отчСства
  2. ΠžΠ±Π½ΠΎΠ²ΠΈΡ‚ΡŒ корпуса - Π΄ΠΎΠ±Π°Π²ΠΈΡ‚ΡŒ Π½ΠΎΠ²Ρ‹Π΅ Π°Π½Π½ΠΎΡ‚ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Π΅ тСксты
  3. Π£Π»ΡƒΡ‡ΡˆΠΈΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ - Π΄ΠΎΠΎΠ±ΡƒΡ‡ΠΈΡ‚ΡŒ Π½Π° спСциализированных Π΄ΠΎΠΌΠ΅Π½Π°Ρ…
  4. ΠžΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Ρ€Π°Π·ΠΌΠ΅Ρ€ - ΡƒΠ»ΡƒΡ‡ΡˆΠΈΡ‚ΡŒ ΠΊΠΎΠΌΠΏΡ€Π΅ΡΡΠΈΡŽ Π΄Π°Π½Π½Ρ‹Ρ…

ΠŸΡ€ΠΎΡ†Π΅ΡΡ

  1. Fork рСпозитория
  2. Π‘ΠΎΠ·Π΄Π°Ρ‚ΡŒ feature branch (git checkout -b feature/new-names-dict)
  3. Commit ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠΉ (git commit -am 'Π”ΠΎΠ±Π°Π²ΠΈΡ‚ΡŒ 1000 Π½ΠΎΠ²Ρ‹Ρ… ΠΈΠΌΡ‘Π½')
  4. Push Π² branch (git push origin feature/new-names-dict)
  5. Π‘ΠΎΠ·Π΄Π°Ρ‚ΡŒ Pull Request

πŸ“ž ΠšΠΎΠ½Ρ‚Π°ΠΊΡ‚Ρ‹


πŸ“œ Π˜ΡΡ‚ΠΎΡ€ΠΈΡ вСрсий

v1.0.0 (2025-10-31)

ΠŸΠ΅Ρ€Π²Ρ‹ΠΉ Ρ€Π΅Π»ΠΈΠ· Π΄Π°Π½Π½Ρ‹Ρ… MAWO

  • βœ… Navec эмбСддинги (250K слов, 300D)
  • βœ… Π‘Π»ΠΎΠ²Π°Ρ€ΠΈ ΠΈΠΌΡ‘Π½ (113K записСй, ΠΎΠ±Π½ΠΎΠ²Π»Π΅Π½ΠΈΠ΅ 2025)
  • βœ… SlovNet ΠΌΠΎΠ΄Π΅Π»ΠΈ (NER, морфология, синтаксис)
  • βœ… OpenCorpora корпус (391K лСксСм)
  • βœ… ΠšΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Ρ‹Π΅ суммы SHA256

ΠžΠ±Ρ‰ΠΈΠΉ Ρ€Π°Π·ΠΌΠ΅Ρ€: 110M (оптимизация 83.7% ΠΎΡ‚ исходных 881M)


БдСлано с ❀️ командой MAWO для Russian NLP

GitHub β€’ PyPI β€’ Docs

About

MAWO NLP Data

Resources

License

Contributing

Security policy

Stars

Watchers

Forks

Packages

No packages published