unilex-extended

UNILEX data extended to ease downstream more usages.

Install

git clone [email protected]:lingua-libre/unilex-extended.git    # clone base repository
git submodule update --init --recursive                      # update/Install submodules locally

Tools

This directory contains scripts to convert from original unilex data :

./add-from-corpuscrawler.sh: if data is in google/corpuscrawler but not in current unicode-org/unilex repository, pull it in.
./to-sorted.sh: takes unilex/data/frequency/{IETF}.txt, converts into ./frequency-sorted-count/{IETF}.txt and ./frequency-sorted-hash/{IETF}.txt.
./unilex-to-letters.sh: for a given {IETF}.txt target, transform frequency files into n files, one per letter. See human-friendly inline comments. Default: mr (Marathi).

Data

./frequency-sorted-count/: format na 77968661, sorted by count descendant.
./frequency-sorted-hash/: format # na (wiki list), sorted by count descendant.

License

Data is under Unicode License (GNU-like).

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
.github/ISSUE_TEMPLATE		.github/ISSUE_TEMPLATE
frequency-sorted-count		frequency-sorted-count
frequency-sorted-hash		frequency-sorted-hash
unilex @ 02e7673		unilex @ 02e7673
.gitmodules		.gitmodules
LICENSE		LICENSE
LICENSE-UNICODE.md		LICENSE-UNICODE.md
README.md		README.md
add-from-corpuscrawler.sh		add-from-corpuscrawler.sh
to-sorted.sh		to-sorted.sh
unilex-to-letters.sh		unilex-to-letters.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Licenses found

Uh oh!

Repository files navigation

unilex-extended

Install

Tools

Data

License

About

Licenses found

Uh oh!

Releases

Packages

Languages

License

Licenses found

lingua-libre/unilex-extended

Folders and files

Latest commit

History

Repository files navigation

unilex-extended

Install

Tools

Data

License

About

Resources

License

Licenses found

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages