Деякі статистичні відомості
- Загальні дані
- Дані по словах які сукупно важать 95% загальної маси
- Частота українських літер у текстах
- Як і звідки це все взялося
- Що далі
Загальні дані
Всього переглянуто слів | 18690067 |
---|---|
Всього унікальних слів | 726935 |
Середня довжина слова | 10.00 |
Середньозважена довжина слова | 7.29 |
Середня вага слова | 25.71 |
Дані по словах які сукупно важать 95% загальної маси
Всього переглянуто слів | 17750427 |
---|---|
Всього унікальних слів | 166906 |
Середня довжина слова | 8.97 |
Середньозважена довжина слова | 7.15 |
Середня вага слова | 106.35 |
Зауваження:
- на даний момент 95% загальної ваги – це слова які зустрічаються більше ніж 5 раз.
- список слів у текстовому вигляді тут
Частота українських літер у текстах
З урахуванням “Ґ” | Без урахуванням “Ґ” | ||||||
---|---|---|---|---|---|---|---|
По загалу | По вибраних | По загалу | По вибраних | ||||
Літера | % | Літера | % | Літера | % | Літера | % |
ґ | 0.0145 | ґ | 0.0116 | ||||
‘ | 0.1032 | ‘ | 0.1013 | ‘ | 0.1032 | ‘ | 0.1013 |
– | 0.1762 | – | 0.1260 | – | 0.1762 | – | 0.1260 |
щ | 0.2238 | щ | 0.2283 | щ | 0.2238 | щ | 0.2283 |
ф | 0.3640 | ф | 0.3538 | ф | 0.3640 | ф | 0.3538 |
є | 0.5868 | є | 0.5910 | є | 0.5869 | є | 0.5911 |
ш | 0.7379 | ш | 0.7295 | ш | 0.7380 | ш | 0.7296 |
ї | 0.7678 | ї | 0.7864 | ї | 0.7679 | ї | 0.7865 |
ж | 0.8269 | ж | 0.8413 | ж | 0.8270 | ж | 0.8414 |
ю | 0.8893 | ю | 0.8789 | ю | 0.8894 | ю | 0.8790 |
ц | 0.9789 | ц | 0.9872 | ц | 0.9790 | ц | 0.9874 |
й | 1.1122 | й | 1.1041 | й | 1.1123 | й | 1.1042 |
х | 1.1227 | х | 1.1252 | х | 1.1229 | х | 1.1253 |
ч | 1.2386 | ч | 1.2328 | ч | 1.2387 | ч | 1.2329 |
б | 1.4920 | б | 1.4904 | б | 1.4922 | б | 1.4906 |
г | 1.6402 | г | 1.6301 | г | 1.6405 | г | 1.6303 |
ь | 1.8827 | ь | 1.8638 | ь | 1.8830 | ь | 1.8640 |
я | 2.0031 | я | 2.0308 | я | 2.0034 | я | 2.0310 |
з | 2.0295 | з | 2.0434 | з | 2.0298 | з | 2.0436 |
м | 3.1176 | м | 3.0979 | м | 3.1181 | м | 3.0983 |
п | 3.1666 | п | 3.1866 | п | 3.1671 | п | 3.1870 |
у | 3.2328 | у | 3.2273 | у | 3.2333 | у | 3.2276 |
д | 3.2631 | д | 3.3109 | д | 3.2636 | д | 3.3112 |
л | 3.4466 | л | 3.4070 | л | 3.4471 | л | 3.4074 |
к | 3.8070 | к | 3.7779 | к | 3.8076 | к | 3.7784 |
с | 4.3576 | с | 4.3446 | с | 4.3583 | с | 4.3451 |
е | 4.6578 | е | 4.6315 | е | 4.6585 | е | 4.6320 |
т | 5.2305 | т | 5.2641 | т | 5.2313 | т | 5.2648 |
в | 5.3160 | в | 5.3382 | в | 5.3167 | в | 5.3388 |
р | 5.4291 | р | 5.4188 | р | 5.4299 | р | 5.4194 |
і | 5.8572 | і | 5.8963 | і | 5.8581 | і | 5.8970 |
и | 6.2851 | и | 6.3070 | и | 6.2861 | и | 6.3077 |
н | 7.3006 | н | 7.3082 | н | 7.3016 | н | 7.3091 |
а | 8.0725 | а | 8.0564 | а | 8.0737 | а | 8.0574 |
о | 9.2695 | о | 9.2714 | о | 9.2708 | о | 9.2725 |
Як і звідки це все взялося
Оброблювалися сторінки україномовних сайтів.
Загальний обсяг даних: близько 1150Mб (1203763200 байт)
Роглядалися тільки ті сторінки у яких, в тілі, були присутні літери "ієїґ"
та відсутні "ыъэёў"
.
Відкидались слова-уламки ("слово-
та
слово""слово -слово"
)
Попередньо вони звільнялися від заголовків, тегів та коментарів. Невраховувалися також подібні сторінки (з однаковим статистичним інваріантом).
Що далі
Слів ще дуже мало, тому треба, продовжувати набирати статистику.
Для цього необхідно
- Знайти сайти на яких у значному обсязі використовується українська мова і яких нема серед розглянутих.
- Або ж, усякі різні україномовні тексти.
- Отримати тексти з цих сайтів для подальшої обробки (наприклад: Wget, Teleport, тощо).
Тому прохання надсилати тексти або посилання на годящі сайти.