Блог → Чаще всего, русские слова начинаются с буквы …

Недавно, мы с женой играли в "мозголом" на одноклассниках. Это такая игра, где задают вопрос, а к нему прилагается четыре варианта ответов, и нужно угадать правильный ответ (а-ля "Кто хочет стать миллионером?"). В общем к чему я все это. Нам попался вопрос: "С какой буквы чаще всего начинаются русские слова?". Мне сразу вспомнились пару моих статей на хабре, где я находил самую популярную букву русского языка, и где определял среднюю длину русского слова. И я подумал, почему бы в продолжении темы не написать еще один пост, только теперь не на хабре, а у себя в блоге. Итак, под катом ответ на вопрос из мозголома.

Ниже приведен PHP скрипт, который немного облегчит нашу работу.

<?php
     mb_internal_encoding("UTF-8");

     $file = "text.txt"; 
     if (is_file($file)){
          $text = file_get_contents($file);
     }

     preg_match_all("/[а-я][а-я-]*[а-я]/ui", $text, $word);

     $unique_word = array_count_values($word[0]);
	
     $first_letter = array();
     foreach ($unique_word as $key=>$value){
          $first_letter[mb_strtoupper(mb_substr($key, 0, 1))] ++;
     }
     arsort($first_letter);
     
     $sum = array_sum($first_letter);
     foreach ($first_letter as $key=>$value){
          $first_letter[$key] = round($value/$sum*100, 2);
     }
	
     echo "<pre>";
     print_r($first_letter);
     echo "</pre>";
?>

А вот результаты, немного доработанные в Excel.

результаты

Как мы видим, чаще всего русские слова начинаются с буквы "П" (почти каждое пятое слово!), а тройка выглядит следующим образом "П", "С", "В". Прямо как футбольный клуб из Голландии.


Комментарии (5)

Богдан
Не зря в 4х томном словаре Даля целый том занимают слова начинающиеся с буквы П :)
Ответить
Тоня
Какой я безграмотный человек. Совершенно, этого не подозревала! Спасибо
Ответить
Седельникова Алексан
у вас очень интересная статья я удивлена и рада что есть такие люди которые не ленятся сделать такие сложные расчёты! Спасибо!
Ответить
камчадал
Ваще-та, всё уже продумано до нас, достаточно взглянуть на клавиатуру копьютера, которая ему досталась от печатной машинки, так вот , все самые часто встречающиеся буквы там находятся ближе к центру, реже встречаемые к краю.
Ответить
Евгений
Конечно, графики хорошо это хорошо. Но хотелось бы еще и табличные значения увидеть. И да, спасибо за труд мне статься помогла.
Ответить


Оставить свой комментарий


Представтесь, пожалуйста *

Ваш комментарий

Число на картинке *

captcha

На хостинг