Диагностика речевых нарушений у дошкольников с помощью искусственного интеллекта

А.А. Хоменко1, И.В. Зинченко2, Ю.В. Брызгалова3
1,2,3 Новатор скул, Москва, Россия
1 adelina012604@gmail.com
2 nekotyan92@gmail.com
3 novator.family@gmail.com

Аннотация

В современных условиях возрос интерес к прикладным разработкам в сфере логопедии, связанным с диагностикой и помощью в коррекции речевых недостатков, в частности, к созданию приложений для исследования голоса и программ для людей, использующих альтернативную и дополнительную коммуникацию. Быстрое развитие технологий позволяет использовать возможности искусственного интеллекта для диагностики нарушений звукопроизношения у детей и взрослых и предоставлять помощь в коррекционной работе.

В статье представлены результаты исследования эффективности диагностики звукопроизношения с использованием приложения «NovatorSpace», разработанного компанией ООО «Новатор скул» (свидетельство о регистрации 2023682812). По результатам исследования, в котором приняли участие 60 учеников в возрасте от 5 до 7 лет, сделаны выводы о возможности применения разработки в больших масштабах, описаны её преимущества и недостатки, а также определены перспективы развития и совершенствования системы диагностики с применением искусственного интеллекта. Важным аспектом статьи стало сравнение онлайн-диагностики с логопедом и диагностики с использованием нейросетей и выводы о возможности их совмещения, что позволяет делегировать более простые процессы машинным системам для освобождения человеческих ресурсов под сложные функции.

Ключевые слова

онлайн логопедия, логопедическое обследование, речевые нарушения, искусственный интеллект, диагностика звукопроизношения

Для цитирования

Хоменко А.А., Зинченко И.В., Брызгалова Ю.В. Диагностика речевых нарушений у дошкольников с помощью искусственного интеллекта // Педагогическая перспектива. 2024. № 1(13). С. 58–65.
https://doi.org/10.55523/27822559_2024_1(13)_58

Информация об авторах

Аделина Александровна Хоменко – заместитель директора по продукту Департамента образовательных программ ООО «Новатор скул».
Ирина Владимировна Зинченко – руководитель отдела контроля качества Департамента образовательных программ ООО «Новатор скул».
Юлия Владимировна Брызгалова – директор по продукту Департамента образовательных программ ООО «Новатор скул».

Текст статьи

В настоящее время технологии с использованием искусственного интеллекта внедряются во все сферы жизни, в том числе в область образования и воспитания. Их быстрое развитие определяет новые правила и перспективы, нацеливая на цифровизацию и автоматизацию процессов, связанных с обучением, начиная с дошкольного возраста. Современные исследователи [1; 2; 3 и др.] отмечают, что использование цифровых технологий является одним из важнейших факторов повышения эффективности процесса обучения.

Данные тенденции наблюдаются и в логопедии как одной из востребованных сегодня адаптивных областей образования. В последние десятилетия увеличивается число детей с речевыми нарушениями и при этом возрастает количество интернет-пользователей 4–5 лет, потенциально готовых к логопедическим занятиям в онлайн формате. В Концепции развития образования обучающихся с инвалидностью и ограниченными возможностями здоровья на 2020–2030 гг. отмечается, что уже в дошкольном возрасте «у ребёнка возникают запросы на вхождение в сеть Интернет, его уже интересует поиск игр, мультфильмов, фильмов, возможность коммуникации через интернет» [4, с. 36–37].

Анализ современной литературы по исследуемой проблеме [5; 6; 7; 8; 9; 10 и др.] показывает возрастание интереса к прикладным разработкам в сфере логопедии, связанным с диагностикой и помощью в коррекции речевых недостатков, в частности, к созданию приложений для исследования голоса и программ для людей, использующих альтернативную и дополнительную коммуникацию.

Вопросы логопедической диагностики и коррекции детей раскрыты в трудах Е.Ф. Архиповой, Г.В. Бабиной, Т.В. Тумановой, Т.Б. Филичевой, Г.В. Чиркиной и др.; проблемами связи речи и мышления занимались Л.С. Выготский, А.Р. Лурия, В.М. Астапов; среди современных авторов, которые занимаются вопросом дистанционных технологий в логопедии следует отметить Е.Ф. Архипову, Т.В. Туманову, Т.Б. Филичеву, О.В. Шичанину, S. Grogan-Johnson, K. Coufal, A. McCullough и т.д.

В начале 60-х гг. XX в. в логопедии началась эпоха «лонгитюдных срезовых штудий»: замена традиционных дневников наблюдений записями фрагментов речи ребёнка, сделанными с заранее назначенными речевыми интервалами. Это дало возможность перейти на новый уровень постановки экспериментов, сбора и автоматизированного анализа полученных данных. Создание компьютерных систем, обеспечивающих запись, расшифровку, кодировку и анализ фактов детской речи, способствовало превращению лингвистики детской речи в одну из передовых лингвистических дисциплин. Самая известная из компьютерных систем, разработанная американскими учёными B.  MacWhinney, L. Spector, K. Snow, носит название CHILDRES, что расшифровывается как Child Language Data Exchange System [11].

Сегодня быстрое развитие технологий позволяет использовать возможности искусственного интеллекта для диагностики нарушений звукопроизношения у детей и взрослых и предоставлять помощь в коррекционной работе. В частности, такие решения предлагают Microsoft, Яндекс и другие крупные компании.

Проведённый нами анализ более 100 источников, посвящённых диагностике речевых нарушений при помощи технологий искусственного интеллекта, показал, что в настоящее время существует пробел в изучении автоматизированной диагностики звукопроизношения для русскоязычных пользователей. Остаются недостаточно изученными общие вопросы проведения дистанционных логопедических занятий, методики логопедического обследования в условиях невозможности физического контакта с обучаемым с учётом всех её стадий, особенности использования технологий искусственного интеллекта.

Представим результаты проведённого нами исследования эффективности диагностики звукопроизношения с использованием приложения «NovatorSpace», разработанного компанией ООО «Новатор скул» с использованием технологий искусственного интеллекта (свидетельство о регистрации 2023682812).

В отличие от предыдущих российских IT-разработок в сфере логопедии, данная диагностическая программа не только распознает звуки в речевом потоке, но и определяет нормотипическое или нарушенное произношение каждого исследуемого звука. При изучении открытых библиотек с набором аудиофайлов речи, на которых обучаются нейросети, выяснилось, что существует малое количество записей детских голосов, что вызывает сложность в обучении нейросети. По данной причине компанией ООО «Новатор скул» был собран собственный датасет на основе более 450 000 проведённых уроков с детьми с речевыми нарушениями, благодаря чему получилось создать выборку для обучения нейросетевой модели. Проверка точности распознавания осуществлялась экспертной группой, состоящей из логопедов.

В эксперименте приняли участие 60 детей дошкольного возраста, родители которых предъявляют жалобы на нарушения речи. Все участники были поделены на 2 группы: экспериментальную и контрольную, по 30 человек в каждой. На первичном этапе апробации проверялась правильность произношения 20 согласных звуков русского языка (Ж, Л, К, С, З, Ц, Р, В, Х, Г, Щ, Ф, Ч, Ш, Ль, Рь, Сь, Зь, Й, П). Такие звуки были отобраны по причине их наиболее частой встречаемости среди нарушений, о чём свидетельствуют отечественные исследования и данные, собранные среди 1 000 учеников с речевыми нарушениями в Novator. Согласно уже ставшим классическими данным [12, с. 220], чаще всего встречаются нарушения в группах: свистящих – 22 %, шипящих – 24 %, Р – 26 %, Л – 10 %; реже встречаются нарушения задненёбных звуков, а также нарушения смягчения и озвончения – от 1 % до 4,5 %. Данные были собраны среди общего количества детей, включая учеников без каких-либо речевых дефектов, поэтому необходимо обратить внимание не на количественные показатели, а на корреляцию между нарушенными группами звуков, которая согласуется с выбором звукового наполнения диагностики. При исследовании нарушений звукопроизношения у детей со стёртой дизартрией, Л.В. Лопатиной получены следующие результаты: нарушение свистящих звуков – у 95,7 % детей, шипящих – у 82,4 %; звук Р, Р’ – у 50 %, Л, Л’ – у 46,7 % [12, с. 220]. При сборе статистики для настоящего исследования были получены данные диагностик детей 5–7 лет с такими нарушениями, как дислалия и дизартрия лёгкой и средней степени выраженности. Анализ показал, что в 80 % страдают 3 группы звуков: свистящие, шипящие и сонорные.

Дефекты йотации и группы заднеязычных звуков наблюдаются значительно реже, однако было принято решение также ввести их в исследование для расширения картины результатов и охвата большего количества нарушений. Дефекты искажения таких простых звуков, как М, Н, П, Т и гласных звуков, наблюдаются очень редко, из-за чего на первом этапе апробации ими можно было пренебречь.

Для лучшего раскрытия исследования необходимо также описать проведение двух видов диагностик, которые проходили экспериментальная и контрольная группы.

Экспериментальная группа проходила диагностику с применением искусственного интеллекта, длительность которой составляет 10 минут. Диагностический материал расположен в web-формате на платформе по развитию речи Novator, и представляет собой набор чистоговорок с перечисленными ранее звуками. Ребёнку необходимо по команде произнести чистоговорку, а затем приступать к следующей. Для повышения внимания и мотивации ребёнка речевой материал сопровождается визуальным наполнением, а именно изображениями и мини-сюжетом. После завершения диагностики и обработки результатов искусственным интеллектом в течение 1 минуты, участник видит результат, где отражаются нарушения в произношении звуков и рекомендации по количеству занятий.

Контрольная группа проходила стандартную диагностику с логопедом в онлайн-формате, где звукопроизношение проверялось отдельно от других сторон речи для точной интерпретации результатов. Полноценное логопедическое обследование в онлайн формате занимает 30–40 минут, на диагностику непосредственно звукопроизношения отводится 15–20 минут, в зависимости от количества нарушений в произношении звуков и степени сложности нарушений. Звукопроизношение проверяется по классическим методикам, представленным в работах Т.П. Бессоновой и О.Е. Грибовой [13], С.Е. Большаковой [14], О.Б Иншаковой [15], В.В. Коноваленко и С.В. Коноваленко [16], Т.Б. Филичевой и Н.А Чевелевой [17] и др., адаптированных под онлайн-формат и требования к проведению занятий с использованием электронных технологий. Данный вид диагностики проводится с применением специально разработанных методических материалов, а именно интерактивных презентаций и игр, которые позволяют заинтересовать и замотивировать ребёнка, при этом сохраняя все функциональные возможности логопедических методик обследования и учитывая здоровьесберегающие технологии.

Контроль двух видов диагностики производился специально отобранной группой экспертов – учителей-логопедов с высшим образованием по направлению «специальное (дефектологическое) образование» и опытом работы не менее 5 лет. Эксперты независимо друг от друга давали свою оценку, относительно нарушений звукопроизношения каждого ребёнка, после чего была подсчитана точность данных.

Результаты проведённого исследования оценивались по следующим количественным критериям: время выполнения и точность диагностики. При анализе времени выполнения учитывалась не только непосредственная диагностика, но и подготовка к ней и обработка результатов. Стоит отметить, что под обработкой результатов в контрольной группе понималось время, необходимое для построения визуального отображения нарушений, в похожей форме проводится и диагностика с использованием искусственного интеллекта. Среднее время выполнения, округлённое до целых чисел представлено в таблице.

Таблица. Время прохождения диагностики в экспериментальной и контрольной группе (в мин.)

Характеристика

Экспериментальная группа

Контрольная группа

Подготовка к диагностике

1

2

Диагностика звукопроизношения

10

15

Обработка результатов

1

2

ВСЕГО:

12

19

Средняя точность оценки звукопроизношения нейросетью составила 80 %, что является успешным результатом для первичной апробации. Наибольшую сложность вызвало выявление звуков, которые произносятся с межзубным дефектом, поскольку их крайне сложно выявить в аудиоформате без визуального подкрепления даже опытному специалисту. Также существуют трудности в определении нарушенного звука при произнесении его верно в одной из позиций, а в другой искажённо. Для повышения точности диагностики необходимо больше вариативного речевого материала, а именно аудиозаписей голосов детей, у которых есть различные нарушения звукопроизношения.

Помимо количественных были учтены также качественные показатели:

  • заинтересованность детей,
  • удобство использования,
  • доступность и охват,
  • затраты человеческих и материальных ресурсов.

При анализе заинтересованности детей во внимание были приняты такие реакции, как внимательность, отвлекаемость, отказ от прохождения и общее настроение. В двух видах диагностики результаты оказались близки: большинство детей были заинтересованы в прохождении сюжета и внимательны, с охотой выполняли задания. Из 30 детей в контрольной группе негативная реакция наблюдалась у двоих испытуемых, а в экспериментальной – у троих. Стоит учитывать тот фактор, что негативная реакция детей могла быть связана не только с прохождением заданий, но и с общим настроением из-за предшествующих действий за день, а также из-за соматического состояния или неподходящего их интересам сюжета и персонажей.

Удобство использования проверялось по реакциям во время подготовки к диагностике и в её процессе (сложность подключения и инструкций для прохождения), а также по опросу законных представителей детей после прохождения обследования. Технические трудности в контрольной группе наблюдались у пяти испытуемых, что связано с подключением к видеоконференции и скоростью интернета. В то время как в экспериментальной группе у двух пользователей возникли проблемы при входе и ещё у двоих произошёл сбой во время прохождения диагностики из-за нестабильного-интернет соединения. Проблемы в обеих группах были устранены в течении 30 минут с помощью технической поддержки. В опросе законным представителям было необходимо оценить по своим субъективным ощущениям следующие параметры:

  • понятность инструкций,
  • комфортность использования платформы,
  • общее удобство прохождение диагностики,
  • удобство и понятность результатов.

По всем параметрам в двух группах оказались положительные результаты. Пользователи оценили процесс прохождения диагностики, как субъективно удобный и понятный. Благодаря работе технической поддержки сложностей в использовании платформы также возникло немного, из-за чего более 90 % отзывов в анкете оказались с положительными откликами.

Для оценки доступности и охвата следует в будущем собрать больше данных, однако при анализе перспектив можно предположить, что диагностика с использованием искусственного интеллекта сможет покрыть превосходящее количество слоёв населения, в сравнении с диагностикой с логопедом, поскольку в ней нет необходимости в использовании человеческих ресурсов. Следовательно, новый вид диагностики является более распространённым и может помочь в проблеме нехватки педагогических кадров в логопедической сфере. Относительно доступности участники эксперимента лучше отзывались в экспериментальной группе, потому что для данного вида диагностики необходимо меньше подготовки и больше вариантов выбора временного промежутка без необходимости подстраиваться под расписание логопеда, что открывает перспективы экспресс-скрининга звукопроизношения.

Проведённое исследование позволило определить преимущества и недостатки логопедической диагностики с использованием искусственного интеллекта.

К преимуществам можно отнести описанные выше охват, доступность и малое количество времени на подготовку и проведение диагностики, а также возможность освободить время логопеда для решения более сложных задач. Дополнительным преимуществом для пользователя будет инновационность диагностики, поскольку современные технологии вызывают интерес и желание попробовать новые разработки, особенно учитывая интерес общества к нейросетям.

Из недостатков можно выделить отсутствие персонального подхода, однако перед разработчиками на данном этапе не стояло задачи сделать диагностику индивидуализированной. Также была выявлена недостаточная точность определения нарушений звукопроизношения, что решается дообучением нейросети на большем количестве речевых аудиозаписей с детскими голосами. Недостатком диагностики в аудиоформате является невозможность определять некоторые нарушения, например, межзубное произношение.

Наш опыт разработки и апробации приложения «NovatorSpace» позволил определить следующие направления его совершенствования: 1) повышение точности диагностики звукопроизношения; 2) проведение более масштабной его апробации; 3) разработка мобильного приложения.

Таким образом, полученные результаты показывают, что диагностика с применением нейросетей эффективна и открывает новые перспективы для совершенствования логопедической сферы и автоматизации некоторых процессов, что поможет педагогам сохранить время и сосредоточиться на более сложных нарушениях. В целом её использование может повысить уровень речевого развития, а, следовательно, и общей успеваемости детей в стране за счёт своей доступности для широких слоёв населения и возможности проведения обследования в любое время без сложной подготовки.

Список литературы

  1. Комарова И.И. Будущее дошкольного образования в эпоху цифровизации // Современное дошкольное образование. 2018. № 8(90). С. 16–25.
  2. Пчелинцева Н.В., Картечина Н.В., Абалуев Р.Н. Технологии искусственного интеллекта в образовании: проблемы и перспективы развития // Наука и образование. 2023. Т. 6. № 1. С. 118.
  3. Шугаль Н.Б, Бондаренко Н.В., Варламова Т.А. [и др.] Цифровая среда в образовательных организациях различных уровней: аналитический доклад. М.: НИУ ВШЭ, 2023. 164 с.
  4. Концепция развития образования обучающихся с инвалидностью и ограниченными возможностями здоровья до 2030 г. / под ред. Н.Н. Малофеева. М.: ИКП РАО, 2019. 120 с.
  5. Конакова М.С., Пивненко В.В., Стерхова А.А. Digital-технологии в актуализации приема артикуляционного моделирования в логопедии // Проблемы современного педагогического образования, 2023. № 78-3. С. 144–146.
  6. Artificial Intelligence in Speech-Language Pathology // HealthcareDegree (2023). Available at: https://www.healthcaredegree.com/blog/ai-speech-language-pathology (дата обращения: 16.01.2024).
  7. Attwell GA, Bennin KE, Tekinerdogan B. A Systematic Review of Online Speech Therapy Systems for Intervention in Childhood Speech Communication Disorders. Sensors (Basel). 2022 Dec 11; 22(24): https://doi.org/10.3390/s22249713
  8. Duffy, J.R. Motor speech disorders: Where will we be in 10 years? Seminars in Speech and Language. 2016; 37(3): 219–224. https://doi.org/10.1055/s-0036-1584154
  9. How Artificial Intelligence (AI) Can Help Children with Speech, Hearing, and Language Disorders: 40 Free Resources (2023) // Columbia Engineering UX/UI Boot Camp. Available at: https://bootcamp.cvn.columbia.edu/blog/free-resources-for-children-with-communication-disorders/ (дата обращения: 101.2024).
  10. Utepbayeva, A., Zhiyenbayeva, N., Assylbekova, L., & Tapalova, O. (2022). Artificial intelligence in the diagnosis of speech disorders in preschool and primary school children. World Journal on Educational Technology: Current Issues14(6), 1698–1711. https://doi.org/10.18844/wjet.v14i6.7616
  11. MacWhinney B. The CHILDES Project: Tools for Analyzing Talk. 3rd Ed. New York, 2000. 366 p.
  12. Лопатина Л.В. Проявления и диагностика фонетических нарушений при стертой дизартрии // Известия РГПУ им. А. И. Герцена. 2006. № 14.  С. 219–230.
  13. Бессонова Т.П., Грибова О.Е. Дидактический материал по обследованию речи детей. М.: АРКТИ, 200. 46 с.
  14. Большакова С.Е. Логопедическое обследование ребёнка. Диагностический альбом и пособие для логопеда. М.: АПО, 1995. 76 с.
  15. Иншакова О.Б. Альбом для логопеда. М.: ВЛАДОС, 2014. 279 с.
  16. Коноваленко В.В., Коноваленко С.В. Экспресс-диагностика звукопроизношения у детей дошкольного и младшего школьного возраста. М.: Гном. 2022, 52 с.
  17. Филичева Т.Б., Чевелева Н.А. Логопедическая работа в специальном детском саду. М.: Просвещение, 1987. 141 с.