«Яндекс» разработал собственную технологию распознавания речи

17:23 02/10/2013 Наука и техника
«Яндекс» разработал собственную технологию распознавания речи

Российская интернет-компания «Яндекс» в среду, 2 октября, представила собственную технологию мобильного голосового поиска. Технология получила название Yandex SpeechKit; она работает на Android и iOS и «понимает» только запросы на русском языке.

Руководитель проекта Yandex SpeechKit Денис Филиппов рассказал «Ленте.ру», что разработка «Яндекса» правильно распознает 84 процента слов в запросах общей тематики и 94 процента слов — в географических запросах (например, названия населенных пунктов и улиц). Среднее время ожидания ответа от системы составляет 1,1 секунды.

В своей работе Yandex SpeechKit опирается на акустические и языковые модели, составленные «Яндексом». Чтобы получить акустические модели, потребовалось записать и разметить 300 часов мужской, женской и детской речи. Языковые модели формировали на основе поисковых запросов и специально подготовленных текстов.

«Яндекс» начиная со 2 октября использует Yandex SpeechKit в собственных мобильных сервисах. Кроме того, компания «поделится» технологией со сторонними разработчиками. Необходимая документация и дистрибутивы доступны на ресурсе «Яндекс.Технологии». SpeechKit можно использовать бесплатно, если количество запросов в программе не превышает 10 тысяч в день.

Распознавать русскую устную речь на мобильных устройствах умеют и продукты других компаний — в частности, технология компании Nuance и созданный Google интерфейс Android Speech API. Последний, однако, работает только на платформе Android.

Комментирование разрешено только первые 24 часа.

Комментарии(45):

1 2 3+1
0 +0−0Андрей Карп05:41:57
03/10/2013
Яндекс.Спички... для розжига поди?
0 +0−0Российский Сыр23:40:44
02/10/2013
17 +21−4Поновости16:39:54
02/10/2013
Ничо, что Яндекс.Почта с 2000 года работает, а Gmail - с 2004?
Ваш индекс рукопожатности сейчас резко упал ;)
0 +0−0Константин Васин22:25:32
02/10/2013
0 +0−0владимир николаев22:16:57
02/10/2013
ну нет же, не используются те же самые модели.
почему тогда есть еще работа у живых переводчиков?
если для вас это все так просто, лишите их работы, и денег заодно добудете, и немалых.
модели нужно, так сказать, затачивать под конкретную задачу (что яндекс и сделал), потому как правильно определить смысловой контекст - это весьма непростая задача.
но, повторюсь, если для вас все эти вопросы просты, сделайте англо-русский переводчик, а то у меня не получается немножко.
Я говорил про распознавание речи, вы зачем-то перешли про переводчик. В распознавании речи языковые модели служат для совсем другой цели нежели в машинном переводе. Есть слова которые звучат абсолютно одинаково. Например, есть here и hear. И языковые модели нужны чтобы при распознавании различить "Do you hear me?" потому что если бы использовалась только акустическая модель, то компьютер не смог бы различить между "Do you hear me?" и "Do you here me?". Распознавание речи существенно более простая задача чем машинный перевод, с машинным переводом никогда не работал, ничего не могу сказать. Ну если вы хотите сделать машинный переводчик, то вам нужно в первую очередь изучить работы от Franz Och.
0 +0−0владимир николаев22:16:57
02/10/2013
0 +0−0Константин Васин21:39:19
02/10/2013
Я делал мастера в Германии, затем получил phd в США.

Мне вам что ли всё подробно описывать нужно было? Я же уже 10 раз написал, используются теже самые модели просто словари больше и нужно больше данных чтобы составить языковую модель. Но модели теже самые, нет ничего сложного, чтобы собрать больше текста. Человек с которым я эту тему обсуждал сказал мне, что в финском с морфологией ещё хуже и они просто используют больше текстов, чтобы выучить языковую модель.

Я так оформил по пунктам, потому что знающему человеку этого на 100% хватило бы понять что было использовано в каждом компоненте.
ну нет же, не используются те же самые модели.
почему тогда есть еще работа у живых переводчиков?
если для вас это все так просто, лишите их работы, и денег заодно добудете, и немалых.
модели нужно, так сказать, затачивать под конкретную задачу (что яндекс и сделал), потому как правильно определить смысловой контекст - это весьма непростая задача.
но, повторюсь, если для вас все эти вопросы просты, сделайте англо-русский переводчик, а то у меня не получается немножко.
0 +0−0Константин Васин21:39:19
02/10/2013
-1 +0−1владимир николаев21:31:53
02/10/2013
очень простым : нужно учитывать гораздо больше словоформ, и гораздо больше контекстов.
как-то странно вы выражаетесь - динамическое программирование в п.3 - остальные пункты вы делали в строчку, что-ли? без разбиения на подзадачи?
И в каком университете дают мастера?
Нет, я вам не верю. Кажется, вы тут просто работаете.
Я делал мастера в Германии, затем получил phd в США.

Мне вам что ли всё подробно описывать нужно было? Я же уже 10 раз написал, используются теже самые модели просто словари больше и нужно больше данных чтобы составить языковую модель. Но модели теже самые, нет ничего сложного, чтобы собрать больше текста. Человек с которым я эту тему обсуждал сказал мне, что в финском с морфологией ещё хуже и они просто используют больше текстов, чтобы выучить языковую модель.

Я так оформил по пунктам, потому что знающему человеку этого на 100% хватило бы понять что было использовано в каждом компоненте.
0 +0−0Константин Васин21:08:03
02/10/2013
0 +0−0владимир николаев20:56:48
02/10/2013
Я тоже немного знаком с программированием, я думаю, что в яндексе все-таки сами разрабатывают алгоритмы.
Языковая модель в русском языке ГОРАЗДО сложнее.
Я не верю что " у нас было 10 групп и все справились", вы чего-то не договариваете, значит у вас были готовые алгоритмы.
Я думаю, что вы не владеете предметом.
Ну и бред вы несёте. Каким образом допустим модель Найзер-Ная становится сложнее если применить её к русскому языку?

Я же сказал, у нас были на руках публикации (похоже вы не знаете, что алгоритмы описаны в публикациях), программировали с нуля, данные для обучения и тестирования были подготовлены (но их не сложно подготовить, но затратно по времени).

Вот что мы выполнили в этом курсовом проекте:

1) языковая модель Kneser-Ney;
2) акустическая модель Mixture of Gaussian with pulled covariance, для обучения параметров был использован EM;
3) выравнивание - стандартное для этого случая динамическое программирование;
4) само распознавание было закодено как beam-search на лексиграфическое дереве (плохо помню термины тут, надеюсь не ошибся, было это очень давно).
0 +0−0владимир николаев20:56:48
02/10/2013
0 +0−0Константин Васин20:28:52
02/10/2013
И Вы немного неграмотно выразились, дело в том, что исследование в Computer Science занимаются разработкой алгоритмов, и уже программисты потом просто программируют эти алгоритмы. Работа исследователей на много более сложная чем работа программистов. Фактически каждый может скачать научные статьи (практически всё находится в открытом доступе), и запрограммировать алгоритмы оттуда, но далеко не каждый может разработать эти алгоритмы. Когда я был студентом, у нас студенческие проекты были написать программы распознавания речи по готовым публикациям, у нас было 10 групп и все справились, так что эта задача достаточно простая.
Я тоже немного знаком с программированием, я думаю, что в яндексе все-таки сами разрабатывают алгоритмы.
Языковая модель в русском языке ГОРАЗДО сложнее.
Я не верю что " у нас было 10 групп и все справились", вы чего-то не договариваете, значит у вас были готовые алгоритмы.
Я думаю, что вы не владеете предметом.
0 +0−0Константин Васин20:28:52
02/10/2013
0 +0−0Дмитрий Егоров20:01:44
02/10/2013
Если Вы так хорошо в этом разбираетесь и критикуете, то предложите пожалуйста собственную программу распознавания. Или только в теории сильны?
И Вы немного неграмотно выразились, дело в том, что исследование в Computer Science занимаются разработкой алгоритмов, и уже программисты потом просто программируют эти алгоритмы. Работа исследователей на много более сложная чем работа программистов. Фактически каждый может скачать научные статьи (практически всё находится в открытом доступе), и запрограммировать алгоритмы оттуда, но далеко не каждый может разработать эти алгоритмы. Когда я был студентом, у нас студенческие проекты были написать программы распознавания речи по готовым публикациям, у нас было 10 групп и все справились, так что эта задача достаточно простая.
0 +0−0Дмитрий Егоров20:01:44
02/10/2013
1 +1−0Константин Васин18:52:16
02/10/2013
Алгоритм распознавания речи состоит из двух важных частей: языковая модель и акустическая модель. Языковая модель в русском языке немного сложнее, но это совсем не проблема, просто используются тот же алгоритм, но с большим количеством данных. А акустическая модель не отличается существенно в различных языках. Не стоит говорить, что яндекс впереди по алгоритмам, они используют зарубежные наработки. А акустическая модель, на сколько я понимаю, у яндекса реализована методами 10летней давности, в то время как Google использует самые современные методы.
Если Вы так хорошо в этом разбираетесь и критикуете, то предложите пожалуйста собственную программу распознавания. Или только в теории сильны?
0 +0−0Андрей Степанов19:17:13
02/10/2013
0 +2−2Sergey Fedotov16:32:18
02/10/2013
Интересно, какой процент пользователей мобильных устройств использует голосовые функции устройства.
Пользуюсь гуглопоиском голосовым, когда лениво набирать длинную фразу на экранной клавиатуре.
0 +1−1Petr Gusakov19:07:31
02/10/2013
1 +1−0Константин Васин18:52:16
02/10/2013
Алгоритм распознавания речи состоит из двух важных частей: языковая модель и акустическая модель. Языковая модель в русском языке немного сложнее, но это совсем не проблема, просто используются тот же алгоритм, но с большим количеством данных. А акустическая модель не отличается существенно в различных языках. Не стоит говорить, что яндекс впереди по алгоритмам, они используют зарубежные наработки. А акустическая модель, на сколько я понимаю, у яндекса реализована методами 10летней давности, в то время как Google использует самые современные методы.
Слава богу, что кто-то этим вообще занимается.
0 +0−0владимир николаев18:20:40
02/10/2013
а распознать русский язык и речь весьма сложнее чем английский, так что тут яндекс гораздо впереди по алгоритмам, а общие идеи - это вторично.
0 +2−2Sergey Fedotov16:32:18
02/10/2013
Интересно, какой процент пользователей мобильных устройств использует голосовые функции устройства.
-1 +0−1Ян Парамонов07:58:20
03/10/2013
-1 +3−4bormobot aegis16:49:58
02/10/2013
Гугл именно как поисковик уже не торт, почти на любой общепрофильный запрос выдает либо свои сайты (ютуб, вио и т.д.), либо рекламные, а в рунете еще и от seo страдает, поэтому для рунета Яндекс диво как хорош, а для остального мира duckduckgo.
этож надо такую чушь написать)))
-1 +0−1владимир николаев21:31:53
02/10/2013
0 +0−0Константин Васин21:08:03
02/10/2013
Ну и бред вы несёте. Каким образом допустим модель Найзер-Ная становится сложнее если применить её к русскому языку?

Я же сказал, у нас были на руках публикации (похоже вы не знаете, что алгоритмы описаны в публикациях), программировали с нуля, данные для обучения и тестирования были подготовлены (но их не сложно подготовить, но затратно по времени).

Вот что мы выполнили в этом курсовом проекте:

1) языковая модель Kneser-Ney;
2) акустическая модель Mixture of Gaussian with pulled covariance, для обучения параметров был использован EM;
3) выравнивание - стандартное для этого случая динамическое программирование;
4) само распознавание было закодено как beam-search на лексиграфическое дереве (плохо помню термины тут, надеюсь не ошибся, было это очень давно).
очень простым : нужно учитывать гораздо больше словоформ, и гораздо больше контекстов.
как-то странно вы выражаетесь - динамическое программирование в п.3 - остальные пункты вы делали в строчку, что-ли? без разбиения на подзадачи?
И в каком университете дают мастера?
Нет, я вам не верю. Кажется, вы тут просто работаете.
-1 +3−4bormobot aegis16:49:58
02/10/2013
-25 +3−28トヤマ トカナワ16:28:31
02/10/2013
Нэзалэжный и самостыйный поисковик, который только и делает, что ворует идеи
Гугл именно как поисковик уже не торт, почти на любой общепрофильный запрос выдает либо свои сайты (ютуб, вио и т.д.), либо рекламные, а в рунете еще и от seo страдает, поэтому для рунета Яндекс диво как хорош, а для остального мира duckduckgo.
-2 +1−3Константин Васин17:08:29
02/10/2013
Да небось яндекс что-то простое для акустических моделей использовал, небось какие-нибудь смеси Гауса, иначе не объяснить такой низкий процент распознавания по нынешним меркам. Гугл и MS сейчас используют deep learning, яндексу похоже до этого далеко.
-5 +1−6Bert16:34:34
02/10/2013
0 +2−2Sergey Fedotov16:32:18
02/10/2013
Интересно, какой процент пользователей мобильных устройств использует голосовые функции устройства.
Кстати ни разу не пользовался. да и смысла особого не вижу
-6 +0−6トヤマ トカナワ16:55:27
02/10/2013
9 +10−1Поновости16:52:38
02/10/2013
Инновации - это в Сколково. В нормальном мире - технический прогресс.
Расскажи это Apple
-7 +0−7トヤマ トカナワ16:55:44
02/10/2013
1 +2−1bormobot aegis16:51:05
02/10/2013
Инновации нафиг не нужны, нужен мощный поисковик с кучей плюшек прмспособленных к нашим реалиям, и яндекс в этом деле годен.
Инновации нафиг не нужны?

лол ок
1 2 3+1
Самые
^^^Наверх^^^Обратная связь