«Яндекс» разработал собственную технологию распознавания речи

17:23 02/10/2013 Наука и техника

Российская интернет-компания «Яндекс» в среду, 2 октября, представила собственную технологию мобильного голосового поиска. Технология получила название Yandex SpeechKit; она работает на Android и iOS и «понимает» только запросы на русском языке.

Руководитель проекта Yandex SpeechKit Денис Филиппов рассказал «Ленте.ру», что разработка «Яндекса» правильно распознает 84 процента слов в запросах общей тематики и 94 процента слов — в географических запросах (например, названия населенных пунктов и улиц). Среднее время ожидания ответа от системы составляет 1,1 секунды.

В своей работе Yandex SpeechKit опирается на акустические и языковые модели, составленные «Яндексом». Чтобы получить акустические модели, потребовалось записать и разметить 300 часов мужской, женской и детской речи. Языковые модели формировали на основе поисковых запросов и специально подготовленных текстов.

«Яндекс» начиная со 2 октября использует Yandex SpeechKit в собственных мобильных сервисах. Кроме того, компания «поделится» технологией со сторонними разработчиками. Необходимая документация и дистрибутивы доступны на ресурсе «Яндекс.Технологии». SpeechKit можно использовать бесплатно, если количество запросов в программе не превышает 10 тысяч в день.

Распознавать русскую устную речь на мобильных устройствах умеют и продукты других компаний — в частности, технология компании Nuance и созданный Google интерфейс Android Speech API. Последний, однако, работает только на платформе Android.

Источник: https://lenta.ru/news/2013/10/02/yavoice/

Комментирование разрешено только первые 24 часа.

Комментарии(45):

1 2 3 +1

0 +0−0	Андрей Карп	05:41:57 03/10/2013
Яндекс.Спички... для розжига поди?

0 +0−0

Российский Сыр

23:40:44
02/10/2013

17 +21−4	Поновости	16:39:54 02/10/2013
Ничо, что Яндекс.Почта с 2000 года работает, а Gmail - с 2004?

Ваш индекс рукопожатности сейчас резко упал ;)

0 +0−0

Константин Васин

22:25:32
02/10/2013

0 +0−0	владимир николаев	22:16:57 02/10/2013
ну нет же, не используются те же самые модели. почему тогда есть еще работа у живых переводчиков? если для вас это все так просто, лишите их работы, и денег заодно добудете, и немалых. модели нужно, так сказать, затачивать под конкретную задачу (что яндекс и сделал), потому как правильно определить смысловой контекст - это весьма непростая задача. но, повторюсь, если для вас все эти вопросы просты, сделайте англо-русский переводчик, а то у меня не получается немножко.

Я говорил про распознавание речи, вы зачем-то перешли про переводчик. В распознавании речи языковые модели служат для совсем другой цели нежели в машинном переводе. Есть слова которые звучат абсолютно одинаково. Например, есть here и hear. И языковые модели нужны чтобы при распознавании различить "Do you hear me?" потому что если бы использовалась только акустическая модель, то компьютер не смог бы различить между "Do you hear me?" и "Do you here me?". Распознавание речи существенно более простая задача чем машинный перевод, с машинным переводом никогда не работал, ничего не могу сказать. Ну если вы хотите сделать машинный переводчик, то вам нужно в первую очередь изучить работы от Franz Och.

0 +0−0

владимир николаев

22:16:57
02/10/2013

0 +0−0	Константин Васин	21:39:19 02/10/2013
Я делал мастера в Германии, затем получил phd в США. Мне вам что ли всё подробно описывать нужно было? Я же уже 10 раз написал, используются теже самые модели просто словари больше и нужно больше данных чтобы составить языковую модель. Но модели теже самые, нет ничего сложного, чтобы собрать больше текста. Человек с которым я эту тему обсуждал сказал мне, что в финском с морфологией ещё хуже и они просто используют больше текстов, чтобы выучить языковую модель. Я так оформил по пунктам, потому что знающему человеку этого на 100% хватило бы понять что было использовано в каждом компоненте.

ну нет же, не используются те же самые модели.
почему тогда есть еще работа у живых переводчиков?
если для вас это все так просто, лишите их работы, и денег заодно добудете, и немалых.
модели нужно, так сказать, затачивать под конкретную задачу (что яндекс и сделал), потому как правильно определить смысловой контекст - это весьма непростая задача.
но, повторюсь, если для вас все эти вопросы просты, сделайте англо-русский переводчик, а то у меня не получается немножко.

0 +0−0

Константин Васин

21:39:19
02/10/2013

-1 +0−1	владимир николаев	21:31:53 02/10/2013
очень простым : нужно учитывать гораздо больше словоформ, и гораздо больше контекстов. как-то странно вы выражаетесь - динамическое программирование в п.3 - остальные пункты вы делали в строчку, что-ли? без разбиения на подзадачи? И в каком университете дают мастера? Нет, я вам не верю. Кажется, вы тут просто работаете.

Я делал мастера в Германии, затем получил phd в США.

Мне вам что ли всё подробно описывать нужно было? Я же уже 10 раз написал, используются теже самые модели просто словари больше и нужно больше данных чтобы составить языковую модель. Но модели теже самые, нет ничего сложного, чтобы собрать больше текста. Человек с которым я эту тему обсуждал сказал мне, что в финском с морфологией ещё хуже и они просто используют больше текстов, чтобы выучить языковую модель.

Я так оформил по пунктам, потому что знающему человеку этого на 100% хватило бы понять что было использовано в каждом компоненте.

0 +0−0

Константин Васин

21:08:03
02/10/2013

0 +0−0	владимир николаев	20:56:48 02/10/2013
Я тоже немного знаком с программированием, я думаю, что в яндексе все-таки сами разрабатывают алгоритмы. Языковая модель в русском языке ГОРАЗДО сложнее. Я не верю что " у нас было 10 групп и все справились", вы чего-то не договариваете, значит у вас были готовые алгоритмы. Я думаю, что вы не владеете предметом.

Ну и бред вы несёте. Каким образом допустим модель Найзер-Ная становится сложнее если применить её к русскому языку?

Я же сказал, у нас были на руках публикации (похоже вы не знаете, что алгоритмы описаны в публикациях), программировали с нуля, данные для обучения и тестирования были подготовлены (но их не сложно подготовить, но затратно по времени).

Вот что мы выполнили в этом курсовом проекте:

1) языковая модель Kneser-Ney;
2) акустическая модель Mixture of Gaussian with pulled covariance, для обучения параметров был использован EM;
3) выравнивание - стандартное для этого случая динамическое программирование;
4) само распознавание было закодено как beam-search на лексиграфическое дереве (плохо помню термины тут, надеюсь не ошибся, было это очень давно).

0 +0−0

владимир николаев

20:56:48
02/10/2013

0 +0−0	Константин Васин	20:28:52 02/10/2013
И Вы немного неграмотно выразились, дело в том, что исследование в Computer Science занимаются разработкой алгоритмов, и уже программисты потом просто программируют эти алгоритмы. Работа исследователей на много более сложная чем работа программистов. Фактически каждый может скачать научные статьи (практически всё находится в открытом доступе), и запрограммировать алгоритмы оттуда, но далеко не каждый может разработать эти алгоритмы. Когда я был студентом, у нас студенческие проекты были написать программы распознавания речи по готовым публикациям, у нас было 10 групп и все справились, так что эта задача достаточно простая.

Я тоже немного знаком с программированием, я думаю, что в яндексе все-таки сами разрабатывают алгоритмы.
Языковая модель в русском языке ГОРАЗДО сложнее.
Я не верю что " у нас было 10 групп и все справились", вы чего-то не договариваете, значит у вас были готовые алгоритмы.
Я думаю, что вы не владеете предметом.

0 +0−0

Константин Васин

20:28:52
02/10/2013

0 +0−0	Дмитрий Егоров	20:01:44 02/10/2013
Если Вы так хорошо в этом разбираетесь и критикуете, то предложите пожалуйста собственную программу распознавания. Или только в теории сильны?

И Вы немного неграмотно выразились, дело в том, что исследование в Computer Science занимаются разработкой алгоритмов, и уже программисты потом просто программируют эти алгоритмы. Работа исследователей на много более сложная чем работа программистов. Фактически каждый может скачать научные статьи (практически всё находится в открытом доступе), и запрограммировать алгоритмы оттуда, но далеко не каждый может разработать эти алгоритмы. Когда я был студентом, у нас студенческие проекты были написать программы распознавания речи по готовым публикациям, у нас было 10 групп и все справились, так что эта задача достаточно простая.

0 +0−0

Дмитрий Егоров

20:01:44
02/10/2013

1 +1−0	Константин Васин	18:52:16 02/10/2013
Алгоритм распознавания речи состоит из двух важных частей: языковая модель и акустическая модель. Языковая модель в русском языке немного сложнее, но это совсем не проблема, просто используются тот же алгоритм, но с большим количеством данных. А акустическая модель не отличается существенно в различных языках. Не стоит говорить, что яндекс впереди по алгоритмам, они используют зарубежные наработки. А акустическая модель, на сколько я понимаю, у яндекса реализована методами 10летней давности, в то время как Google использует самые современные методы.

Если Вы так хорошо в этом разбираетесь и критикуете, то предложите пожалуйста собственную программу распознавания. Или только в теории сильны?

0 +0−0

Андрей Степанов

19:17:13
02/10/2013

0 +2−2	Sergey Fedotov	16:32:18 02/10/2013
Интересно, какой процент пользователей мобильных устройств использует голосовые функции устройства.

Пользуюсь гуглопоиском голосовым, когда лениво набирать длинную фразу на экранной клавиатуре.

0 +1−1

Petr Gusakov

19:07:31
02/10/2013

1 +1−0	Константин Васин	18:52:16 02/10/2013
Алгоритм распознавания речи состоит из двух важных частей: языковая модель и акустическая модель. Языковая модель в русском языке немного сложнее, но это совсем не проблема, просто используются тот же алгоритм, но с большим количеством данных. А акустическая модель не отличается существенно в различных языках. Не стоит говорить, что яндекс впереди по алгоритмам, они используют зарубежные наработки. А акустическая модель, на сколько я понимаю, у яндекса реализована методами 10летней давности, в то время как Google использует самые современные методы.

Слава богу, что кто-то этим вообще занимается.

0 +0−0	владимир николаев	18:20:40 02/10/2013
а распознать русский язык и речь весьма сложнее чем английский, так что тут яндекс гораздо впереди по алгоритмам, а общие идеи - это вторично.

0 +2−2	Sergey Fedotov	16:32:18 02/10/2013
Интересно, какой процент пользователей мобильных устройств использует голосовые функции устройства.

-1 +0−1

Ян Парамонов

07:58:20
03/10/2013

-1 +3−4	bormobot aegis	16:49:58 02/10/2013
Гугл именно как поисковик уже не торт, почти на любой общепрофильный запрос выдает либо свои сайты (ютуб, вио и т.д.), либо рекламные, а в рунете еще и от seo страдает, поэтому для рунета Яндекс диво как хорош, а для остального мира duckduckgo.

этож надо такую чушь написать)))

-1 +0−1

владимир николаев

21:31:53
02/10/2013

0 +0−0	Константин Васин	21:08:03 02/10/2013
Ну и бред вы несёте. Каким образом допустим модель Найзер-Ная становится сложнее если применить её к русскому языку? Я же сказал, у нас были на руках публикации (похоже вы не знаете, что алгоритмы описаны в публикациях), программировали с нуля, данные для обучения и тестирования были подготовлены (но их не сложно подготовить, но затратно по времени). Вот что мы выполнили в этом курсовом проекте: 1) языковая модель Kneser-Ney; 2) акустическая модель Mixture of Gaussian with pulled covariance, для обучения параметров был использован EM; 3) выравнивание - стандартное для этого случая динамическое программирование; 4) само распознавание было закодено как beam-search на лексиграфическое дереве (плохо помню термины тут, надеюсь не ошибся, было это очень давно).

очень простым : нужно учитывать гораздо больше словоформ, и гораздо больше контекстов.
как-то странно вы выражаетесь - динамическое программирование в п.3 - остальные пункты вы делали в строчку, что-ли? без разбиения на подзадачи?
И в каком университете дают мастера?
Нет, я вам не верю. Кажется, вы тут просто работаете.

-1 +3−4

bormobot aegis

16:49:58
02/10/2013

-25 +3−28	トヤマトカナワ	16:28:31 02/10/2013
Нэзалэжный и самостыйный поисковик, который только и делает, что ворует идеи

Гугл именно как поисковик уже не торт, почти на любой общепрофильный запрос выдает либо свои сайты (ютуб, вио и т.д.), либо рекламные, а в рунете еще и от seo страдает, поэтому для рунета Яндекс диво как хорош, а для остального мира duckduckgo.

-2 +1−3	Константин Васин	17:08:29 02/10/2013
Да небось яндекс что-то простое для акустических моделей использовал, небось какие-нибудь смеси Гауса, иначе не объяснить такой низкий процент распознавания по нынешним меркам. Гугл и MS сейчас используют deep learning, яндексу похоже до этого далеко.

-5 +1−6

Bert

16:34:34
02/10/2013

0 +2−2	Sergey Fedotov	16:32:18 02/10/2013
Интересно, какой процент пользователей мобильных устройств использует голосовые функции устройства.

Кстати ни разу не пользовался. да и смысла особого не вижу

-6 +0−6

トヤマトカナワ

16:55:27
02/10/2013

9 +10−1	Поновости	16:52:38 02/10/2013
Инновации - это в Сколково. В нормальном мире - технический прогресс.

Расскажи это Apple

-7 +0−7

トヤマトカナワ

16:55:44
02/10/2013

1 +2−1	bormobot aegis	16:51:05 02/10/2013
Инновации нафиг не нужны, нужен мощный поисковик с кучей плюшек прмспособленных к нашим реалиям, и яндекс в этом деле годен.

Инновации нафиг не нужны?

лол ок

1 2 3 +1

Самые

^^^Наверх^^^ Обратная связь