Российская интернет-компания «Яндекс» в среду, 2 октября, представила собственную технологию мобильного голосового поиска. Технология получила название Yandex SpeechKit; она работает на Android и iOS и «понимает» только запросы на русском языке.
Руководитель проекта Yandex SpeechKit Денис Филиппов рассказал «Ленте.ру», что разработка «Яндекса» правильно распознает 84 процента слов в запросах общей тематики и 94 процента слов — в географических запросах (например, названия населенных пунктов и улиц). Среднее время ожидания ответа от системы составляет 1,1 секунды.
В своей работе Yandex SpeechKit опирается на акустические и языковые модели, составленные «Яндексом». Чтобы получить акустические модели, потребовалось записать и разметить 300 часов мужской, женской и детской речи. Языковые модели формировали на основе поисковых запросов и специально подготовленных текстов.
«Яндекс» начиная со 2 октября использует Yandex SpeechKit в собственных мобильных сервисах. Кроме того, компания «поделится» технологией со сторонними разработчиками. Необходимая документация и дистрибутивы доступны на ресурсе «Яндекс.Технологии». SpeechKit можно использовать бесплатно, если количество запросов в программе не превышает 10 тысяч в день.
Распознавать русскую устную речь на мобильных устройствах умеют и продукты других компаний — в частности, технология компании Nuance и созданный Google интерфейс Android Speech API. Последний, однако, работает только на платформе Android.
Комментирование разрешено только первые 24 часа.
0 +0−0 | Андрей Карп | 05:41:57 03/10/2013 |
Яндекс.Спички... для розжига поди? |
0 +0−0 | Российский Сыр | 23:40:44 02/10/2013 | ||||||
| ||||||||
Ваш индекс рукопожатности сейчас резко упал ;) |
0 +0−0 | Константин Васин | 22:25:32 02/10/2013 | ||||||
| ||||||||
Я говорил про распознавание речи, вы зачем-то перешли про переводчик. В распознавании речи языковые модели служат для совсем другой цели нежели в машинном переводе. Есть слова которые звучат абсолютно одинаково. Например, есть here и hear. И языковые модели нужны чтобы при распознавании различить "Do you hear me?" потому что если бы использовалась только акустическая модель, то компьютер не смог бы различить между "Do you hear me?" и "Do you here me?". Распознавание речи существенно более простая задача чем машинный перевод, с машинным переводом никогда не работал, ничего не могу сказать. Ну если вы хотите сделать машинный переводчик, то вам нужно в первую очередь изучить работы от Franz Och. |
0 +0−0 | владимир николаев | 22:16:57 02/10/2013 | ||||||
| ||||||||
ну нет же, не используются те же самые модели. почему тогда есть еще работа у живых переводчиков? если для вас это все так просто, лишите их работы, и денег заодно добудете, и немалых. модели нужно, так сказать, затачивать под конкретную задачу (что яндекс и сделал), потому как правильно определить смысловой контекст - это весьма непростая задача. но, повторюсь, если для вас все эти вопросы просты, сделайте англо-русский переводчик, а то у меня не получается немножко. |
0 +0−0 | Константин Васин | 21:39:19 02/10/2013 | ||||||
| ||||||||
Я делал мастера в Германии, затем получил phd в США. Мне вам что ли всё подробно описывать нужно было? Я же уже 10 раз написал, используются теже самые модели просто словари больше и нужно больше данных чтобы составить языковую модель. Но модели теже самые, нет ничего сложного, чтобы собрать больше текста. Человек с которым я эту тему обсуждал сказал мне, что в финском с морфологией ещё хуже и они просто используют больше текстов, чтобы выучить языковую модель. Я так оформил по пунктам, потому что знающему человеку этого на 100% хватило бы понять что было использовано в каждом компоненте. |
0 +0−0 | Константин Васин | 21:08:03 02/10/2013 | ||||||
| ||||||||
Ну и бред вы несёте. Каким образом допустим модель Найзер-Ная становится сложнее если применить её к русскому языку? Я же сказал, у нас были на руках публикации (похоже вы не знаете, что алгоритмы описаны в публикациях), программировали с нуля, данные для обучения и тестирования были подготовлены (но их не сложно подготовить, но затратно по времени). Вот что мы выполнили в этом курсовом проекте: 1) языковая модель Kneser-Ney; 2) акустическая модель Mixture of Gaussian with pulled covariance, для обучения параметров был использован EM; 3) выравнивание - стандартное для этого случая динамическое программирование; 4) само распознавание было закодено как beam-search на лексиграфическое дереве (плохо помню термины тут, надеюсь не ошибся, было это очень давно). |
0 +0−0 | владимир николаев | 20:56:48 02/10/2013 | ||||||
| ||||||||
Я тоже немного знаком с программированием, я думаю, что в яндексе все-таки сами разрабатывают алгоритмы. Языковая модель в русском языке ГОРАЗДО сложнее. Я не верю что " у нас было 10 групп и все справились", вы чего-то не договариваете, значит у вас были готовые алгоритмы. Я думаю, что вы не владеете предметом. |
0 +0−0 | Константин Васин | 20:28:52 02/10/2013 | ||||||
| ||||||||
И Вы немного неграмотно выразились, дело в том, что исследование в Computer Science занимаются разработкой алгоритмов, и уже программисты потом просто программируют эти алгоритмы. Работа исследователей на много более сложная чем работа программистов. Фактически каждый может скачать научные статьи (практически всё находится в открытом доступе), и запрограммировать алгоритмы оттуда, но далеко не каждый может разработать эти алгоритмы. Когда я был студентом, у нас студенческие проекты были написать программы распознавания речи по готовым публикациям, у нас было 10 групп и все справились, так что эта задача достаточно простая. |
0 +0−0 | Дмитрий Егоров | 20:01:44 02/10/2013 | ||||||
| ||||||||
Если Вы так хорошо в этом разбираетесь и критикуете, то предложите пожалуйста собственную программу распознавания. Или только в теории сильны? |
0 +0−0 | Андрей Степанов | 19:17:13 02/10/2013 | ||||||
| ||||||||
Пользуюсь гуглопоиском голосовым, когда лениво набирать длинную фразу на экранной клавиатуре. |
0 +1−1 | Petr Gusakov | 19:07:31 02/10/2013 | ||||||
| ||||||||
Слава богу, что кто-то этим вообще занимается. |
0 +0−0 | владимир николаев | 18:20:40 02/10/2013 |
а распознать русский язык и речь весьма сложнее чем английский, так что тут яндекс гораздо впереди по алгоритмам, а общие идеи - это вторично. |
0 +2−2 | Sergey Fedotov | 16:32:18 02/10/2013 |
Интересно, какой процент пользователей мобильных устройств использует голосовые функции устройства. |
-1 +0−1 | Ян Парамонов | 07:58:20 03/10/2013 | ||||||
| ||||||||
этож надо такую чушь написать))) |
-1 +0−1 | владимир николаев | 21:31:53 02/10/2013 | ||||||
| ||||||||
очень простым : нужно учитывать гораздо больше словоформ, и гораздо больше контекстов. как-то странно вы выражаетесь - динамическое программирование в п.3 - остальные пункты вы делали в строчку, что-ли? без разбиения на подзадачи? И в каком университете дают мастера? Нет, я вам не верю. Кажется, вы тут просто работаете. |
-1 +3−4 | bormobot aegis | 16:49:58 02/10/2013 | ||||||
| ||||||||
Гугл именно как поисковик уже не торт, почти на любой общепрофильный запрос выдает либо свои сайты (ютуб, вио и т.д.), либо рекламные, а в рунете еще и от seo страдает, поэтому для рунета Яндекс диво как хорош, а для остального мира duckduckgo. |
-2 +1−3 | Константин Васин | 17:08:29 02/10/2013 |
Да небось яндекс что-то простое для акустических моделей использовал, небось какие-нибудь смеси Гауса, иначе не объяснить такой низкий процент распознавания по нынешним меркам. Гугл и MS сейчас используют deep learning, яндексу похоже до этого далеко. |
-5 +1−6 | Bert | 16:34:34 02/10/2013 | ||||||
| ||||||||
Кстати ни разу не пользовался. да и смысла особого не вижу |
-6 +0−6 | トヤマ トカナワ | 16:55:27 02/10/2013 | ||||||
| ||||||||
Расскажи это Apple |
-7 +0−7 | トヤマ トカナワ | 16:55:44 02/10/2013 | ||||||
| ||||||||
Инновации нафиг не нужны? лол ок |