Немецкие учёные, получившие в этом году Немецкую премию будущего, разрабатывают мобильный телефон с функцией перевода с одного языка на другой без подключения дополнительных устройств.
Для того чтобы разговор был переведён автоматически, нужно будет набрать определённый сервисный номер, система соединит с нужным абонентом и сама переведёт диалог "в обе стороны".
8 лет назад группа Вольфганга Вальстера (Wolfgang Walster) создала программу VerbMobil, на основе которой и разрабатывается телефон-переводчик. Программа, помимо немецкого, поддерживает ещё три языка английский, японский и китайский.
По словам разработчиков, система уже функционирует, но её возможности пока ограничены перевод происходит до тех пор, пока разговор не выходит за рамки определённых, заранее выбранных тем.
Отметим, что на основе VerbMobil в Германии уже создано более 20-ти изделий, успешно реализуемых на рынке. Среди них система речевого управления автомобилем, программа автоматизированной обработки и зачитывания вслух электронной почты, программа поиска музыки в Интернете по ключевым словам, программа, отвечающая по телефону на запросы о биржевых курсах, и программа, дающая также по телефону справки о репертуаре кинотеатров.
В настоящее время немецкие учёные занимаются развитием своей системы распознавания речи. Они рассчитывают, что уже через несколько лет для общения с компьютером ни мышь, ни клавиатура не будут нужны.
"Необходимо научить компьютер понимать человеческую речь, причём не медленно продиктованные фразы, а самую обычную разговорную речь", считает Вольфганг Вальстер. "Более того, компьютер должен понимать ещё и мимику собеседника, и его жестикуляцию, и, по возможности, правильно толковать все его движения. Для того, чтобы создать максимально эффективную систему распознавания речи, по мнению Вальстера, необходим более глубокий анализ: сначала произнесённая фраза акустически раскладывается на слова-гипотезы, которые получают (или не получают) подтверждение в зависимости от того, какой текст звучал в ходе того же диалога раньше".
Программа обязана знать почти столько же, сколько и человек. Например, реалии быта: в Германии принято обедать между полуднем и часом дня, а ужинать после 6-ти часов вечера. Если немецкий бизнесмен говорит по телефону своему американскому партнёру: "А потом давайте вместе сходим поедим", то при переводе этой фразы программа должна в зависимости от времени суток сказать либо "давайте вместе пообедаем", либо "давайте вместе поужинаем".
Немецкие учёные не без гордости заявляют, что уже сейчас VerbMobil безупречно распознаёт и переводит речь. Программа "понимает" любого собеседника, даже если он говорит с акцентом или на одном из множества существующих в Германии диалектов.
VerbMobil разбивает акустические сигналы на отдельные слова и старается их осмыслить, поэтому одной из главных проблем остаётся многозначность слов например, произнося немецкое слово "Bank", собеседник может иметь в виду и кредитный институт, и скамью, и базу данных.
В будущем система должна уметь отфильтровывать оговорки и звуки-паразиты вроде "эканья". Анализу подвергнется и мелодика фразы ведь интонацией можно придать словам противоположный смысл.
Но, по собственному признанию профессора Вальстера, его VerbMobil пока не в состоянии понять и перевести, например, философский диспут или беседу двух влюблённых. Но это вопрос времени.
Недавно в Немецком исследовательском центре искусственного интеллекта проводилась научная конференция на тему "Коммуникация между человеком и машиной", куда приехал главный программист Microsoft, причём за собственный счёт его не приглашали.
Из США прибыли и многие другие видные специалисты-компьютерщики, а также профессора таких престижных вузов как Стэнфордский университет и Массачусетский технологический институт, и все за свой счёт.
"Это говорит о многом", считает Вальстер. "Раньше только мы летали туда, а теперь и они прилетают к нам, чтобы ознакомиться с нашими разработками. Иными словами, мы занимаем вполне достойное положение в мире и не уступаем признанным лидерам США и Японии".
Что же касается систем распознавания русской речи, то немецкие учёные о них умалчивают. Тем не менее, в конце ноября создание такой системы анонсировали компании Intel и Cognitive Technologies.
Сообщается, что уже создан обширный инструментарий для разработки, который включает крупный речевой корпус русского языка RuSpeech, достаточный для распознавания естественной речи говорящего в реальном времени.
Тексты для RuSpeech создавались 220 дикторами, каждый из которых прочёл, в среднем, более 250 предложений. Таким образом, в базу данных входит около 50 часов непрерывной речи объемом 15 Гбайт на 30-ти c лишним компакт-дисках, а это более 50 тысяч предложений с фонетической разметкой каждой произнесённой фразы.
С помощью RuSpeech компьютер сможет распознавать не только слова, но и отдельные фонемы и их последовательности, что позволит минимизировать количество ошибок при распознавании новых, отсутствующих в базе, слов.
Эта разработка может быть использована в голосовых порталах, для голосового управления в телефонии (справочные службы, телефонный доступ к электронной почте, голосовой набор номера), а также в системах диктовки.
По оценкам департамента маркетинга Cognitive Technologies, объём рынка речевых технологий в России к 2006 году может составить порядка $200 миллионов.
Выходит, через каких-нибудь пять лет оргтехника будет понимать нас с полуслова, а службам занятости и биржам труда придётся трудоустраивать безработных переводчиков.
Статья получена: Membrana.ru