Каталог статей
Поиск по базе статей  
Статья на тему Наука и образование » Открытия и изобретения » Статистический машинный перевод: дайте точку опоры!

 

Статистический машинный перевод: дайте точку опоры!

 

 

Летом 1999 года на стене одной лаборатории в одном американском университете висело изображение старинного пергамента с японскими иероглифами. Под японской надписью значилась интригующая фраза на менее экзотичном английском языке...

Фраза эта гласила: "Для большинства людей это выглядит как секретный код. Секретные коды обычно взламывают". Сей рекламный плакат, висевший на стене в лаборатории статистического машинного перевода в Университете Джона Хопкинса (Johns Hopkins University), предвещал скорое появления новой системы по "кличке" Decoder.

загрузка...

 

 

Тогда, в 1999 году, этим не занимался практически никто. Сейчас профессор Кевин Найт (Kevin Knight), тогда возглавлявший исследования в Университете Джона Хопкинса, говорит, что надпись под пергаментом оказалась пророческой.

Статистический метод автоматизированного перевода обогнал некогда превалировавшую, традиционную технологию, которая лишь отчасти можно назвать автоматической. В основе её лежат многоязычные словари, которые программисты и переводчики собирают вручную, и на основе которых впоследствии "учат" программу, какое слово что означает — с учётом синтаксиса.

Подобные "словарные" технологии используются в системах вроде BabelFish и Translate.ru.

Поскольку их банки данных — собственно, словари, — были и являются поныне очень массивными, раньше они были более эффективными, нежели "статистические" переводчики.

Скриншот автоматического переводчика Translate.ru.

Скриншот автоматического переводчика Translate.ru.
А новая технология статистического машинного перевода позволяет создавать системы, которые будут "щёлкать" тексты на самых разных языках.

Главное — это наличие "параллельных данных".

Основа для этой технологии была заложена ещё в конце 1980-х начале 1990-х годов — сотрудниками корпорации IBM. Именно тогда в умные головы специалистов корпорации пришла очень простая мысль: если компьютеру "скормить" текст на английском языке, и его выполненный вручную перевод на другой язык, то машина, используя статистический метод, "выучит" второй язык.

New York Times приводит следующий пример. Сравниваются две простые фразы на арабском (написано латиницей) — "rajl kabir" и "rajl tawil". Если машина "знает", что первая фраза означает "крупный человек", а вторая — "высокий человек", то банальная статистика позволит машине понять, что "rajl" означает "человек".

Подобные простые фразы носят название "N-граммы", и они считаются базовыми элементами систем машинного перевода.

Хотя принцип кажется простым до примитивизма, у него есть ряд своих "но". Во-первых, для полноценного "знания" второго языка требуется огромный массив данных — одним текстом не обойдёшься.

Во-вторых, для эффективной работы таких систем требовались компьютерные мощности, в начале 1990-х ещё недоступные. То же касается и программного обеспечения.

А сейчас различные группы исследователей занимаются усовершенствованиями здания, возведённого на фундаменте методики IBM.

Такой портрет выложил Кевин Найт на своей домашней странице.

Такой портрет выложил Кевин Найт на своей домашней странице.
Например, во всё том же Джоне Хопкинсе доктор Дэвид Яровски (David Yarowski) и его команда занимаются разработкой системы, которая управлялась бы с текстами на таких языках, как узбекский, бенгальский, непальский и даже клингоский — язык, на котором говорит раса клингонов, существ из сериала Star Trek.

Для "разработки" этого языка даже создан целый институт, умудрившийся перевести на этот язык Библию и "Гамлета".

Технология всё та же: если автоматическому переводчику предоставить "на съедение" тексты на двух языках, дальше он уже сможет переводить тексты самостоятельно в обе стороны.

Доктор Яровкски полагает, что в итоге ему и его коллегам удастся создать систему, которая будет управляться сразу с сотней языков. И хотя грамматические структуры китайского и арабского, например, языков с трудом поддаются статистическому анализу, по мнению Яровски, проблема эта решаема, нужно лишь время.

Аналогичным образом работает технология, разработанная сотрудниками Южно-калифорнийского университета (University of Southern California), в частности, Францем Йозефом Охом (Franz Josef Och).

Профессор Дэвид Яровски (фото с сайта Jhu.edu).

Профессор Дэвид Яровски (фото с сайта Jhu.edu).
Перефразируя Архимеда, Ох говорит: "Дайте мне достаточное количество параллельных данных, и через несколько часов у вас будет двусторонняя система перевода".

Система Оха полностью игнорирует грамматические правила, и словари ей тоже не нужны — а нужно, как уже сказано, большое количество данных, к которым прилагаются статистические модели.

Надо сказать, что в своё время таким образом была расшифрована надпись на Розетском камне — базальтовой плите, найденной французской армией в Египте в 1799 году. На этой плите содержалась запись на трёх языках, одним из которых был греческий. Благодаря тому, что в греческой надписи упоминались имена "Птолемей" и "Клеопатра", удалось расшифровать иероглифическую египетскую надпись, и в итоге — практически весь язык.

Дело Франсуа Шампольона, которому и принадлежит пальма первенства в расшифровке надписи Розетского камня, живёт, процветает и автоматизируется.

Статья о науки и техники получена: Membrana.ru

 

 

Наверх


Постоянная ссылка на статью "Статистический машинный перевод: дайте точку опоры!":


Рассказать другу

Оценка: 4.0 (голосов: 16)

Ваша оценка:

Ваш комментарий

Имя:
Сообщение:
Защитный код: включите графику
 
 



Поиск по базе статей:





Темы статей






Новые статьи

Противовирусные препараты: за и против Добро пожаловать в Армению. Знакомство с Арменией Крыша из сэндвич панелей для индивидуального строительства Возможно ли отменить договор купли-продажи квартиры, если он был уже подписан Как выбрать блеск для губ Чего боятся мужчины Как побороть страх перед неизвестностью Газон на участке своими руками Как правильно стирать шторы Как просто бросить курить

Вместе с этой статьей обычно читают:

Американские машины любят переворачиваться

• Из-за переворотов автомобилей гибнут до 30% людей на дорогахПо мнению экспертов, столкновение автомобилей друг с другом является далеко не самым страшным ДТП. Оказывается, зачастую к гораздо более серьезным последствиям может привести переворот автомобиля. Например, по статистике в США перевороты занимают лишь 3% аварий, но при этом на них приходится 30% от всех смертей на дорогах!

» Американскии автомобили - 3421 - читать


Chrysler PT Cruiser: Машина времени

В тесте участвуют автомобили: Chrysler PT Cruiser Как можно осовременить Chrysler PT Cruiser, изначально сделанный в старомодном ключе? Когда несколько лет назад на рынке появился Chrysler PT Cruiser, в некоторых странах за ним выстроились очереди.

» Американскии автомобили - 2883 - читать


Renault Vel Satis станет точкой опоры

Созданный в 1998 году как концептуальная модель с таким же именем, пятидверный хэчбек Vel Satis, как ожидается, будет превосходить по скоростным и динамическим характеристикам существующий ежегодный мировой коммерческий рекорд Safrane в 66000 автомобилей, который был достигнут в 1993 году. Renault надеется, что Vel Satis станет той самой точкой опоры в жесткой конкуренции на рынке типа Германии, а также послужит упрочению положения компании в таких странах, как Австралия. В ...

» Французские автомобили - 1528 - читать


Точка опоры

" Имея более 18 лет опыта в сфере казино и объездив весь мир, я решил, что пришло время остановиться и сосредоточиться на моей страсти к торговле на финансовых рынках. Потребовалось несколько лет, чтобы перейти от случайных разовых инвестиций к регулярной ежедневной торговле.

» Фондовые и валютные рынки - 2082 - читать


Колёсноногие машины соберутся с силами в горячих точках

Сапёр — это, как правило, человек. И это в наше непростое время, когда постоянно нужно что-то разминировать и дезактивировать! Непорядок это, конечно, — дело-то опасное.

» Открытия и изобретения - 1586 - читать



Статья на тему Наука и образование » Открытия и изобретения » Статистический машинный перевод: дайте точку опоры!

Все статьи | Разделы | Поиск | Добавить статью | Контакты

© Art.Thelib.Ru, 2006-2024, при копировании материалов, прямая индексируемая ссылка на сайт обязательна.

Энциклопедия Art.Thelib.Ru