Вписывая в поисковике картинок Google слово "ключ" мы со вздохом начинаем пролистывать тысячи и тысячи картинок, которые показывают нам всё что угодно, но только не маленький родничок среди зелёной травы. Значение такого слова как "ключ" даже человек может понять, только по контексту. Что же с этой проблемой делать машине? Кажется, учёные нашли решение.
Нам-то русским, конечно, легче.
В нашем великом и могучем есть хотя бы слово "родник", а вот в английском есть только один перевод слова "ключ" "spring" (а это слово также обозначает и время года, и металлическую спираль).
Вот и собрались программисты и лингвисты в Центре имени Тьюринга (Turing Center), что в университете Вашингтона (University of Washington), да разработали программное обеспечение для межъязыкового поиска картинок и внедрили его во Всемирную Паутину.
Новый многоязычный поисковик PanImages, недавно представленный на 11-ом саммите машинного перевода (Machine Translation Summit XI) в Дании, позволит людям искать картинки в Интернете с помощью более чем тысячи языков (правда, в базе сейчас порядка двух с половиной миллионов слов из более чем 300 языков, но это – не окончательный вариант системы).
PanImages добавляет новые слова в матрицу, которая позволяет перевести любое слово между двумя любыми языками в базе (иллюстрация University of Washington). |
PanImages (греческий префикс "пан" означает общий, всеобщий) автоматически переводит слово в строке поиска и сортирует результаты в группы по языкам, ранжируя по количеству найденных картинок. Затем пользователь выбирает нужный ему язык и просматривает найденные посредством Google картинки и фото из онлайновой базы Flickr (окно браузера делится на две части).
| ||
Так в случае обычного поиска англичанин не найдёт картинки помеченные тегами в китайских иероглифах, а датчанин – с английскими подписями.
"Google (один из лучших мировых сервисов поиска на данный момент) предоставит вам не более десятка картинок, если вы введёте слово, скажем, на зулусском языке. В то же время PanImages сгенерирует более 472 тысяч вариантов картинок", говорит Орен Этциони (Oren Etzioni), профессор информатики и конструирования вычислительной техники вашингтонского университета, который также руководит Центром Тьюринга и возглавляет команду, работающую над PanImages.
"Интернет становится всё более доступным, и не только в индустриальных странах, в сети появляются люди, которые говорят не только на английском, французском и китайском языках", добавляет Этциони.
Но и пользователи, говорящие на "основных" языках, извлекут пользу из нового продукта. Ведь многие слова имеют несколько значений и, как следствие, плодятся результаты поиска.
А PanImages предоставит вам вот такой вот список, из которого вы выберете, на какой язык вы хотите перевести слово "холодильник" для поиска картинки и, соответственно, список этих самых кадров и рисунков (иллюстрация с сайта panimages.org). |
Если же вам нужны изображения только металлической пружины, то, воспользовавшись PanImages, вы можете выбрать более точное французское значение этого слова "ressort".
| ||
Проведённые тесты малораспространённых языков показали, что PanImages выдаёт в среднем в 57 раз больше результатов, чем стандартный поиск по картинкам в Google. К тому же использование точных (на родном языке) формулировок позволяет увеличить количество отвечающих запросу картинок на первых 15 страницах на 75%.
"Мозги" PanImages создавались на основе 350 онлайн-словарей и нескольких онлайновых многоязычных вики-словарей (Wiktionary), которые пишутся добровольцами. Специальное программное обеспечение под названием TransGraph сканирует их для PanImages и с помощью своего алгоритма рассчитывает и проверяет насколько точно то или иное слово соответствует заданному (по смыслу).
Затем TransGraph собирает полученные результаты в матрицу, которая позволяет пользователю ресурса переводить слова в немыслимых, казалось бы, комбинациях, например, с гуджарати на литовский. Подробности работы системы изложены здесь (PDF-документ, 600 килобайт).
Фрагмент TransGraph для двух значений английского слова "spring". Линии с цифрами 1 и 3 объединяют слова со значением "весна", линии 2 и 4 — со значением "пружина" (иллюстрация с сайта washington.edu). |
"Отличительной особенностью этого небывалого лексического ресурса является перевод слов на самые разные мировые языки. Нашей целью является внести в базу данных все языки, которые интересны людям", говорит Этциони. Да, эту систему можно просто использовать в роли универсального словаря.
В общем, если у вас нет проблем с поиском картинок, и вы можете подобрать подходящую комбинацию слов абсолютно на любом языке, то PanImages вам не понадобится. Но таких полиглотов как вы мало (поздравляем!), так что авторы "Всеобщих картинок" надеются, что их ресурс всё же будет востребован, а для кого-то станет одним из самых необходимых.
Статья получена: Membrana.ru