С октября прошлого года Информационная программа Фонда “Сорос-Кыргызстан” поддержала проект “Мы хотим кыргызский язык в Гугл транслейт”. Рахат Сабырбеков, исполнительный директор ОФ «Айсок», сегодня расскажет о ходе и перспективах этого проекта.

На сегодняшний день кыргызский язык широко используется в Кыргызcкой Республике преимущественно в сельской местности. Поэтому его развитие остается на повседневном, региональном уровне. Исторически сложилось, что после развала Советского Союза, языком делового общения остался русский язык. В ВУЗах, научных трудах, государственных учреждениях кыргызский язык не используется в достаточной мере.  В Бишкеке и крупных городах республики большинство студентов и работники офисов пользуются Интернетом. Поэтому наш проект особенно может помочь развитию и освоению кыргызского языка, как в городах, так и в стране целом.

Возможность стать первыми в регионе

В начале группа энтузиастов вела активную дискуссию по поводу того, как развить кыргызский язык, как в интернете, так и в повседневном использовании, и о возможностях решения данной проблемы. Затем мы создали страничку на Фейсбуке, которую назвали «We want Kyrgyz language in Google Translate», что в переводе означает “Мы хотим Кыргызский язык в Google Translate ”. Почему именно Google?

Не секрет что корпорация Google самая успешная компаний в мире информационных технологий. У них много сервисов и один их них Google Translate. На данный момент этот сервис поддерживает 64 языка. В прошлом году 13 мая 2010 года в сервис Google Translate были введены армянский, азербайджанский, баскский, грузинский и урду языки, но языков среди стран центральноазиатского региона пока нет, так что кыргызский язык может быть первым в этом регионе.

Сервис Google Translate, является общедоступным и бесплатным, что делает его очень популярным. Для того чтобы кыргызский язык попал в этот сервис, нужно предоставить компании Google более 1 000 000 кыргызских слов в предложениях с  аналогичным переводом на английском языке для статистического машинного перевода. Для того что бы собрать такое количество предложений с переводом мы решили создать сайт, в котором без усилий и лишних действий можно вводить готовые переводы кыргызских и английских предложений. После того как мы наберем достаточное количество слов, мы переконвертируем ту базу, которую собрали в формат ТМХ и загрузим в Google Translate Toolkit.

Собираем базу переводов для Google

Для того что бы собрать и вводить в базу данных сайта, мы задействовали 8  переводчиков, из них 6 переводчиков работают в офисе и 2 удаленно. Наши переводчики: Арстанбеков Эдильбек, Оторбаева Гульназ, Тайирова Накылай, Султаналиева Жылдыз, Акматбекова Ширин, Компанцева Светлана. Старший переводчик: Булекбаева Айнуру. В команде также работает волонтер Фадеева Алина, студентка Международного Университета Ататюрк-Алатоо по специальности переводчик-синхронист. На данный момент переводчики в день вводят примерно 26 000 слов (это только кыргызские слова), но так как материал может быть разный (качество готового перевода), то и ввод текста может варьироваться, т.е. скорость ввода напрямую зависит от качества перевода.

Для успешной и бесперебойной работы проекта при поддержке информационной программы Фонда «Сорос-Кыргызстан» нами было закуплено все необходимое оборудование, создан сайт www.enetil.kg. С момента начала наш проект получил поддержку также от Посольства США, оператора сотовой связи Билайн, Аппарата Президента Кыргызской Республики, Национального Центра Информационных Технологий, Национальной комиссии по государственному языку.

Качество перевода будет зависеть от количества введенных слов в базу и от количества материала на кыргызском языке в интернете в целом. Поэтому мы активно ведем агитацию среди тех, кто может помочь нам на основе краудсорсинга или же просто, чтобы переводили статьи в Википедии. Для этого мы провели несколько презентаций проекта и одну пресс конференцию.

Краудсорсинг: вместе мы сможем


Первоначальная презентация проекта была проведена на молодежной конференции  «Баркемп». Первой официальной презентацией проекта стала пресс-конференция в ИА “Кабар” 2 ноября 2011 года. Затем мы провели презентации на Жаштаркемп 2011 в Оше, в кыргызско-турецком университете «Манас», в кафе «Библиотека», на Кыргызском IT-форуме (КИТ Форум), для переводчиков кыргызского языка. На мероприятиях были продемонстрированы возможности сайта и так же мы призвали каждого, кто может помочь в развитии языка, принять участие в пополнении базы данных. По итогам года проект выиграл в номинации «Лучший социальный проект». Победа была присуждена по результатам голосования жюри, состоящего из представителей бизнес-сферы, общественных деятелей и госорганов и по результатам интернет-голосования. 16 января 2012 года ОФ “Айсок” совместно с IREX запустили проект по заполнению базы данных проекта материалами краудсорсингсреди 25 школ по стране.

Собранная нами база данных готовых переводов предоставлена компании Google и они ее уже рассматривают. Так, 14 марта этого года, наша команда провела видео встречу с менеджерами компании Google, отвечающих за ввод тюркоязычных языков в сервис Google Translate. Девид Телбот в прошлом был у нас в Кыргызстане: наша страна ему очень понравилась и он рад нам помощь по внедрению кыргызского языка в их сервис. По словам Девида, внедрение какого либо языка является сложной задачей, для каждого языка нужна своя формула, алгоритм. Так как наш язык грамматически схож с турецким языком, Девид попросил нас собрать материал на двух языках кыргызком и турецком. Мы уже начали сбор этой базы.

Первые успехи

Также 20-21 апреля наша команда приглашена на конференцию от ОФ WikiBilim (Казахстан), которая пройдет в городе Алматы. Мы хотим поделиться своим опытом. В дальнейшем ОФ “Айсок” намерен продолжить проект “Эне тил”. В частности запустить создание кыргызского аналога теста TOEFL — Kyrgyz language Universal Test (KUT Test). Проект направлен на локализацию техники на кыргызский язык, вводу поддержки кыргызского языка в сотовых аппаратах и т.д.

На данный момент в нашу базу загружено 1 159 411 слов, из них на рассмотрении  находятся 103 883 слова, 1 054 596 полностью проверены и утверждены нашими старшими переводчиками. Целью нашего проекта было — достичь цифры в  1 000 000 полностью проверенных слов. Проект выполнял задачи сбора, оцифровки, проверки на грамматические и орфографические ошибки и ввод в базу данных сайта www.enetil.kg

Общественность, блогосфера и СМИ в Кыргызской Республике проявили большой интерес к проекту: с момента его анонсирования вышло около 50 публикаций. После создания странички на Facebook, ее отметили как «Мне нравится» 1 004 раз, что подтверждает популярность данного проекта. Среди лайкнувших есть пользователи не только в Кыргызской Республике, но и в других 18-ти странах.