Идея проекта
Наши корни
Наши учителя
Леонтьева Н.Н.
Проект Диалинг
Обратный хронологический перечень проектов и участников
Наши клиенты
Введение (26 фераля 2021) |
^ |
Этот сайт возник в 2001 году (05.10.2001 - дата регистрация домена). Текст и документация написаны
в то время или даже раньше и соответствуют тогдашним нашим представлениям о мире. За эти десятилетия
IT-индустрия ушла очень далеко. Бум машинного обучения, начатый в начале 2010-х и переросший в то,
что сейчас называют дип лерненгом не оставили места технологиям, представленным на этом сайте.
Современный машинный перевод, синтез и анализ речи работают на других принципах. В общем архитектурном дизайне
и локальном алгоритмах было очень много ручных правил, от которых промышленное программирование
полностью сейчас отказались. Да, у нас использовались цепи Маркова, выравнивание двуязычных текстов,
элементы машинного обучения, но это были вспомогательные инструменты. В основе была идея, что язык -
это огромная логическая система, идея, выросшая из структурной лингвистики ХХ века. Структурный
(декомпозиционный, логический, rule-based) подход может быть использован сейчас в дидактических целях
(дети или иностранцы) или, например, для возможного лингвистического анализа, с целью получения текстовой аналитики.
Этот сайт - музей автоматической обработки текста, кунсткамера технологий рубежа тысячелетий.
Кое-что из демок у нас еще работает! Не проходите мммо, это может быть любопытно!
ДАЛЬШЕ ИДЕТ ТЕКСТ 2001 ГОДА.
Первоначальная идея проекта |
^ |
Рабочая группа Aot.ru разрабатывает программное обеспечение в области автоматической обработки текста. В круг наших интересов в основном входит анализ русского языка.
Наш подход скорее можно назвать консервативным, чем революционным. Мы не верим ни в какую общую суперидею, объясняющую сущность естественного языка. Вместе с тем мы считаем, что только грамотная декомпиляция языковых механизмов позволит максимально приблизить человеческий язык к современному компьютеру.
Начиная с 2002 года мы выкладываем наши разработки с лицензией LGPL. Теперь каждый может бесплатно использовать наши библиотеки в своих программах, в том числе и в коммерческих приложениях.
Мы призываем всех, кто заинтересован в развитии компьютерной лингвистики, к широкому сотрудничеству.
Наши корни – факультет лингвистики в РГГУ. Большинство из нас - выпускники этого факультета, некоторые учатся в аспирантуре, некоторые уже получили кандидатскую степень. Традиционное деление нашей группы на программистов и лингвистов
возникло из того, что на факультете лингвистики существовало отделение Искусственного Интеллекта(ИИ), где учили программированию больше, чем на основном потоке. Лингвист с основного потока проходил курсы фонетики, морфологии, синтаксиса,
семантики, типологии, компаративистики и т.д. Он обязательно изучал по крайней мере два иностранных языка, хотя обычно количество изучаемых языков было три. Студент ИИ имел один обязательный курс иностранного языка (обычно два), лингвистические
курсы, математику(матан, дискретка, логики, линейная алгебра и т.д.) и море программирования (С,С++, Pascal, Prolog, Lisp, Delphi, SQL, Java). Большинство выпускников основного потока становятся переводчиками и секретарями, тогда как
большинство выпускников ИИ становятся программистами. Но некоторая часть людей захотела заниматься проектами, связанными с автоматической обработкой текста, т.е. приложением теоретической лингвистики к современным компьютерным технологиям.
Но эта наклонность возникла не на пустом месте, ему предшествовало долгое обучение и разговоры с людьми, которых мы считаем своими учителями.
Декан факультет лингвистики А.Н.Барулин был первым человеком, который попытался объяснить нам, что такое лингвистика. Его вдохновенные лекции, несомненно, произвели на многих сильное впечатление, однако формальности явно не хватало.
Зато формального было предостаточно в курсе логики В.К.Финна, автора известного ДСМ-метода. Курс морфологии Н.В.Перцова был довольно занудным, но довольно познавательным. «Формальные грамматики» А.В.Гладкого, одного из авторов этой
теории, был наиболее изматывающим, но приучил нас к аккуратности. Типологические курсы Плунгяна В.А. заставили дрогнyть сердца некоторых из наших лингвистов. Энциклопедическая образованность в области программирования Епифанова М.Е.
позволила нам узнать массу деталей о современных технологиях. Заведующий отделением ИИ Лахути Д.Г., один из главных идеологов информационных технологий, будучи уже немолодым человеком, всегда поражал нас своим энтузиазмом. И конечно,
у нас были прекрасные учителя иностранных языков (всех не перечислишь!).
Среди студентов факультета нужно отметить Ю.Бронникова, имеющего большой авторитет в лингвистике и программировании. На четвертом годе обучения студентам читают курс автоматической обработки текста, который ведет Н.Н.Леонтьева. Именно
к этому ученому сошлись наши пути.
В то время Нина Николаевна работала в Институте США и Канады, где руководила коллективом, который делал систему анализа политических текстов ПОЛИТЕКСТ. За ее плечами была работа в лаборатории, которой руководили И.Мельчук и О.Кулагина,
потом была система ФРАП(французско-русского автоматического перевода). Леонтьева одна из первых заговорила о том, что нужно использовать семантическую информацию для машинной обработки текста. Ее основополагающие концепты семантического
отношения, семантической категории и характеристики стали основой прикладной машинной семантики. Несмотря на всеобщее признание ее заслуг, которые могли бы привести к некоторой догматичности, Нина Николаевна по-прежнему интересуется
прикладными системами и готова менять и улучшать свои подходы. В центре ее теории находится Русский общесемантический словарь (РОСС), в котором содержится семантическое описание полнозначных лексем русского языка. В основу ее методологического
подхода положено разделение анализа на разные уровни, где каждый уровень есть некоторое представление входного текста. На каждом уровне - свой язык представления, именно язык, а не просто какие-то атрибуты. Конечный результат анализа
– построение семантического представления, которое состоит из текстовых фактов-ситуаций. Отношения между ситуациями и другими ситуациями и другими актантами называются семантическими отношениями.
Апеллирование к семантике, открытость и известный научный авторитет Нины Николаевны собирает вокруг нее массу интересных людей, у которых мы могли многому научиться.
В декабре 1998 года Н.Н.Леонтьевой пришло предложение от президента фирмы ДИАЛИНГ (президент фирмы – Э.М.Хачукаев) начать проект коммерческого русско-английского машинного перевода. Нина Николаевна начала собирать людей, но по независящим
от нее обстоятельствам ей пришлось отказаться от участия. Однако этот проект выжил и с некоторыми перерывами просуществовал 2,5 года. За это время в нем участвовало в общей сложности 22 человека. В мае 2001 года работа была окончательно
прекращена, официальная причина - отсутствие финансирования, но мне кажется, что дело скорее в общем, общемировом снижении интереса к Интернету и высоким технологиям. Да, машинный перевод – очень ресурсоемкий проект. Чтобы довести
существующую систему до нужного уровня, необходимо, наверное, еще два года, но это касается только машинного перевода – может быть – одной из самых сложных задач искусственного интеллекта. Но нельзя забывать, что машинный перевод –
большая система, состоящая из многих компонент, представляющих отдельный коммерческий и научный интерес. Некоторые из этих компонент были нами реализованы на самом высоком уровне, и мы можем предложить их теперь на рынке программных
продуктов (см. Продукты).
После закрытия проекта многие разработчики ушли работать в другие фирмы. Некоторые довольны новой работой, некоторые нет. Некоторые заканчивают аспирантуру или университет. В любом случае, этот проект оказался главным для нас. Здесь
были выработаны многие основополагающие положения.
Обратный хронологический перечень проектов и участников |
^ |
[январь 2006 - ...] - проект АОТ
- Алексей Сокирко (общие вопросы)
- Светлана Толдова (программа снятия омонимии на основе HMM)
Благодарности:
[январь 2003 – декабрь 2005] - проект АОТ
Благодарности:
[сентябрь 2001 – декабрь 2002] - проект АОТ
[2000 – май 2001] - проект ДИАЛИНГ
- Алексей Сокирко (первичный семантический анализ)
- Игорь Ножов (русский синтаксис и фрагментация)
- Борис Кобрицов (русский и английский семантические словари)
- Мария Рубинштейн (русский и английский семантические словари)
- Григорий Дурново (словарь служебной лексики)
- Олег Шалимов (русский и английский семантические словари)
- Сергей Григорьев (английский трансфер)
- Татьяна Кобзарева (русский синтаксис и фрагментация)
[2000] - проект ДИАЛИНГ
- Дмитрий Панкратов [] (английский трансфер)
- Алексей Сокирко (первичный семантический анализ)
- Лев Гершензон (английский семантический словарь, русская семантика)
- Константин Серебряный (английский синтез)
- Григорий Дурново (словарь служебной лексики)
- Олег Шалимов (русский и английский семантические словари)
- Мария Рубинштейн (русский и английский семантические словари)
- Борис Кобрицов (русский и английский семантические словари)
- Майя Рудерман (словарь групп времени)
- Григорий Брумберг (компьютерный тезаурус)
- Игорь Ножов (русский синтаксис и фрагментация)
[1999] - проект ДИАЛИНГ
- Дмитрий Панкратов [] (оболочка синтаксиса, фрагментация)
- Алексей Сокирко (оболочка семантического словаря)
- Лев Гершензон (фрагментация, синтаксический перевод)
- Андрей Путрин (морфологический анализ, конкорданс)
- Константин Серебряный (программа редактирование морфологии, синтаксический перевод)
- Анна Урманчиева (словарь служебных частей речи)
- Белла Шахова (словарь словообразования)
- Майя Рудерман (словарь словообразования)
- Григорий Брумберг (английская морфология)
- Григорий Дурново (наполнение словарей словосочетаний)
- Ирина Максимова (финансовый тезаурус)
- Олег Шалимов (локативный тезаурус)
- Е.Г.Борисова (словарь служебных частей речи)
[1998] - проект ПОЛИТЕКСТ
- Н.Н. Леонтьева (общее руководство, русская семантика)
- М.Г. Шаталова (семантические словари)
- Софья Семенова (семантические словари)
- Дмитрий Панкратов [] (русский синтаксис)
- Алексей Сокирко (программа сравнения текста с базами данных)
[1997 и до 1997] - проект ПОЛИТЕКСТ
- Н.Н. Леонтьева (общее руководство, русская семантика)
- Жанна Аношкина (морфология)
- М.Г. Шаталова (семантические словари)
- Софья Семенова (семантические словари)
- Алексей Сокирко (графематический анализ)
- Лев Гершензон (семантические словари)
- Олег Шалимов (локативный словарь)
Компания "Интеллектуальный Партнер" (русская морфология, Windows).
Компания @Маil.ru (русская морфология, FreeBSD).
Лукойл-Информ (русская и английская морфология, система добавления, Linux).
Проект ВААЛ (синтаксис и тезаурусы, Windows).
Рос НИИ Искусственного интеллекта (русская и английская морфология, Windows).
Компания Megaputer Intelligence (русская и английская морфология, Windows).
Академический проект развития семантического словаря под руководством д.т.н. Н.Н.Леонтьевой в НИВЦ МГУ (синтаксис и поверхностная семантика, Windows).
о нас продукты скачать технологии демо
поиск ^ |
Домашняя страница Виктора Сокирко и Лидии Ткаченко (партизанское кино) .
Всероссийская доска позора, википедия политической оппозиции
Декларации о доходах чиновников