Дипломная работа: Родной язык и языковая идинтичность и социолингвистический анализ

16.05.2019

Содержание
ВВЕДЕНИЕ 3

1 ПРОБЛЕМЫ РАЗРАБОТКИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА
5
1.1 Проблемы создания искусственного интеллекта
1.2 Технические и методологические аспекты проблемы моделирования человеческого мозга
11
2 АВТОМАТИЧЕСКАЯ ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА В СТРУКТУРЕ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА
15
2.1 Обработка текста 16
2.2 Обработка звучащей речи 28

ЗАКЛЮЧЕНИЕ 45
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
ПРОБЛЕМЫ РАЗРАБОТКИ ИСКУССТВЕННОГО ИНТЕЛЛЛЕКТА

1.1 Проблемы создания искусственного интеллекта
Термин интеллект (intelligence) происходит от латинского intellectus — что означает ум, рассудок, разум; мыслительные способности человека. Соответственно искусственный интеллект (artificial intelligence) — ИИ (AI) обычно толкуется, как свойство автоматических систем брать на себя отдельные функции интеллекта человека, например, выбирать и принимать оптимальные решения на основе ранее полученного опыта и рационального анализа внешних воздействий. Понятие “искусственный интеллект” появилось задолго до создания первых вычислительных машин как раздел компьютерологии, разрабатывающий компьютерные системы. ИИ состоит в моделировании когниции человека в воспроизведении человеческой деятельности и опирается на исследовании биологических оснований переработки информации человеком на научный анализ и автоматизацию интеллектуальных функций человека. В основе ИИ лежит убежденность в принципиальной возможности моделирования механизмов человеческой обработки информации на ЭВМ. Интеллектом называют способность мозга решать интеллектуальные задачи путем приобретения, запоминания и целенаправленного преобразования знаний в процессе обучения на опыте и адаптации к разнообразным обстоятельствам. Другими словами интеллект отражает мыслительные способности человека. В этом определении под термином "знания" подразумевается не только та информация, которая поступает в мозг через органы чувств. Знания такого типа чрезвычайно важны, но недостаточны для интеллектуальной деятельности. Дело в том, что объекты окружающей нас среды обладают свойством не только воздействовать на органы чувств, но и находиться друг с другом в определенных отношениях. Ясно, что для того, чтобы осуществлять в окружающей среде интеллектуальную деятельность (или хотя бы просто существовать), необходимо иметь в системе знаний модель этого мира. В этой информационной модели окружающей среды реальные объекты, их свойства и отношения между ними не только отображаются и запоминаются, но и, как это отмечено в данном определении интеллекта, могут мысленно "целенаправленно преобразовываться". При этом существенно то, что формирование модели внешней среды происходит "в процессе обучения на опыте и адаптации к разнообразным обстоятельствам"(1,5-21).
Поэтому представляется совершенно естественным исключить из класса интеллектуальных такие задачи, для которых существуют стандартные методы решения. Примерами таких задач могут служить чисто вычислительные задачи: решение системы линейных алгебраических уравнений, численное интегрирование дифференциальных уравнений и т.д. Для решения подобного рода задач имеются стандартные алгоритмы, представляющие собой определенную последовательность элементарных операций, которая может быть легко реализована в виде программы для вычислительной машины.
Под алгоритмом понимают точное предписание о выполнении в определенном порядке системы операций для решения любой задачи из некоторого данного класса (множества) задач. Термин "алгоритм" происходит от имени узбекского математика Аль-Хорезми, который еще в IX веке предложил простейшие арифметические алгоритмы. В математике и кибернетике класс задач определенного типа считается решенным, когда для ее решения установлен алгоритм. Нахождение алгоритмов является естественной целью человека при решении им разнообразных классов задач. Отыскание алгоритма для задач некоторого данного типа связано с тонкими и сложными рассуждениями, требующими большой изобретательности и высокой квалификации (2, 20-22). Принято считать, что подобного рода деятельность требует участия интеллекта человека. Задачи, связанные с отысканием алгоритма решения класса задач определенного типа, принято называть интеллектуальными. В противоположность этому для широкого класса интеллектуальных задач, таких, как распознавание образов, игра в шахматы, доказательство теорем и т. п., напротив это формальное разбиение процесса поиска решения на отдельные элементарные шаги часто оказывается весьма затруднительным, даже если само их решение несложно. Практически все этапы восприятия, понимания и порождения высказывания на естественном языке можно представить как интеллектуальные задачи.
Таким образом, можно перефразировать определение интеллекта как универсальный сверхалгоритм, который способен создавать алгоритмы решения конкретных задач. Еще интересным замечанием здесь является то, что профессия программиста, исходя из наших определений, является одной из самых интеллектуальных, поскольку продуктом деятельности программиста являются программы — алгоритмы в чистом виде. Именно поэтому, создание даже элементов ИИ должно очень сильно повысить производительность его труда.
Деятельность мозга (обладающего интеллектом), направленную на решение интеллектуальных задач, мы будем называть мышлением, или интеллектуальной деятельностью. Интеллект и мышление органически связаны с решением таких задач, как доказательство теорем, логический анализ, распознавание ситуаций, планирование поведения, игры и управление в условиях неопределенности. Характерными чертами интеллекта, проявляющимися в процессе решения задач, являются способность к обучению, обобщению, накоплению опыта (знаний и навыков) и адаптации к изменяющимся условиям в процессе решения задач. Благодаря этим качествам интеллекта мозг может решать разнообразные задачи, а также легко перестраиваться с решения одной задачи на другую. Таким образом, мозг, наделенный интеллектом, является универсальным средством решения широкого круга задач (в том числе неформализованных) для которых нет стандартных, заранее известных методов решения.
Следует иметь в виду, что существуют и другие, чисто поведенческие (функциональные) определения. Так, по А.Н. Колмогорову, любая материальная система, с которой можно достаточно долго обсуждать проблемы науки, литературы и искусства, обладает интеллектом. Другим примером поведенческой трактовки интеллекта может служить известное определение А. Тьюринга (3,11-17). Его смысл заключается в следующем. В разных комнатах находятся люди и машина. Они не могут видеть друг друга, но имеют возможность обмениваться информацией (например, с помощью электронной почты). Если в процессе диалога между участниками коммуникации людям не удается установить, что один из участников — машина, то такую машину можно считать обладающей интеллектом. Можно сказать, что именно этот путь используют практически все современные системы ИИ. Очевидно, что практически невозможно заложить все знания в достаточно сложную систему, следовательно требуются пути самостоятельного пополнения базы знаний, в том числе через тексты на естественном языке. Кроме того, только на этом пути проявятся перечисленные выше признаки интеллектуальной деятельности (накопление опыта, адаптация и т. д.).
Так как из определения интеллекта вытекает, что единственным его обладателем является человек, то и ИИ можно воспринимать в данном направлении, как модель человека, созданную для выполнения обычных задач человека вместо него самого. Основными особенностями ИИ служат умение обучаться, доказывать, принимать решения, адекватно реагировать. Данный ИИ будет иметь целостную (неизменяемую) структуру, строго сформулированные задачи и будет формироваться методом соединения функциональных блоков, представляющих собой модели глаз, рук, языка, памяти, мыслительных операций, языковых процессов.
Исторически сложились три основных направления в моделировании искусственного интеллекта. В рамках первого подхода объектом исследований являются структура и механизмы работы мозга человека, а конечная цель заключается в раскрытии тайн мышления. Второй подход в качестве объекта исследования рассматривает искусственный интеллект. Третий подход ориентирован на создание смешанных человеко-машинных, или интеллектуальных интерактивных систем, на симбиоз возможностей естественного и искусственного интеллекта. Проблема обучения распознаванию тесно связана с другой интеллектуальной задачей — проблемой перевода с одного языка на другой, а также с обучением машины языку.
Существует логический подход к проблеме искусственного интеллекта, ведь именно способность к логическому мышлению отличает человека от животных. Под структурным подходом можно подразумевать попытки построения ИИ путем моделирования структуры человеческого мозга. Довольно большое распространение получил эволюционный подход: при построении систем ИИ по данному подходу основное внимание уделяется построению начальной модели и правилам, по которым она может изменяться (эволюционировать). Одно из направлений, которому посвящают свои силы, интересующиеся искусственным интеллектом - это создание программной оболочки виртуального мира (с системой правил, набором свойств, персонажей...), где можно опробовать эволюционные идеи. Можно найти множество подобного рода индивидуальных и групповых проектов в глобальной сети Интернет. Может показаться, что это и есть реальная возможность для апробации алгоритмов, необходимых для создания (описания) искусственного интеллекта. Другой подход, который имеет право на существование - это использовать при описании создаваемого мира принципы аналогии (моделирования). То есть пытаться заложить правила, закономерности реального мира или ситуации, для поиска оптимального алгоритма существования.
Следует отметить, что существующие на настоящий момент системы искусственного интеллекта воспроизводят (и в большинстве случаев достаточно удачно) лишь некоторые особенности человеческого поведения. Проблема создания комплексной системы, которая бы смогла моделировать все функции человеческого поведения и приспосабливаться к решению разнообразных задач, подобно тому, как человеческий мозг приспосабливается к решению любой поставленной задачи, пока остается открытой, хотя этой проблемой и занимаются исследователи во всем мире.
Некоторые исследователи считают, что интеллект представляет собой умение решать сложные задачи; другие рассматривают его как способность к обучению, обобщению и аналогиям; третьи - как возможность взаимодействия с внешним миром путем общения, восприятия и осознания воспринятого. Тем не менее, все они склонны принять тест машинного интеллекта, предложенный в середине 20 века английским математиком и специалистом по вычислительной технике А. Тьюрингом. “Компьютер можно считать разумным, - утверждал А. Тьюринг, - если он способен заставить нас поверить, что мы имеем дело не с машиной, а с человеком.”
Можно выделить 4 основных подхода формирования искусственного разума, перечисленных в порядке исторического прогресса научных знаний:
 механический;
 электронный;
 кибернетический;
 нейронный.
Механический подход является первой ступенью создания искусственного разума. И это не случайно, поскольку человек осваивал в первую очередь именно механические способы повышения производительности труда, создание станков, способных выполнять рутинные операции, открывал новые физические законы и т.п.
Параллельно с развитием механического подхода формировалось новое направление создания думающих машин, так называемый электронный подход. Его развитие пришлось на середину XX века, когда появились высокие достижения в развитии электроники.
Следующий подход, который, возможно, является самым обстоятельным, называется нейронный. Этот подход основывается на том, что используемая конструкция вычислительной машины близка к конструкции головного мозга человека. Основной единицей построения такой машины, обладающей интеллектом, является нейрон; при этом все нейроны должны иметь одинаковую конструкцию и отличаться незначительно, в зависимости от выполняемой функции.
В понятие «искусственный интеллект» вкладывается различный смысл - от признания интеллекта у ЭВМ, решающих логические или даже любые вычислительные задачи, до отнесения к интеллектуальным лишь тех систем, которые решают весь комплекс задач, осуществляемых человеком, или еще более широкую их совокупность. Мы постараемся вычленить тот смысл понятия «искусственный интеллект», который в наибольшей степени соответствует реальным исследованиям в этой области.
Как отмечалось, в исследованиях по искусственному интеллекту ученые отвлекаются от сходства процессов, происходящих в технической системе или в реализуемых ею программах, с мышлением человека. Если система решает задачи, которые человек обычно решает посредством своего интеллекта, то мы имеем дело с системой искусственного интеллекта.
Характеризуя особенности систем искусственного интеллекта, Л.Т. Кузин указывает на: 1) наличие в них собственной внутренней модели внешнего мира; эта модель обеспечивает индивидуальность, относительную самостоятельность системы в оценке ситуации, возможность семантической и прагматической интерпретации запросов к системе; 2) способность пополнения имеющихся знаний; 3) способность к дедуктивному выводу, т.е. к генерации информации, которая в явном виде не содержится в системе; это качество позволяет системе конструировать информационную структуру с новой семантикой и практической направленностью; 4) умение оперировать в ситуациях, связанных с различными аспектами нечеткости, включая «понимание» естественного языка; 5) способность к диалоговому взаимодействию с человеком; 6) способность к адаптации.
На вопрос, все ли перечисленные условия обязательны, необходимы для признания системы интеллектуальной, ученые отвечают по-разному. В реальных исследованиях, как правило, признается абсолютно необходимым наличие внутренней модели внешнего мира, и при этом считается достаточным выполнение хотя бы одного из перечисленных выше условий.
Существует еще одно направление, связанное с искусственным интеллектом - звуковой интерфейс. Эта сфера компьютерных исследований включает в себя задачи анализа, понимания и синтеза речи на естественном языке, что является интеллектуальной задачей. Это набор программных средств выполняющих строго определенную задачу и предоставляющий интерфейс для использования его возможностей. В настоящее время существует целый ряд программ синтеза и распознавания речи, которые разработаны для использования совместно с MS Speech API.
smARTspeak CS - настраиваемая независимая от языка программа распознавания речи для набора цифр, указания имен и речевой навигации, т.е. для приложений используемых в сотовых телефонах и беспроводных устройствах. Созданный для использования в указанных устройствах, smARTspeak CS удовлетворяет потребностям, как пользователей, так и разработчиков: иммунитет к фоновому шуму, малые требования к процессору и памяти, совместимость с MS SAPI 5.0., оптимизация для средств быстрой разработки приложений и для интеграции в сертифицированные устройства.
Conversay предоставляет решение для речевого взаимодействия с информацией, поставляемой через сеть, включая Internet, в случае когда другие интерфейсы слишком сложны или отсутствуют. Conversay разрабатывает речевую технологию, которая позволяет пользователям взаимодействовать через мобильные устройства привычным для себя способом.
Программа CASSI(tm) одновременно является синтезатором и распознавателем речи, модульным, дикторонезависимым. Малые требования к памяти позволяют использовать ее для мобильных устройств.
Программа компании "Lernout&Hauspie" позволяет настраивать чтение аббревиатур и слов (ударения) - это продукт, активно продвигаемый корпорацией Microsoft. Американские программисты, вероятно, не стали приглашать специалиста по языку и взяли за основу голос русского эмигранта, подзабывшего родную речь.
Голосовая программа для русского языка Digalo, продукт французской фирмы Elan Informatique достаточно оригинальна. Digalo различает кириллические буквы "Е" и "Ё" и виртуозно владеет русской ненормативной лексикой. Французы натренировали свою программу на максимально возможное количество фонем, слогов и слов живого русского языка. Неточностей очень мало. В основном ошибки в ударениях приходятся на некоторые фамилии и имена, малоупотребительные слова и термины. Отмечено не всегда корректное озвучивание чисел и очень странное, акцентированное произнесение слов "нет" и "не". Эти изъяны не носят принципиального характера и могут быть устранены в последующих версиях программы. Тем более что разработчики обещают в дальнейшем сделать возможной корректировку произнесения отдельных слов и слогов.
Новая программа фирмы Loquendo "Actor 5" предназначена для использования в областях голосовых технологий и сервиса. Она синтезирует речь на итальянском, испанском, английском, немецком, мексиканском, бразильском варианте испанского языка и американском варианте английского (русского языка нет). На сайте http://actor.loquendo.com/actordemo/default.asp можно ознакомиться с работой программы на примерах, создав свое сообщение, выбрав любой из предложенных языков и прослушав сгенерированное сообщение.
Программа синтеза речи Клуба голосовых технологий при Научном Парке МГУ построена с использованием базовой технологии синтеза речи, разработанная на филологическом факультете МГУ группой О.Ф. Кривновой. Синтезатор характеризуется высоким качеством синтеза речи, что позволяет прослушивать тексты без их специальной подготовки. Позволяет синтезировать речь на английском и русском языках. Кроме того, имеет около десятка голосовых типажей (робот, эльф, мышь и т.д.), возможно редактирование голосов. Помимо стандартных функций синтеза речи имеется дополнительная функция встраивания в текст управляющих символов, которые позволяют устанавливать паузы, изменять тембр, тон и длительность звучания. К примеру, можно, отредактировав текст, заставить синтезатор петь.
Творческий коллектив радиофизиков и программистов, возглавляемый С.М. Гладковым, разработал целую серию программных продуктов под общим названием «Голосовая мышь»(4).

1.2 Технические и методологические аспекты проблемы моделирования человеческого мозга
Общность мышления со способностью отражения служит объективной основой моделирования процессов мышления. Мышление связано с созданием, передачей и преобразованием информации, а эти процессы могут происходить не только в мозгу, но и в других системах, например ЭВМ. Многие исследователи полагают, что создание искусственного интеллекта стирает грань между познающим субъектом и объектом материального мира. Если современные ЭВМ универсальны и способны выполнять целый ряд логических функций, то утверждается, что нет никаких оснований не признавать эту деятельность интеллектуальной. В этом случае можно допустить создание искусственного интеллекта или машины, которая будет “умнее” человека.
Несмотря на многообещающие перспективы, ни одну из разработанных до сих пор программ искусственного интеллекта нельзя назвать “разумной” в обычном понимании этого слова. Это объясняется тем, что все они узко специализированы. Даже среди исследователей искусственного интеллекта многие сомневаются, что большинство подобных изделий принесет существенную пользу. Немало критиков искусственного интеллекта считают, что такого рода ограничения вообще непреодолимы.
Следует отметить, что, скорее всего, создание искусственного интеллекта возможно, однако для этого придется использовать конструкцию машины достаточно близкую к строению головного мозга. Следует также отметить, что, поскольку любой мозг, человеческий или искусственный, несомненно, должен эволюционировать, а также развиваться в интеллектуальном плане, потребуется его обучение. Это обучение не обязательно будет протекать быстро – все зависит от скорости развития искусственного нейрона. Если искусственный нейрон будет выполнен на белковой основе, на обучение может понадобиться несколько десятков лет. Кроме того, развитие искусственного мозга включает, несомненно, также и этап эволюции. Это, в свою очередь, означает, что структура искусственного мозга не должна быть фиксированной, она должна быть гибкой и “уметь” в случае необходимости достраивать саму себя новыми нейронами, подобно человеческому мозгу.
Для создания “разумной машины” необходимо использовать конструкцию, которая в значительной степени отличается от конструкций существующих ныне электронных вычислительных машин (ЭВМ) и которая должна быть схожа с “конструкцией” головного мозга человека. А возможно и иметь белковую основу, поскольку “зародить” сознание, и как следствие интеллект, в механической или электронной основе вряд-ли кому-либо удастся, по крайней мере, на данном этапе развития науки. Мышление и сознание – это биологический процесс, свойственный только живым организмам (6, 23-26).
Однако это вовсе не означает, что исследователи искусственного интеллекта занимаются чисто теоретическими исследованиями. Возможно, искусственный разум, способный заменить человека во всех отношениях, никогда (по крайней мере в ближайшие 100 – 200 лет) не получит право на существование. Именно поэтому исследователи решили пойти по более простому пути и “разбить” одну очень сложную проблему на ряд нескольких маленьких. Подобный прием часто встречается и в других отраслях человеческой деятельности.....