В свете современных требований к преподаванию русского языка в качестве центральной единицы обучения рассматривается текст, в связи с чем целесообразно как можно шире использовать работу с текстом, отрабатывать навыки рационального чтения, обучать анализу текста.
Стратегии смыслового чтения, сформулированные ФГОС, включают в себя поиск информации и понимание прочитанного, преобразование, интерпретацию и оценку информации. Всё это можно назвать составными частями многоаспектного анализа текста.
Что же представляет собой анализ текста? «Анализ» от древнегреческого «разложение, расчленение» предполагает изучение частей, из которых состоит текст. Выбор этих частей и направление анализа зависит от того, какие цели ставит перед собой исследователь.
Если мы хотим изучить форму, структуру текста, его языковые особенности, то это будет лингвистический анализ текста.
Если мы сосредоточим наше внимание на лексике и фразеологии, то это будет лексико-фразеологический анализ.
Разбор текста с точки зрения его содержания и формы в их единстве – целостный или комплексный анализ, который является заданием олимпиады по литературе. И так далее.
В данной статье мы остановимся на лингвистическом анализе.
Схема лингвистического анализа текста
- Какого типа речи текст перед вами? (Повествование, описание, рассуждение, их сочетание; жанровые особенности текста);
- Какова композиция текста (количество смысловых частей, микротемы этих частей);
- Каков характер связи предложений текста? (цепная, параллельная или смешанная);
- С помощью каких средств осуществляется связь между предложениями в тексте? (лексических и грамматических);
- К какому стилю речи относится текст? (Общие стилистические особенности данного текста);
- Какова тема текста? За счёт каких средств языка передаётся единство темы? (Лексические, морфологические, синтаксические и др. средства выразительности);
- Какова идея текста (основная мысль);
Основные характеристики, которые могут быть проанализированы в тексте
- Общие стилистические особенности данного текста:
- Жанровые особенности текста:
- Лексические средства выразительности:
- Средства художественной выразительности, характерные для художественного и публицистического стилей:
- Фонетический уровень – звуковые образные средства:
- Морфологические средства выразительности:
- Синтаксические средства выразительности:
Пример лингвистического анализа текста
Лингвистический анализ произведения или текста проводится с целью изучения формы, структуры текста, а также его языковых особенностей.
Проводится на уроках русского языка и показывает уровень понимания смысла и видения особенностей языковой организации текста учеником, а также способность учащегося изложить собственные наблюдения, степень владения теоретическим материалом, терминологией.
В качестве примера проведем лингвистический анализ отрывка повести Ричарда Баха «Чайка по имени Джонатан Ливингстон».
Текст
Он почувствовал облегчение оттого, что принял решение жить, как живет Стая. Распались цепи, которыми он приковал себя к колеснице познания: не будет борьбы, не будет и поражений. Как приятно перестать думать и лететь в темноте к береговым огням.
– Темнота! – раздался вдруг тревожный глухой голос. – Чайки никогда не летают в темноте! Но Джонатану не хотелось слушать. «Как приятно, – думал он. – Луна и отблески света, которые играют на воде и прокладывают в ночи дорожки сигнальных огней, и кругом все так мирно и спокойно…»
– Спустись! Чайки никогда не летают в темноте. Родись ты, чтобы летать в темноте, у тебя были бы глаза совы! У тебя была бы не голова, а вычислительная машина! У тебя были бы короткие крылья сокола!
Там, в ночи, на высоте ста футов, Джонатан Ливингстон прищурил глаза. Его боль, его решение – от них не осталось и следа.
Короткие крылья. Короткие крылья сокола! Вот в чем разгадка! «Какой же я дурак! Все, что мне нужно – это крошечное, совсем маленькое крыло; все, что мне нужно – это почти полностью сложить крылья и во время полета двигать одними только кончиками. Короткие крылья!»
Он поднялся на две тысячи футов над черной массой воды и, не задумываясь ни на мгновение о неудаче, о смерти, плотно прижал к телу широкие части крыльев, подставил ветру только узкие, как кинжалы, концы, – перо к перу – и вошел в отвесное пике.
Ветер оглушительно ревел у него над головой. Семьдесят миль в час, девяносто, сто двадцать, еще быстрее! Сейчас, при скорости сто сорок миль в час, он не чувствовал такого напряжения, как раньше при семидесяти; едва заметного движения концами крыльев оказалось достаточно, чтобы выйти из пике, и он пронесся над волнами, как пушечное ядро, серое при свете луны.
Он сощурился, чтобы защитить глаза от ветра, и его охватила радость. «Сто сорок миль в час! Не теряя управления! Если я начну пикировать с пяти тысяч футов, а не с двух, интересно, с какой скоростью…»
Благие намерения позабыты, унесены стремительным, ураганным ветром. Но он не чувствовал угрызений совести, нарушив обещание, которое только что дал самому себе. Такие обещания связывают чаек, удел которых – заурядность. Для того, кто стремится к знанию и однажды достиг совершенства, они не имеют значения.
Анализ
Текст представляет собой отрывок из повести Ричарда Баха «Чайка по имени Джонатан Ливингстон». Этот эпизод можно назвать «Радость познания», так как в нём идёт речь о том, как главный герой изучает на себе возможности управления в полёте на большой скорости. Тип речи – повествование, стиль художественный.
Текст можно разделить на 4 микротемы: решение смириться и быть как все; озарение; проверка догадки; радость открытия.
Связь между предложениями параллельная, смешанная, в последнем абзаце – цепная. Структура текста подчинена раскрытию основной мысли: только тот, кто стремится к знанию, может достичь совершенства и испытать настоящее счастье.
Первая часть фрагмента – когда главный герой принял решение быть как все – неторопливая и спокойная. Словосочетания «почувствовал облегчение», «приятно перестать думать», «жить, как живёт Стая», «мирно и спокойно» создают впечатление правильности принятого решения, «распались цепи» – он свободен… От чего? «Не будет борьбы, не будет и поражений». Но это значит, не будет и жизни?
Эта мысль не озвучена, но она напрашивается, а в тексте возникает тревожный глухой голос.
Его речь – восклицательные предложения, в которых напоминание Джонатану: «Чайки никогда не летают в темноте! Родись ты, чтобы летать в темноте, у тебя были бы глаза совы! У тебя была бы не голова, а вычислительная машина! У тебя были бы короткие крылья сокола!» Здесь автор использует глаголы в условном наклонении, причём в одном случае форма повелительного наклонения в значении условного – родись ты, то есть если бы ты родился. Но упоминание о крыльях сокола приводит главного героя к догадке – и скорость повествования резко меняется.
Бессоюзное сложное предложение «Его боль, его решение – от них не осталось и следа» рисует мгновенную смену событий.
Оба простых предложения в составе этого сложного являются односоставными: первое – назывное, второе – безличное.
От статичности, неподвижности принятого решения – к молниеносному движению, которое происходит как будто без участия главного героя, помимо его воли, само по себе – поэтому и предложение безличное.
В этой микротеме трижды повторяется словосочетание «Короткие крылья!» – это и есть озарение, открытие, которое пришло к Джонатану.
И дальше – само движение, скорость растёт, и подчёркивается это градацией: не задумываясь ни на мгновение о неудаче, о смерти; семьдесят миль в час, девяносто, сто двадцать, еще быстрее! Это – момент наивысшего напряжения в тексте, которое заканчивается победой главного героя: «едва заметного движения концами крыльев оказалось достаточно, чтобы выйти из пике, и он пронесся над волнами, как пушечное ядро, серое при свете луны».
Последняя часть текста – радость победы, радость познания. Автор возвращает нас к началу, когда Джонатан решил быть как все, но теперь «Благие намерения позабыты, унесены стремительным, ураганным ветром».
Здесь опять используется градация, рисующая вихрь радости и ликования в душе героя.
Он нарушает обещание, прозвучавшее в начале текста, но «Для того, кто стремится к знанию и однажды достиг совершенства», такие обещания не имеют значения.
В тексте используются профессионализмы из речи лётчиков, которые помогают автору раскрыть смысл происходящего: полёт, крылья, высота в футах, скорость в милях в час, отвесное пике, управление, пикировать.
Присутствуют метафоры, придающие поэтичность и возвышенность произведению: «колесница познания»; «Ветер оглушительно ревел у него над головой»; «Луна и отблески света, которые играют на воде и прокладывают в ночи дорожки сигнальных огней».
Крылатое выражение «благие намерения» вызовет множество ассоциаций у внимательного читателя и заставит задуматься над тем, что главный герой не предавался намерениям – он действовал! Сравнения: «он пронесся над волнами, как пушечное ядро»; «подставил ветру только узкие, как кинжалы, концы», – помогают ярче представить действие и признак.
В тексте имеются и контекстуальные антонимы: «тревожный глухой голос» – «приятно», «всё так мирно и спокойно»; «не голова, а вычислительная машина».
Особую роль в рассматриваемом фрагменте играют восклицательные предложения.
Если их выписать и прочитать отдельно от текста, мы получим сжатое и очень эмоциональное содержание всего эпизода: «Темнота! Чайки никогда не летают в темноте! Спустись! Родись ты, чтобы летать в темноте, у тебя были бы глаза совы! У тебя была бы не голова, а вычислительная машина! У тебя были бы короткие крылья сокола! Короткие крылья сокола! Вот в чем разгадка! Какой же я дурак! Короткие крылья! Семьдесят миль в час, девяносто, сто двадцать, еще быстрее! Сто сорок миль в час! Не теряя управления!»
Автор сумел передать в эпизоде основную идею всей повести «Чайка по имени Джонатан Ливингстон» – только тот, кто не боится быть не таким, как все, и идёт за своей мечтой вопреки всему, сможет быть по-настоящему счастливым сам и сделать счастливыми других.
Источник: http://olgadyachenko.ru/lingvisticheskij-analiz-teksta.html
Эффективный семантический анализ текста. Полное руководство
Семантика — наука, которая изучает связи слов в тексте между собой и общую его смысловую нагрузку. Исходя из этого, семантический анализ — это анализ основных статистических показателей текста, на основе которых определяется качество статьи и перспектива ее восприятия поисковой системой. От того, насколько качественно проведен такой анализ, зависит место текста в поисковой выдаче и попадет ли он вообще туда. Зачастую, с точки зрения семантики и полезности для пользователя, именно качественно построенной статьи достаточно, чтобы выйти в ТОП по нужным запросам поисковых систем.
В этой статье мы обговорим, из каких параметров состоит семантика текста, и как правильно ее проанализировать, чтобы довести статью до идеала.
Сервисы для семантического анализа
Чтобы получить все нужные параметры текста, нужно воспользоваться сторонними сервисами. Их представлено достаточно много, но все они работают по одним алгоритмам, поэтому результаты будут крайне похожи. Из основных сервисов, которые можно порекомендовать, будут advego.ru/text/seo, istio.com, text.ru. Работать и приводить примеры мы будем именно из сервиса advego.
Параметры анализа
Чтобы проверить текст, необходимо скопировать его в соответствующее окно и запустить проверку. Мы получим таблицу с данными, на основе которых и будем проводить анализ и вносить необходимые правки.
Разберем по блокам ту информацию, которую получаем из сервиса.
Размеры текста в символах и словах для нас не имеют особого значения. Здесь важно понимать, что статья должна быть такого размера, чтобы полностью ответить на ключевой запрос пользователя. Нас интересуют все параметры от «вода» включительно и далее.
Вода — процентный показатель количества слов, которые не относятся к теме текста. То есть не имеют для его содержания никакого значения. Абсолютно «сухой» текст не будет удобен для чтения пользователем. Слишком водный будет считаться поисковыми системами, как малоинформативный.
Поэтому нужно придерживаться золотой середины. В каждой тематике эта середина будет своя. В тексте о путешествиях водность в 70% будет нормой, в то время как в статье о программировании 30% уже будет много. Обычно, если вода более 70%, то стоит уменьшать ее всеми доступными способами.
Классическая тошнота документа определяет вхождение самого частого слова в отношении всего текста.
Слишком высокая тошнота будет считаться поисковой системой как переспам по ключевому слову, и может привести к исключению страницы из поиска. Отличной классической тошнотой считается показатель около 4-5%.
Уменьшить или увеличить этот процент можно регулировкой вхождения этого самого повторяющегося слова.
Академическая тошнота также, как и параметр классической тошноты, является важной для определения релевантности текста. Она измеряет частоту повторения всех слов в тексте. Слишком низкий процент определяется ПС как «текст не о чем», то есть не релевантный. Слишком высокий — переспамом. Чтобы понимать, как отрегулировать тошноту в нужных нам пределах, перейдем ко второму блоку.
Второй блок показывает частоту вхождения всех слов и фраз в текст. Это и есть его семантическое ядро.
Идеальным можно считать такой текст, где главные для продвижения ключевые слова стоят на первых позициях и формируют определяемые фразы.
На приведенном выше примере практически идеальное расположение слов (сам текст в примере рассказывает о способах экономии газа в квартире, где есть счетчик).
Источник: http://seooki.ua/blog/semanticheskij-analiz-teksta/
Что такое семантический анализ текста
Семантический анализ позволяет определить самые важные ключевые слова, фразы, отображающие в полной мере основы деятельности организации, что помогает грамотно сформировать семантическое ядро и привлечь целевую аудиторию.
Что значит термин «семантика»
Чтобы лучше разобраться в том, что такое семантический анализ, сначала следует выяснить значение слова «семантика».
Семантика – это дисциплина, которая изучает связь слов между собой и человеческой реальностью; определяет зависимость значения слова от контекста фразы.
Семантическая модель включает слово, его определение, сочетания с другими словами, составление из него фраз и предложений.
Сложность выполнения семантического анализа
Семантический анализ – трудная математическая задача, решение которой применяется в процессе создания искусственного интеллекта, при этом усложняется необходимостью обработки естественного языка.
Сложность заключается в том, что компьютер не умеет правильно объяснять образы, которые человек передает с помощью символов.
Данные качественного семантического анализа могут использоваться в торговле для анализа спроса на товары по полученным отзывам, в поисковиках, системах автоматического перевода и пр.
Возьмем, к примеру, предложение «женщина вошла в кафе с черной сумкой». Здесь можно рассматривать два варианта связи – женщина с сумкой или кафе с сумкой. Человек понимает, что этот аксессуар традиционно принадлежит именно женщине, а не заведению, тогда как машина разницы не видит.
Применение семантического анализа для продвижения в поисковиках
Семантический анализ текста оценивает количество слов или фраз, которые определяют смысл текста, то есть его семантическое ядро, и статистические показатели. Правильно сформированное семантическое ядро способно быстро продвигать статью в поисковой системе.
Комбинируя слова, составляя грамотно фразы, можно создать текст, который будет эффективно воздействовать на читателя, побуждая его к тем действиям, в которых заинтересованы владельцы сайта.
Поисковые системы также выполняют семантический анализ, определяя смысл текста, впоследствии чего в ответ на запрос предлагают выбранные материалы.
Статистические показатели
К статистическим показателям относятся: количество символов с пробелами и без, количество слов, в том числе уникальных и значимых, стоп-слов, количество воды, грамматических ошибок, процент классической и академической тошноты, семантическое ядро.
При подсчете учитывается число уникальных слов (без повторений), число значимых слов (существительных), стоп-слов (которые лишены своего смысла). Процент воды определяется путем деления числа значимых слов на общее количество. Количество воды нельзя считать показателем качества текста, но все же лучше, чтобы этот показатель не превышал 65%.
Если в тексте обнаружено 75% воды и больше, стоит уменьшить число незначимых слов. Классическая тошнота определяет, сколько раз повторяется в тексте одно и то же слово. Оптимальное значение классической тошноты – 7. Повышение данного показателя приводит к торможению продвижения сайта.
Коэффициент академической тошноты указывает на повторение большого количества слов в тексте. Соответственно, увеличение плотности ключевых слов приводит к его повышению.
Как провести семантический анализ
Семантический анализ текста можно быстро выполнить в Интернете — такая функция предлагается наАдвего, Txt.ru, Istio.com и др. Но необходимо учитывать следующее: хотя программы и обладают стандартным алгоритмом, результаты могут немного отличаться.
Источник: http://Cropas.by/seo-slovar/semanticheskij-analiz/
Автоматический анализ текстов. Синтаксический и семантический анализ
Аношин Павел Игоревич Магистрант ИКБСП, Россия, г. Москва
E-mail: pasha.a.505@gmail.com
Научный руководитель: Капалин Владимир Иванович
д.т.н. профессор. Кафедра автоматизирова
Аннотация
В данной статье рассматривается понятие «автоматический анализ текста», его применение на практике. Раскрываются такие составляющие автоматизированного анализа текста как синтаксический анализ, семантический анализ.
Ключевые слова: автоматический анализ текста, синтаксический анализ, семантический анализ, морфологический анализ.
Автоматический анализ текста представляет собой операцию, которая из заданного текста на естественном языке извлекает грамматическую и семантическую информацию, содержащуюся в тексте. Автоматический анализ выполняется по некоторому алгоритму в соответствии с заранее разработанным описанием данного языка. Обратная операция называется автоматическим синтезом текста.
- Автоматический анализ является одним из важнейших этапов в различных видах автоматической обработки текстов:
- · автоматического реферирования;
- · автоматического перевода;
· информационного поиска и т.п. [2].
Автоматический анализ не стоит путать с автоматическим исследованием текстов, в котором практически полностью отсутствуют данные о языке обрабатываемого текста, и обработка текста осуществляется алгоритмом с целью создания описания языка. В алгоритмах автоматического анализа, как правило, имеются сведения о языке (его «грамматика») и сведения о самом процессе анализа («механизм», т.е. алгоритм автоматического анализа).
- Любая современная система анализа текста, в том числе поисковые машины, осуществляющие поиск документов в сети Интернет, содержит те или иные модули автоматического лингвистического анализа. Необходимыми этапами лингвистического анализа практически в любой современной системе являются:
- · токенизация (разбиение на орфографические слова и выделение границ предложений);
- · морфологический анализ (разбор слова как части речи).
- Некоторые системы могут включать и иные модули:
- · модуль синтаксического анализа (синтаксический парсер), главной задачей которого является представление предложения в качестве синтаксической структуры, такой как дерево зависимостей или дерево непосредственных составляющих или частичного синтаксического анализа, или модуль выделения отдельных словосочетаний внутри текста;
- · модуль семантического анализа, устанавливающий семантические отношения между словами текста и объединяющий языковые выражения, которые относятся к одному и тому же понятию. Семантический модуль не может работать без различного рода лексикографических ресурсов, таких как информационно-поисковые тезаурусы или лингвистические онтологии;
· модуль разрешения анафоры и т.д.
Как уже говорилось, целью синтаксического анализа является автоматическое построение дерева фразы, нахождение взаимозависимостей между разными элементами предложения.
Если функциональное дерево фразы успешно построено, то из предложения можно выделить смысловые элементы, такие как: логический субъект, логический предикат, прямые и косвенные дополнения, а также различные виды обстоятельств [5].
Пример синтаксического дерево предложения «Мама мыла раму» в упрощенном графическом виде, изображен на рисунке 1:
Рисунок 1. Синтаксическое дерево предложения «Мама мыла раму»
Зная структуру предложения, можно сделать достаточно глубокий анализ и в дальнейшем использовать это на практике, например, создать систему автоматического перевода. В упрощенном виде это будет выглядеть так: выполнить каждого слова по словарю, а после сгенерировать новое предложение из синтаксического дерева.
Основной проблемой синтаксического анализа текста является разрешение неоднозначностей синтаксиса. Эта проблема решается двумя подходами: формально-графическим или вероятностно-статистическим.
С помощью первого подхода создаются сложные системы правил, с помощью которых в каждом конкретном случае можно принимать решение в пользу какой-либо синтаксической структуры.
Второй подход основан на сборе статистики встречаемости различных структур в похожих текстах, на основе которой затем происходит выбор варианта структуры [3].
Современные разработки в области синтаксического анализа имеют тенденцию к тому, что формально-грамматические методы анализа планомерно вытесняются методами, ориентирующимися на вероятностные оценки.
Методы вероятностного характера однозначно не способны обеспечить полную точность анализа, но их результаты работы с реальными текстами показывают весьма удовлетворительные результаты для многих применений.
Что касается затрат на разработку, то здесь однозначно выигрывают вероятностные анализаторы: стоимость разработки из значительно ниже, чем стоимость разработки структурных моделей естественного языка.
Семантический (смысловой) анализ необходим для оценивания смысла передаваемой информации, соотношения ее с информацией, которая хранилась до появления обрабатываемой информации. Семантические связи между словами или другими единицами языка отражаются в семантических словарях.
- Задачами семантического анализа являются:
- · построение семантической интерпретации слов и конструкций;
- · установление семантических отношений между различными элементами текста.
- При семантическом анализе предложений используют падежные грамматики и семантические валентности, а семантика предложения задается через связи главного слова (глагола) с его семантическими актантами [1].
Основой семантического анализа является утверждение, что конкретное значение слова не является элементарной семантической единицей.
Оно, в свою очередь, делится на более мелкие единицы — единицы словаря семантического языка, являющиеся своеобразными атомами, комбинации которых складываются в «молекулы» — значения слов естественного языка.
Именно семантический анализ дает возможность решить проблемы многозначности (омонимии), которая часто возникает при автоматическом анализе на разных языковых уровнях.
Семантический анализ текста является одной из наиболее сложных проблем таких областей как искусственный интеллект и компьютерная лингвистика.
Результаты семантического анализа текстов могут быть применены для решения задач диагностирования больных в психиатрии, предсказания результатов выборов в политологии. Однако, несмотря на свою востребованность, семантический анализ остается одной из сложнейших математических задач.
Главная проблема заключается в том, как «научить» компьютер однозначно верно трактовать образы, которые пытался передать автор текста [4].
В заключении стоит отметить, что ценность автоматического анализа текста на данный момент особенно высока, поскольку человек уже не в состоянии самостоятельно обработать современные объемы информации.
Автоматический анализ текста находит применение в самых различных сферах, таких как бизнес (автоматическая обработка и классификация документов), политология и социология (предсказание результатов выборов или будущих общественных волнений на основе записей пользователей в социальных сетях), филология (определение авторства произведений, авторского стиля), в экспертных системах, системах машинного перевода, поисковых системах, а также во многих других.
Список использованных источников:
Источник: http://journalpro.ru/articles/avtomaticheskiy-analiz-tekstov-sintaksicheskiy-i-semanticheskiy-analiz/
Семантический анализ идиом
Семантика — раздел языкознания, изучающий значение единиц языка. В качестве инструмента изучения применяют семантический анализ. В конце XIX — начале XX века семантика часто называлась также семасиологией (Шаронов 2005).
Термин семасиология ( от греческого sema — знак + semantikos — важный, имеющий значение) был впервые употреблён в лингвистике в 1825 Рейзигом. Он определял семасиологию как историческую дисциплину, которая должна установить принципы развития значения.
Несколько десятилетий спустя, в 1883, Мишель Бреаль опубликовал статью, в которой он утверждал, что должна существовать наука, изучающая значение. Он предлагал назвать её семасиологией. В 1897 он публикует книгу, которая впоследствии переводится на разные языки.
В английском переводе название звучало как «Семантика, исследования науки значения» (Бабич 2005).
Семантика представляет собой деятельность, которая заключается в разъяснении смысла человеческих высказываний. Ее цель состоит в том, чтобы выявить структуру мысли, скрытую за внешней формой языка.
Основным предметом внимания современной семантики является семантическое представление: вместо того чтобы говорить о значениях (и изменениях значения), она стремится моделировать их и представлять в виде эксплицитных формул.
В настоящее время широко распространен взгляд, что основой целью семантики должно быть моделирование значений. Чтобы естественный язык был пригоден в качестве семантического метаязыка, он должен быть соответствующим образом “упорядочен”. Семантический анализ неизбежно связан с упрощением.
Суть проблемы состоит в том, чтобы выделить возможно меньшую часть естественного языка и, в частности, определить тот минимальный список слов и выражений, который оказался бы достаточным для того, чтобы представить значения всех остальных слов и их взаимосвязь.
Построение минимальных или базовых словарей не является само по себе чем-то совершенно новым. Существуют, например, хорошо известные словари Огдена и Гугенхейма, использующие соответственно только 900 и 1500 неопределяемых (“базовых”, “фундаментальных”) слов для всех толкований.
В задачу упомянутых авторов не входило обнаружение и эксплицитное моделирование всех различий и сходств в значении между разными словами во французском или английском языке.
Теоретическая семантика, если она действительно стремится к познанию и подробной фиксации семантической структуры человеческой речи, не может остановиться на полпути.
Она должна довести минимизацию до конца, до тех пор, пока она не дойдет до таких составляющих человеческих высказываний, которые уже просто не могут быть подвергнуты дальнейшему разложению. Определение того, “какие слова могут и какие не могут быть определены”, подготовка “Алфавита человеческих мыслей” — это, мне кажется, является или должно быть центральной задачей современной семантики.
Первым современным лингвистом, сосредоточившимся на поисках элементарных семантических единиц, был, по-видимому, Эдуард Сепир, написавший в начале 30-х гг. ряд работ, посвященных логическим отношениям в языке: “Всеобщность”, “Выражение отношения конечной точки в английском, французском и немецком языках” (совместно с Моррисом Сводешом) и “Степени. Очерки по лингвистике”
Между тем в сороковые и пятидесятые годы благодаря исследованиям таких ученых, как Луи Ельмслев и Хольгер Сёренсен, было достигнуто более глубокое и более отчетливое понимание чисто теоретических аспектов поисков элементарных смыслов.
Ельмслев предложил выделять элементарные составляющие, которые он назвал “фигурами”, на двух уровнях — содержания и выражения.
Сёренсен продвинул анализ Ельмслева еще на одну ступень, заменив несколько туманное понятие “фигур” понятием неопределяемых знаков.
Шестидесятые годы были отмечены все более возрастающим влиянием идеи компонентного анализа (впрочем, по-разному интерпретируемой).
В 1963 г.
Катц и Фодор сделали попытку ввести этот вид анализа в арсенал генеративной грамматики, весьма важным следствием этой попытки было то, что ряды прежде довольно немногочисленных исследователей, интересующихся компонентным семантическим анализом, пополнились за счет притока большого числа генеративистов. На долю Манфреда Бирвиша выпало произвести первый конкретный семантический анализ, выполненный в рамках соответствующих практических представлений.
Среди современных исследований в области компонентного семантического анализа особое место занимают работы Ю. Д. Апресяна.
Апресян рассматривает семантический анализ как своего рода перевод с естественного языка на “семантический” язык, в качестве “слов” которого выступает то, что он называет “элементарными смыслами”.
Однако он полагает, что поиски предельных простых единиц, “примитивов”, не могут увенчаться успехом (по крайней мере в настоящее время), и, таким образом, не предъявляет к своим “элементарным смыслам” требования полной взаимной независимости.
Базовые реляционные понятия Сепира, фигуры Ельмслева, семантические компоненты Вейнрейха, семантические маркеры Бирвиша, элементарные смыслы Апресяна — все эти понятия несомненно представляют собой своего рода лингвистические эквиваленты лейбницевским “человеческим мыслям, которые мысленно представимы сами по себе и через комбинации которых возникают остальные наши идеи”. Но они не решают проблему полностью. В частности, они не стремятся обнаружить такие представления, которые были бы настолько простыми и ясными, чтобы, по выражению Декарта, “быть понятными сами по себе”. Они также не предполагают (частичное исключение составляют Сёренсен и Апресян) обнаружить свои элементарные семантические единицы в неопределимых терминах.
Конкретный и тщательно разработанный план исследований этого рода первым предложил Андрей Богуславский в 1965—1966 гг.
В соответствии с центральным положением программы Богуславского, непроизвольные и универсальные простейшие элементы содержания следует искать среди элементов максимально полных семантических истолкований выражений, иными словами, в их неопределимых компонентах.
Эти неопределимые элементы, получаемые посредством полного истолкования выражений, по мысли Богуславского, должны представлять собой те “предельные составляющие мира”, которые давно являются предметом поисков философов (Вежбицкая 1999).
Компонентный анализ является одним из способов формализации или придания абсолютной точности смысловым отношениям между лексемами. Как видно из названия метода, он заключается в разложении смысла лексемы на составляющие его части (компоненты). Альтернативным термином для компонентного анализа является лексическая декомпозиция.
Смысловые отношения могут быть двух видов: подстановочными и комбинаторными (или, в более знакомых лингвистам соссюровских терминах, — парадигматическими и синтагматическими).
Подстановочными отношениями являются такие отношения, которые существуют между взаимозаменяемыми членами одной грамматической категории; комбинаторные отношения существуют обычно, хотя и не необходимо, между выражениями различных грамматических категорий (например, существительными и прилагательными, между глаголами и наречиями и т. д.
), которые могут быть объединены в грамматически правильно построенные комбинации (или конструкции).
Например, подстановочное отношение (определенного вида) существует между существительными 'bachelor' 'холостяк' и 'spinster' 'незамужняя женщина', в то время как отношение, существующее между прилагательным 'unmarried' 'неженатый/незамужняя' и существительными 'man' 'мужчина' и 'woman' 'женщина', является комбинаторным.
О.Н.
Селиверстова под компонентным анализом понимает процедуру расщепления значения на составные части, вычленение которых обусловлено как соотношением элементов внутри отдельного значения (наличие более общих и более частных элементов, т. е.
иерархичность организации), так и соотношением этого значения со значениями других языковых единиц (совпадение или нейтрализация элементов верхних уровней и совпадение дифференцирующих признаков нижних уровней) (Селиверстова 2004).
И.М. Кобозева, в свою очередь, определяет компонентный анализ как представление значений слов в виде элементарных компонентов смысла.
Предположение о том, что значение каждой единицы языка (в том числе слова) состоит из набора семантических компонентов — одна из основных гипотез, на которых базируется метод компонентного анализа.
Для обозначения минимальной единицы значения используется целый ряд терминов: сема, семантический дифференциальный признак, семантический множитель, семантический примитив, смысловой атом, фигура содержания.
Многие слова могут быть описаны семантически только в составе выражений, больших по объёму, словосочетаний или предложений. Такое выражение называется сентенционной или ситуационной формой.
Описание значения слов в составе сентенционных форм образует тот необходимый мостик, по которому мы из области лексической семантики переходим в область семантики предложения.
Значение слова должно представляться в виде структуры, состоящей из элементов смысла и связывающих их синтаксических отношений.
Существуют разные варианты семантических метаязыков (далее СМ), которые одновременно являются и языками для описания значении слов, и языками для описания смысла предложения. Имея ряд общих черт, эти языки отличаются друг от друга по целому ряду параметров:
Во-первых, разные исследователи приписывают семантическим компонентам разный онтологический статус. Для одних сторонников компонентного анализа компоненты — это теоретические лингвистические конструкты, с помощью которых удобно описывать системные отношения в лексике или отношения между предложениями, для других — это ментальные сущности, обладающие психологической реальностью.
Различно количество единиц словаря метаязыка. В большинстве имеющихся СМ количество единиц словаря заранее не ограничивается. Предполагается только, что таких единиц существенно меньше, чем единиц словаря языка-объекта.
Единственным исключением является Естественный Семантический Метаязык (ЕСМ) А. Вежбицкой, список исходных семантических элементов которого хотя и меняется время от времени, но в каждый данный момент фиксирован.
По параметру соотношения словаря метаязыка и словаря языка — объекта можно выделить четыре типа СМ:
1) вырожденный случай СМ, словарь которого совпадает со словарем языка-объекта (примером такого СМ может служить метаязык толкований (дефиниций) в традиционных толковых словарях, формулируемых на том же языке, значения слов которого описываются, без наложения каких-либо ограничений на словарный состав толкований;
2) СМ, словарь которого пересекается со словарем языка-объекта (например, семантический язык модели ?Смысл -4=? Текст?);
3) СМ, словарь которого представляет собой подмножество множества слов языка — объекта (например, ЕСМ А. Вежбицкой);
4) СМ, словарь которого не пересекается со словарем языка — объекта (чистых примеров этого типа не существует, но в принципе, они возможны). Аналогичным образом могут различаться СМ по тому, как их синтаксис соотносится с синтаксисом языка-объекта.
Различаются СМ и по степени полноты отражения значения языкового выражения средствами СМ.
Применительно к описанию значений слов при одном подходе постулируется возможность полного (без остатка) разложения (декомпозиции) значения на единицы СМ, а при другом подходе допускается неполная декомпозиция, и семантика слова описывается с помощью постулатов значения [Карнап 1959], задающих необходимые условия для употребления данного слова. Так, семантическое описание слова холостяк с помощью постулатов значения имеет следующий вид: холостяк (х) -?ЧЕЛОВЕК (х) & МУЖСКОГО ПОЛА (х) & ВЗРОСЛЫЙ (х) & -1 ЖЕНАТ (х).
Различаются СМ и по характеру информации, описываемой с помощью данного языка и по исследовательской цели, для которой строится метаязык (Кобозева 2000).
Говоря о компонентном анализе, следует также отметить некоторые его типичные недостатки:
1. Во многих работах по компонентному анализу значение слова отождествляется с классом его денотации или, во всяком случае, с теми признаками, по которым денотативный класс одного слова отличается от денотативного класса другого.
2. Ориентированность на денотативные классы связана и со вторым недостатком применения компонентного анализа.
Компонентный анализ стал широко использоваться по отношению к тем словам, значения которых в действительности почти неделимы (вычленяются только общие интегральные признаки и та часть значения, которая остается после их выделения). Именно слова с такой организацией значения часто имеют четко выделимые денотативные классы.
3. Многие недостатки применения как компонентного анализа, так и любого вообще семантического описания связаны с процедурами проверки семантических результатов (см. с. 92). К этому следует еще добавить, что компонентный анализ вообще часто используется не как исследовательский метод, а как метод систематизации уже имеющихся сведений о значении, т. е.
он применяется для препарирования уже содержащейся в словарях информации. Постановка такой задачи, вообще говоря, обоснована.
Однако, поскольку в словарных статьях наряду с верными имеются и неверные сведения и, кроме того, поскольку словарные толкования часто неполны, работа не может сводиться только к систематизации: она должна дополняться проведением верификационных процедур, что во многих случаях не имеет места (Селиверстова 2004).
Теоретическая мотивация компонентного анализа достаточно ясна. Он предоставляет лингвистам, в принципе, систематизированные и экономные средства репрезентации смысловых отношений, существующих между лексемами в отдельных языках и, при условии, что эти компоненты универсальны, во всех языках (Лайонз 2003).
Источник: https://studbooks.net/2095983/literatura/semanticheskiy_analiz_idiom
Что такое семантический анализ
Семантический анализ представляет собой одну из наиболее сложных математических задач. Основная трудность здесь состоит в том, чтобы научить автоматические поисковые системы и другие системы искусственного интеллекта верно трактовать смысловые единицы и передавать читателям или слушателям речевые образы без искажений.
Правильное распознавание образов всегда считалось одним из определяющих свойств человека и некоторых других живых существ. По своей сути образ есть определенным способом составленное описание какого-либо объекта.
Человек распознает целостные конструкции в течение всего времени бодрствования, что необходимо для правильной оценки ситуации и принятия решений. В современной культуре значительную часть образов человек получает из текстовой информации.
Естественный человеческий язык развивался большей частью стихийно, а не формализовано, как, например, языки программирования. По этой причине возникают трудности в распознании и понимании текстов, что ведет к их двойному толкованию. Большое значение в понимании информационных потоков играет контекст ситуации.
Не зная контекста, очень просто воспринять текстовую информацию в искаженном виде. Если человек обычно верно извлекает смысл из контекста, то машине сделать это бывает очень сложно. Подобные проблемы и решаются в ходе семантического анализа.
При первичной обработке текстов автоматическим машинным методом обычно используют синтаксический и морфологический анализ. Остается сделать лишь один шаг, чтобы представить смысл отдельных частей текста формальным образом, то есть перейти к семантическому анализу (Журнал «Молодой ученый», «Семантический анализ текстов», Н. Чапайкина, май 2012).
Методологической основой традиционного семантического анализа является исследование синтаксической и морфологической составляющих языка. Вначале производится построение синтаксического дерева отдельного предложения.
Затем следует морфологический анализ языковой структуры. На данном этапе отсеиваются слова с одинаковым звучанием, но разным значением (омонимы).
Без такой предварительной проработки текста семантический анализ будет затруднен.
Собственная методология семантического анализа включает в себя смысловую интерпретацию речевых конструкций, а также установление содержательного компонента в отношениях между частями текста.
При этом элементами анализа могут выступать не только отдельные слова, но и их сочетания.
Обращаясь к семантическому анализу, ученые рассматривают текст не только как совокупность слов и предложений, но и стараются сконструировать целостный смысловой образ, заложенный автором.
Источник: https://www.kakprosto.ru/kak-850236-chto-takoe-semanticheskiy-analiz
prerek.ru
с. 1 Дорогие коллеги!
- Мы рады объявить, что очередная 17-я Международная конференция «Диалог» состоится c 25 по 29 мая в Московской области.
- Конференция проходит под патронажем Российского Фонда Фундаментальных Исследований и при организационной поддержке компании ABBYY.
- В подготовке и проведении «Диалога 2011» участвуют:
- Институт лингвистики РГГУ
- Институт проблем информатики РАН
- Институт проблем передачи информации РАН
- Филологический факультет МГУ
- Яndex
- ABBYY
Тематика Диалога 2011
Конференция проводится по следующим направлениям, сочетающим теоретические исследования и приложения:
- Лингвистическая семантика и семантический анализ текста
- Формальные модели языка и их применение
- Теоретическая и компьютерная лексикография
- Разработка и применение компьютерных лингвистических ресурсов
- Корпусная лингвистика. Создание, применение, оценка корпусов
- Интернет как лингвистический ресурс. Лингвистические технологии в интернете
- Извлечение знаний из текстов
- Модели общения. Коммуникация, диалог и речевой акт
- Анализ и синтез речи
- Компьютерный анализ документов: реферирование, классификация, поиск
- Машинный перевод
Программа конференции включает пленарные заседания, специальные и стендовые сессии, круглые столы, демонстрации программных систем. Доклады, включенные в программу «Диалога», публикуются в сборнике трудов конференции. Положительно оцененные доклады, не попавшие в основную программу, публикуются (с разрешения авторов) на сайте конференции.
Доминанты Диалога 2011
Каждый год Программный Комитет выбирает отдельные темы или направления в качестве доминант очередной конференции. Им посвящаются специальные заседания, Круглые столы, обзорные выступления приглашенных докладчиков. В этом году выбраны следующие главные темы:
Анализ текстовых корпусов (корпусометрия). Вопросы создания и использования корпусов давно уже находятся в центре внимания на Диалогах. Практически всякое лингвистическое исследование ведется сегодня с привлечением корпусных данных.
Но далеко не во всяком исследовании такого рода четко формулируется, какими необходимыми свойствами должен обладать корпус, чтобы полученные результаты заслуживали доверия.
Предлагается обсудить на этом Диалоге вопросы сравнительной оценки корпусов и сами параметры такой оценки.
Автоматическое извлечение лингвистических знаний.
Вопросы «Linguistic Knowledge Acquisition» тесно связаны с такими важными темами Диалогов, как разметка корпусов, получение и верификация лингвистических описаний с помощью машинного обучения и т.п.
Мы приглашаем к участию в Диалоге исследователей, готовых предложить не только методы автоматического извлечения, но и продемонстрировать полученные в результате их применения конкретные лингвистические данные.
- Планируется проведение Круглых столов и участие ведущих мировых специалистов в качестве приглашенных докладчиков по обоим доминантным направлениям.
- Рабочие языки конференции (обратите внимание!)
- Рабочими языками конференции являются русский и английский. Это отражает одинаковую важность для Диалога двух взаимосвязанных целей:
- Создание ресурсов, моделей и технологий для поддержки анализа русского языка.
- Преодоление того методического и технологического отставания от мирового уровня, которое имеет место в отношении российской компьютерной лингвистики в целом, несмотря на отдельные ее успехи.
Для успешного решения второй задачи ПК Диалога пытается внедрить международные стандарты оценки (evaluation) присылаемых работ, этой же цели будет служить и обязательный переход на английский язык для тех направлений Диалога, которые относятся к мировому мэйнстриму. Это позволит, в частности, привлекать к отбору докладов иностранных экспертов. И, что очень важно, сделает пребывание на Диалоге для наших коллег из-за рубежа гораздо более осмысленным.
Таким образом, с этого года ПК вводит следующее правило: те доклады, которые не обращены непосредственно к русскому языку как объекту исследования, должны подаваться на английском языке.
Их авторы должны быть также готовы и представлять их на английском языке, если доклад попадет в «международную» секцию программы (о чем ПК сообщит заранее).
Для докладов, подаваемых и представляемых на русском языке, мы будем просить авторов делать расширенные аннотации на английском языке.
О принципах отбора докладов на Диалог
«Диалог» принципиально междисциплинарен и ориентирован на общение лингвистов-теоретиков и разработчиков прикладных лингвистических технологий. Мы просим всех, кто планирует участвовать в «Диалоге», учитывать эту традицию при выборе тем, содержания и формы ваших выступлений.
Диалог сохраняет традиционную широту тематики, при этом Программный Комитет оставляет за собой право отклонять доклады, понятные и интересные только узким специалистам.
Исследования, выполненные в рамках научных теорий, моделей описания и анализа, не являющихся широко известными, не будут приниматься без введения, представляющего соответствующую исследовательскую парадигму.
Наши рецензенты будут обращать особое внимание на наличие в теоретических докладах внятно сформулированной и решенной конструктивной задачи, а в прикладных исследованиях – верифицируемого результата, полученного на адекватном языковом материале.
Порядок подачи докладов
Полные тексты докладов с аннотациями на русском и английском языках будут приниматься до 1 февраля. Доклады подаются через интернет-систему подачи докладов. Вы должны зарегистрироваться в системе здесь.
На нашем сайте опубликована инструкция по регистрации и использованию данной системы. Просим вас внимательно с ней ознакомиться. Требования к оформлению докладов остаются такими же, какими они были в прошлом году.
Результаты рецензирования будут рассылаться с 1 по 10 марта. Подробную информацию о порядке рецензирования и публикации докладов вы можете найти на сайте конференции.
Авторам принятых или условно принятых докладов могут быть высказаны пожелания и замечания рецензентов. В некоторых случаях ПК проводит повторное рецензирование
До 22 марта мы ждем от вас итоговые варианты статей, подготовленные с учетом замечаний рецензентов и оформленные в соответствии с требованиями. Обращаем ваше внимание, что организаторы не гарантируют публикации для статей, присланных с опозданием.
Основные даты:
Предоставление полных текстов | до 1 февраля |
Решение ПК | с 1 до 10 марта |
Подача статей для сборника | до 22 марта |
Публикация программы конференции | после 5 мая |
Проведение конференции | 25-29 мая |
Более подробную информацию можно получить на сайте «Диалога».
На специальном форуме вы можете оставить свои предложения по проведению конференции, задать вопросы.
Оргкомитет конференции располагает некоторым количеством сборников трудов «Диалога» за 1995-2010 годы. Мы готовы бесплатно поделиться сборниками с университетами, кафедрами, библиотеками на условиях самовывоза.
По всем вопросам обращайтесь к секретарю конференции: secretary@dialog-21.ru.
Организационный комитет конференции «Диалог 2011»
с. 1
Источник: http://www.prerek.ru/safia/lingvisticheskaya-semantika-i-semanticheskij-analiz-teksta/main.html