Способ и устройство для преобразования контента

Номер патента: 7776

Опубликовано: 27.02.2007

Автор: Абир Эли

Есть еще 22 страницы.

Смотреть все страницы или скачать PDF файл.

Формула / Реферат

1. Способ ассоциирования слов в языке, содержащий этапы, на которых

создают фонд документов, при этом упомянутый фонд содержит по меньшей мере один документ;

выбирают первое слово или словосочетание и второе слово или словосочетание;

находят множество появлений первого слова или словосочетания и второго слова или словосочетания в упомянутом фонде;

задают в упомянутом фонде первые интервалы и вторые интервалы, при этом первые интервалы содержат первое слово или словосочетание, а вторые интервалы содержат второе слово или словосочетание;

производят поиск по упомянутым первым интервалам и вторым интервалам в отношении общих слов или словосочетаний, при этом упомянутые общие слова или словосочетания появляются в множестве интервалов; и

ассоциируют первое слово или словосочетание и второе слово или словосочетание с общими словами или словосочетаниями на основании частоты появления общих слов или словосочетаний в пределах, соответственно, первых интервалов и вторых интервалов.

2. Способ по п.1, в котором упомянутое ассоциирование первого слова или словосочетания и второго слова или словосочетания улучшают посредством большей частоты появления общих слов или словосочетаний.

3. Способ по п.1, в котором упомянутое ассоциирование первого слова или словосочетания и второго слова или словосочетания улучшают посредством меньшей частоты появления общих слов или словосочетаний.

4. Способ по п.1, дополнительно содержащий этап, заключающийся в том, что первое слово и/или словосочетание заменяют, по существу, семантически эквивалентным словом или словосочетанием.

5. Способ ассоциирования слов в языке, содержащий этапы, на которых

создают фонд документов, при этом упомянутый фонд содержит по меньшей мере один документ;

выбирают первое слово или словосочетание и второе слово или словосочетание;

находят все документы, содержащие множество появлений первого слова или словосочетания в пределах заданного интервала близости второго слова и/или словосочетания, при этом упомянутый заданный интервал близости ограничен верхним пределом и нижним пределом;

задают в найденных документах интервал, при этом данный интервал содержит первое слово или словосочетание и второе слово или словосочетание;

производят поиск по упомянутым интервалам в отношении общих слов или словосочетаний; и

ассоциируют первое слово или словосочетание и второе слово или словосочетание с общими словами или словосочетаниями на основании частоты появления общих слов или словосочетаний в пределах упомянутых интервалов.

6. Способ по п.5, в котором упомянутое ассоциирование первого слова или словосочетания и второго слова или словосочетания улучшают посредством большей частоты появления общих слов или словосочетаний.

7. Способ по п.5, в котором упомянутое ассоциирование первого слова или словосочетания и второго слова или словосочетания улучшают посредством меньшей частоты появления общих слов или словосочетаний.

8. Способ по п.5, в котором упомянутый верхний и упомянутый нижний предел упомянутого заданного интервала близости равны.

9. Способ создания ассоциативной базы данных на одном языке, содержащий этапы, на которых

создают фонд документов, при этом упомянутый фонд содержит по меньшей мере один документ;

выбирают первое слово или словосочетание;

находят множество появлений первого слова или словосочетания;

задают в упомянутом фонде интервалы, при этом упомянутые интервалы встречаются в зависимости от каждого из упомянутого множества появлений первого слова или словосочетания;

производят поиск по упомянутым интервалам в отношении общих слов или словосочетаний, при этом упомянутые общие слова или словосочетания появляются в множестве интервалов; и

ассоциируют первое слово или словосочетание с общими словами или словосочетаниями на основании частоты появления общих слов или словосочетаний в пределах упомянутых интервалов.

Рисунок 1

 

Текст

Смотреть все

007776 Родственные заявки Настоящая заявка является частичным продолжением заявки 10/024473 на патент США, поданной 21 декабря 2001 г., и по ней испрашивается приоритет на основе предварительной заявки 60/276107 на патент США, поданной 16 марта 2001 г., и предварительной заявки 60/299472 на патент США, поданной 21 июня 2001 г., каждая из которых включена в настоящую заявку путем ссылки. Приложение листингов компьютерных программ Настоящая заявка содержит в приложении листингов компьютерных программ на ДИСКЕ 1 следующие листинги компьютерных программ: Program1 в файле program1.txt, созданном 28 мая 2002 г. и содержащем 12 кбайт; Program2 в файле program2.txt, созданном 28 мая 2002 г. и содержащем 2 кбайт,Рrоgrаm3 в файле program3.txt, созданном 28 мая 2002 г. и содержащем 17 кбайт, и Program4 в файле program4.txt, созданном 31 мая 2002 г. и содержащем 8 кбайт. Область техники, к которой относится изобретение Настоящее изобретение относится к способу и устройству для создания базы данных, предназначенной для использования при преобразовании языка из одного состояния в другое состояние. Предпосылки к созданию изобретения Известны устройства и способы для автоматического перевода документов с одного языка на другой язык. Однако данные устройства и способы часто дают неточный перевод документов с одного языка на другой язык, работают медленно и могут быть неудобными для применения. Кроме средств перевода,работающих с участием человека, другие известные устройства содержат широкодоступное программное обеспечение для машинного перевода. У указанных известных систем имеются недостатки, из-за которых данные системы чувствительны к ошибкам, имеют низкую скорость и неудобны. Известные устройства и способы перевода не способны постоянно выдавать точные переводы входных текстов и поэтому часто требуют от пользователя интенсивного участия в проверочном считывании и редактировании. Точный машинный перевод сложнее, чем выдаваемый устройствами и способами, выполняющими подстрочные переводы документов. Упомянутые системы подстрочного перевода часто дают переводы, мало понятные читателям переведенного документа, поскольку способ подстрочного перевода не обеспечивает правильный выбор слов и приводит к получению бессмысленных грамматических единиц. Чтобы избавиться от описанных недостатков, известные устройства перевода десятилетиями нацеливали на выбор переводов слов в контексте предложения на основании сочетания или набора лексических, морфологических, синтаксических и семантических правил. Указанные системы, известные в технике как системы машинного перевода (МП, МТ), основывающиеся на правилах, обладают существенным недостатком, поскольку существует так много исключений из правил, что данные системы не в состоянии постоянно выдавать точный перевод. Кроме основывающихся на правилах систем МП, в последнее десятилетие разработан новый способ МП, известный под названием МП, основывающегося на примерах (ЕВМТ, ЕВМТ). Способ ЕВМТ основан на использовании предложений (или, может быть, частей предложений), сохраняемых на двух разных языках в межъязыковой базе данных. Если запрос перевода соответствует предложению в базе данных, то перевод предложения на язык, на который делается перевод (выходной язык), выполняется базой данных, выдающей точный перевод на другом языке. Если часть запроса перевода соответствует части предложения в базе данных, то упомянутые устройства делают попытку точно определить, какая часть предложения, преобразованного в предложение на входном языке, является переводом запроса. Системы ЕВМТ не способны дать точный перевод с языка без ограничений, поскольку базы данных межъязыковых предложений создаются вручную и потому всегда будут, как правило, неполными. Другой недостаток систем ЕВМТ заключается в том, что переводы вариантов частичного совпадения ненадежны. Предпринимались попытки автоматизировать создание межъязыковых баз данных по парам переведенных документов для использования в системах ЕВМТ. Однако данные усилия не привели к созданию полезных точных межъязыковых баз данных сколько-нибудь существенного размера. Ни одна из упомянутых попыток не связана с применением алгоритма, который бы надежно и точно выдавал переводы значимого числа слов или словосочетаний из пары переведенных документов. Некоторые устройства перевода сочетают оба механизма МП, а именно МП, основывающийся на правилах, и МП, основывающийся на примерах (ЕВМТ). Хотя указанное сочетание приемов и позволяет повысить степень точности по сравнению со случаем применения любой одной системы из указанных систем, результаты остаются неполноценными без серьезной поддержки со стороны пользователя и выполнения им редактирования. Проблемы, возникающие при переводе документов с одного языка на другой язык, можно отнести к более общей проблеме преобразования данных, выражающих понятия или информацию в одном состоянии, например текстовом, в данные, выражающих понятия в другом состоянии, например в виде математических символов. В указанных случаях следует производить поиск в межпонятийных ассоциативных базах данных, которые ассоциативно связывают данные, находящиеся в одном состоянии, с эквивалентными данными в другом состоянии. Поэтому существует потребность в усовершенствованном и более эффективном способе и устройстве для создания словарей или баз данных, которые ассоциативно связывают эквивалентные понятия на разных языках или в разных состояниях (например, в виде слов, слово-1 007776 сочетаний, звуков, движений и т.п.), и для перевода или преобразования понятий, передаваемых документами на одном языке или в одном состоянии, в такие же или подобные понятия, представленные документами на другом языке или в другом состоянии. Изобретение относится к обработке контента (информационного значимого содержимого) с использованием межпонятийной ассоциативной базы данных. В частности, в соответствии с настоящим изобретением предлагаются способ и устройство для создания базы данных ассоциированных понятий, а также способ и устройство для использования упомянутой базы данных с тем, чтобы преобразовывать понятия из одного состояния в другие состояния. В соответствии с одним из вариантов осуществления настоящего изобретения предлагаются, например, способ и устройство для создания базы данных для перевода с одного языка на другой, при этом два языка составляют базу данных ассоциированных понятий. В соответствии с настоящим изобретением предлагаются также способ и устройство для использования упомянутой языковой базы данных с тем,чтобы преобразовывать документы (отражающие понятия) из одной языковой формы в другую языковую форму (или, в более общем смысле, из одного состояния в другое состояние). Тем не менее, настоящее изобретение не ограничено переводами с одного языка на другой язык, несмотря на то, что ниже представлено описание данного предпочтительного варианта осуществления. Аспект настоящего изобретения, заключающийся в создании базы данных, можно применить к любым понятиям, которые как-либо связаны, но выражаются в разных состояниях, а аспект настоящего изобретения, заключающийся в преобразовании, можно применить к точному преобразованию понятий из одного состояния в другое состояние. В соответствии с другим вариантом осуществления настоящего изобретения аспект настоящего изобретения, заключающийся в создании базы данных, можно применить для создания таких ассоциаций между понятиями в пределах одного языка и их отношения друг с другом, которые используются в приложениях искусственного интеллекта. Ниже приведено описание применения настоящего изобретения в варианте осуществления перевода с одного языка на другой язык. В контексте настоящего описания, термины, относящиеся к преобразованию, переводу и обработке, применяются как равнозначные, причем в их наиболее широком смысле. Краткая формулировка сущности изобретения Задача настоящего изобретения заключается в обеспечении эффективного перевода документов с одного языка или из одного состояния на другой язык или в другое состояние посредством разработки способа и устройства для создания и сопровождения межпонятийных ассоциативных баз данных. Упомянутые базы данных, в общем случае, ассоциативно связывают представленные в первом формате или состоянии данные, которые отражают конкретные понятия или порции информации, с представленными во втором формате или состоянии данными, которые отражают те же самые конкретные понятия или порции информации. Другая задача настоящего изобретения заключается в обеспечении перевода документов с одного языка или из одного состояния на другой язык или в другое состояние посредством разработки способа и устройства для создания второго документа, содержащего данные во втором состоянии, формате или на втором языке, из первого документа, содержащего данные в первом состоянии, формате или на первом языке, при этом первый и второй документы отражают, по существу, одни и те же понятия или информацию. Еще одна задача настоящего изобретения заключается в обеспечении перевода документов с одного языка или из одного состояния на другой язык или в другое состояние посредством разработки способа и устройства для создания второго документа, содержащего данные во втором состоянии, формате или на втором языке, из первого документа, содержащего данные в первом состоянии, формате или на первом языке, при этом первый и второй документы отражают, по существу, одни и те же понятия или информацию, а способ и устройство включают в себя использования межпонятийной ассоциативной базы данных. Еще одна задача настоящего изобретения заключается в создании перевода документов (в широком смысле, в преобразовании понятий из одного состояния в другое состояние) в реальном времени. Указанные и другие задачи настоящего изобретения решаются с помощью способа и устройства для создания межпонятийной базы данных. Способ и устройство для создания межпонятийной базы данных могут включать в себя создание, по меньшей мере, двух документов, при этом каждый документ составлен на отличающемся от других языке, но отражает, по существу, одни и те же понятия. Документы могут представлять собой точные переводы одного и того же текста, т.е. являться параллельными текстовыми документами, или могут быть переводами, содержащими тексты, связанные в общем смысле, т.е. сопоставимые текстовые документы. В соответствии с настоящим изобретением выбирают, по меньшей мере, первое и второе появление всех слов и словосочетаний, которые характеризуются большим числом появлений в первом языке в имеющихся межъязыковых документах. Затем выбирают, по меньшей мере, один интервал первого слова и один интервал второго слова в документах на втором языке, при этом интервалы первого и второго слов соответствуют первому и второму появлениям выбранного слова или словосочетания в документах на первом языке. Затем сравнивают слова и словосочетания,-2 007776 найденные в интервале первого слова, со словами и словосочетаниями, найденными в интервале второго слова, находят слова и словосочетания, общие для интервалов обоих слов, и вводят данные найденные общие слова и словосочетания в межпонятийную базу данных. Затем в соответствии с настоящим изобретением в упомянутой межпонятийной базе данных ассоциируют общие слова или словосочетания,найденные в двух интервалах во втором языке, с выбранными словом или словосочетанием в первом языке, с упорядочиванием по частоте их ассоциации (числу повторных появлений), после корректирования исправления частот ассоциаций согласно настоящему описанию. Число ассоциаций, выделяемых базой данных по результатам анализа параллельных или сравнимых текстов на предмет общих слов или словосочетаний в разных языках, будет возрастать с увеличением числа доступных параллельных или сопоставимых текстов на многих разных языках. Кроме того, указанные и другие задачи настоящего изобретения достигаются с помощью способа и устройства для преобразования документа из одного состояния в другое состояние. В соответствии с настоящим изобретением создается база данных, содержащая сегменты данных на первом языке, ассоциированные с сегментами данных на втором языке (созданными вышеописанными способами или вручную). В соответствии с настоящим изобретением текст переводят посредством обращения к вышеупомянутой базе данных и идентификации самого длинного по числу слов словосочетания в переводимом документе, начиная с первого слова документа, которое существует в базе данных. Затем система извлекает из базы данных словосочетание на втором языке, ассоциированное с найденным словосочетанием из документа на первом языке. Далее система выбирает второе словосочетание в документе, которое существует в базе данных и содержит перекрывающееся слово (или, по альтернативному варианту, словосочетание) с ранее идентифицированным словосочетанием в документе, и извлекает из базы данных словосочетание на втором языке, ассоциированное со вторым словосочетанием на первом языке. Если ассоциированные словосочетания на втором языке содержат перекрывающееся слово (или, по альтернативному варианту, слова), то ассоциированные словосочетания на втором языке сочетаются (с исключением избыточности по перекрытию) для создания перевода; а в противном случае, извлекают другие ассоциации на втором языке к словосочетаниям на первом языке и проверяют на возможность сочетания по перекрытию слов вплоть до положительного результата. Следующее словосочетание в документе на первом языке выбирают распознаванием самого длинного словосочетания в базе данных, которое содержит перекрывающееся слово (или, по другому варианту, слова) с ранее распознанным словосочетанием на первом языке, и продолжают вышеописанную процедуру, пока весь документ на первом языке не будет преобразован в документ на втором языке. Кроме того, в соответствии с настоящим изобретением создают частотные таблицы для определения ассоциации, по меньшей мере, между двумя словами или словосочетаниями, чтобы можно было использовать эти частотные таблицы в других вариантах применения, включая варианты применения, связанные с преобразованием контента из одного состояния в другое состояние. Частотные таблицы создают посредством анализа документов в заданном состоянии (например, на заданном языке) и определения частоты, с которой два слова и/или словосочетания связаны на основе близости к слову или словосочетанию в тексте. Следовательно, например, по результатам анализа текстов на английском языке можно установить частотные таблицы для слов или словосочетаний, относящихся к фразе пик Эверест("Mount Everest"), например гора ("mountain"), самое высокое место в мире ("highest place in theworld"), снег ("snow"), восхождение ("climb"), погибшие ("people died") и холод ("cold"). Упомянутые частотные таблицы можно затем использовать любыми способами в любых интеллектуальных приложениях для ответа на вопросы путем распознавания общих ассоциаций, по меньшей мере, по двум частотным таблицам. Базы данных, создаваемые для интеллектуальных приложений, можно строить по документам на одном языке (или, по другому варианту, с использованием межъязыкового текста). Перечень фигур чертежей Фиг. 1 - вариант осуществления межпонятийной базы данных в соответствии с настоящим изобретением. Фиг. 2 - вариант осуществления компьютерной системы в соответствии с настоящим изобретением с целью реализации способов по настоящему изобретению. Фиг. 3 - запоминающее устройство (ЗУ) компьютерной системы в соответствии с настоящим изобретением для хранения программ, реализующих способы по настоящему изобретению. Подробное описание изобретения В соответствии с настоящим изобретением предлагаются способ и устройство для создания и сопровождения межпонятийной базы данных и для перевода документов с первого языка или из первого состояния на второй язык или во второе состояние с использованием межпонятийной базы данных. Рассматриваемые в настоящем описании документы являются фондом такой информации, как понятия,представленные символами и буквами, зафиксированными на некотором носителе. Например, документы могут быть электронными документами, записанными на магнитном или оптическом носителе, или бумажными документами, например книгами. Символы и буквы, содержащиеся в документах, представляют понятия и сведения, выраженные с использованием одной или нескольких систем отображения,относительно которых предполагается, что они понятны пользователям документов. В соответствии с-3 007776 настоящим изобретением документы, находящиеся в первом состоянии, т.е. содержащие информацию,выраженную в одной системе отображения, обрабатывают с целью получения документов, находящихся во втором состоянии, т.е. содержащих, по существу, ту же самую информацию, выраженную с использованием второй системы отображения. Следовательно, настоящее изобретение дает возможность обрабатывать или переводить документы из одних систем отображения в другие системы отображения, например письменные документы или устную речь с таких языков, как английский, иврит и кантонский, на другие языки. Система или устройство для осуществления преобразования контента или способ обработки контента в соответствии с настоящим изобретением могут, соответственно, представлять собой компьютерную систему 200, показанную на фиг. 2, или реализоваться на базе данной системы. Компьютерная система 200 содержит процессор 202, связанный через шину 214 с памятью 208, устройством ввода 210 и устройством вывода 212. Компьютерная система 200 может также содержать запоминающее устройство(ЗУ) 204 и сетевой интерфейс 206. Процессор 202 осуществляет доступ к данным и программам, хранящимся в памяти 208. Посредством исполнения программ в памяти 208 процессор может управлять компьютерной системой 200 и выполнять этапы обработки данных и управления устройствами, например устройством ввода 210, устройством вывода 212, ЗУ 204, сетевым интерфейсом 206 и памятью 208. Программы, хранящиеся в памяти 208, могут содержать этапы, реализующие способ в соответствии с настоящим изобретением, например преобразование контента, ассоциирование слов и словосочетаний и создание базы данных, и способы сопровождения. ЗУ 204 записывает и хранит информацию для последующего извлечения в память 208 процессором 202 и может содержать известные ЗУ, как, например, энергонезависимые ЗУ, накопители на магнитных дисках, накопители на магнитных лентах и оптические ЗУ. ЗУ 204 может хранить программы и данные, в том числе базы данных, которые могут передаваться в память 208 для использования процессором 202. Базы данных в полном объеме или блоки баз данных могут передаваться в память 208 для доступа и обработки процессором 202. Сетевой интерфейс 206 обеспечивает обмен данными между компьютерной системой 200 и сетью 216, например сетью Internet, и преобразует сигналы, поступающие из компьютерной системы 200, в формат, допускающий передачу по сети 216, и наоборот. Устройство ввода 210 может содержать, например, клавиатуру и сканер для ввода данных в память 208 и в ЗУ 204. Входные данные могут содержать текст документов, подлежащих записи в документальную базу данных для анализа и преобразования контента. Устройство вывода 212 содержит устройства для представления информации пользователю компьютерной системы и может содержать, например, экран монитора и принтер. Ниже приведено подробное описание настоящего изобретения, включая способ и устройство для создания базы данных и способ и устройство для преобразования. Способ и устройство для создания базы данных В соответствии со способом по настоящему изобретению для обработки контента документа используют межпонятийную базу данных. На фиг. 1 приведен вариант осуществления межпонятийной базы данных. Данный вариант осуществления содержит листинг сегментов ассоциированных данных в графах 1 и 2. Сегменты данных представляют собой символы или группировки знаков, которые представляют конкретное понятие или порцию информации в системе отображения. Если система отображения в документе является, например, естественным языком, то сегментом может быть слово или словосочетание. Следовательно, сегменты системы А в графе 1 являются сегментами данных, которые представляют различные понятия и сочетание понятий, Da1, Da2, Da3 и Da4 в гипотетической системе отображения А. Сегментами системы В в графе 2 являются Db1, Db3, Db4, Db5, Db7, Db9, Db10 и Db12, которые представляют различные понятия и некоторые сочетания таких понятий в гипотетической системе отображения В, которые упорядочены по частоте ассоциаций с сегментами данных в системе отображения А. В графе 3 указана непосредственная частота ассоциаций, которая представляет собой количество случаев, когда сегмент или сегменты на языке В были ассоциированы с приведенным сегментом (или сегментами) на языке А. В графе 4 представлены частоты ассоциаций после вычитания, которые представляют собой количество случаев, когда сегмент (или сегменты) данных на языке В были ассоциированы с сегментом (или сегментами) на языке А после вычитания количества случаев, когда сегмент (или сегменты) были ассоциированы в составе более крупного сегмента, в соответствии с нижеприведенным более полным описанием. Как видно из фиг. 1, возможна ситуация, в которой единственный сегмент, например Da1, наиболее целесообразно ассоциировать с несколькими сегментами, Db1 вместе с Db3 и Db4. Чем выше частоты ассоциаций после вычитания (в соответствии с настоящим описанием) у сегментов данных, тем выше вероятность того, что сегмент системы А является эквивалентом сегмента системы В. Кроме измерения скорректированных частот по общему числу появлений, скорректированные частоты можно также измерять, например, посредством вычисления процентной доли количества раз, когда конкретные сегменты системы А соответствовали конкретным сегментам системы В. Если базу данных используют для перевода документа, то в соответствии с процедурой ассоциированный сегмент наиболее высокого ранга будет извлекаться из базы данных первым. Однако часто способ, применяемый с целью проверки сочетания ассоциированных сегментов для перевода (см. ниже), приводит к решению, что необходимо прове-4 007776 рить другую ассоциацию ниже рангом, поскольку проверенную ассоциацию более высокого ранга применить нельзя. Например, если в базу данных поступает запрос на ассоциацию для Da1, база данных даст ответ Db1+Db3+Db4; но если ассоциацию Db1+Db3+Db4 применить нельзя в соответствии с решением процедуры, которая правильно сочетает сегменты данных для перевода, то тогда база данных выдастDb9+Db10 для проверки на правильность сочетания с другим ассоциированным сегментом для перевода. Как правило, способ создания межпонятийной базы данных в соответствии с настоящим изобретением содержит этапы анализа параллельного или сопоставимого текста и работы с ним. Способ и устройство в соответствии с настоящим изобретением используются таким образом, чтобы создавать базу данных, содержащую ассоциации по двум состояниям - точные преобразования или, конкретнее, ассоциации между понятиями, выраженными в одном состоянии, и понятиями, выраженными в другом состоянии. Ассоциации перевода и другие важные ассоциации между двумя состояниями усиливаются, т.е. становятся более частыми, с увеличением числа документов, которые подвергают анализу и обработке в соответствии с настоящим изобретением, поэтому в результате работы с достаточно большим числом образцовых документов выявляются наиболее общие (и, в единственном смысле, точные) ассоциации,а способ и устройство можно использовать для преобразования. В одном из вариантов осуществления настоящего изобретения два состояния представляют собой естественные языки (например, английский, иврит, китайский и т.д.), и поэтому в соответствии с настоящим изобретением создается межъязыковая база данных, приводящая слова и словосочетания на одном языке в соответствие их переводным эквивалентам на другом языке. Словосочетания можно определить как группы последовательно расположенных смежных слов, часто со знаками препинания и любыми другими знаками, применяемыми для выражения мысли в языке. В данном варианте в соответствии с настоящим изобретением создают базу данных посредством анализа документов на двух языках и создания базы данных переводов для каждого повторяющегося слова или словосочетания на обоих языках. Однако настоящее изобретение не ограничивается переводом с одного языка на другой язык. Настоящее изобретение дает пользователю возможность создавать базу данных понятий и ассоциировать данные понятия с другими понятиями, с иерархическим различением понятий. Следовательно, понятия ассоциируют с другими понятиями и классифицируют по частоте появления. Удельный вес, придаваемый частоте появления, и область применения базы данных, созданной вышеописанным способом, могут изменяться в зависимости от потребностей пользователя. Например, применительно к переводу текста с одного языка на другой язык действие настоящего изобретения будет заключаться в создании языковых переводов слов и словосочетаний с английского языка на китайский язык и наоборот. В соответствии с настоящим изобретением будут выдаваться оценки ранга ассоциаций между словами и словосочетаниями в двух языках. Если образец достаточно велик,то встречающееся слово или словосочетание, чаще всего, будет одним из китайских эквивалентов английского слова или словосочетания. Однако настоящее изобретение будет также выдавать другие ассоциации на китайском языке для английских слов или словосочетаний, и пользователь сможет работать с этими ассоциациями по своему усмотрению. Например, в ответ на слово гора ("mountain") при обработке в соответствии с настоящим изобретением может быть выдан список китайских слов и словосочетаний на анализируемом языке. Китайским языковым эквивалентам слова гора ("mountain"), вероятнее всего, будет присвоен самый высокий ранг; однако, в соответствии с настоящим изобретением будут выданы и другие слова или словосочетания на иностранном языке, ассоциированные со словом гора("mountain"), например снег ("snow"), лыжи ("ski"), опасный спорт ("a dangerous sport"), высочайшая точка на земле ("the highest point in the world") или гора Эверест ("Mt. Everest"). Пользователь сможет по своему усмотрению работать с этими словами и словосочетаниями, которые, вероятно, будут классифицированы ниже рангом, чем переводы слова гора ("mountain"). В соответствии с вышеизложенным настоящее изобретение представляет собой автоматизированный создатель ассоциативной базы данных. Наиболее сильные ассоциации соответствуют переводам или преобразованиям в единственном смысле, а другие частые (но менее сильные) ассоциации отражают понятия, которые тесно связаны с анализируемым понятием. Поэтому базы данных могут, например, применяться широко известными в технике системами, использующими методы искусственного интеллекта. В настоящее время указанные системы используют неполные, созданные вручную базы данных понятий или онтологии в качестве нейронных сетей для решения прикладных задач. Упомянутые базы данных ассоциированных понятий для использования в приложениях искусственного интеллекта можно построить с использованием любого заданного пользователем интервала в документе на одном языке. В соответствии с другим вариантом осуществления настоящего изобретения применяется вычислительное устройство, например компьютерная система на базе широкодоступного персонального компьютера известного типа. Хотя вычислительное устройство обычно представляет собой обычный персональный компьютер (автономный или работающий в сетевой среде), предполагается также возможность применения других вычислительных устройств, например персональных цифровых информационных устройств (PDA), беспроводных устройств, серверов, больших ЭВМ и т.п. Однако способ и устройство в соответствии с настоящим изобретением не нуждаются в применении упомянутых вычислительных устройств и допускают возможность простой реализации другими средствами, в том числе созданием вруч-5 007776 ную перекрестных ассоциаций. Способ, в соответствии с которым осуществляют анализ последовательных документов с целью расширения фонда образцовых документов и создают перекрестноассоциативную базу данных, характеризуется разнообразием, а именно, документы можно вводить для анализа и обработки вручную, с использованием автоматической подачи (например, известными в технике автоматическими загрузчиками бумаги) или с использованием поисковых агентов сети Internet,например Web Crawlers, для автоматического выбора соответствующих документов. Следует отметить, что настоящее изобретение допускает создание ассоциативной базы данных посредством анализа сопоставимого текста, помимо (или даже вместо) параллельного текста. Далее, способ предусматривает совместный просмотр всех доступных документов при поиске повторяющегося слова или словосочетания в языке. Построение базы данных В соответствии с настоящим изобретением анализируют документы с целью построения базы данных. После ввода документа (опять же, пары документов, представляющих один и тот же текст на двух разных языках) начинается процедура создания, использующая способы и/или устройства, указанные в настоящем описании. Предположим для иллюстрации, что документы имеют идентичный контент (или, в общем смысле,понятия) на двух разных языках. Документ А составлен на языке А, документ В составлен на языке В. Документы имеют следующий текст: Первый этап по настоящему изобретению заключается в том, что вычисляют интервал слова, чтобы определить приближенное местоположение возможных ассоциаций к любому заданному слову или словосочетанию. Поскольку один лишь межъязыковый дословный анализ не обеспечит получение полезного результата (например, слово 1 в документе А часто не существует как буквальный перевод слова 1 в документе В), а предложение на одном языке, по своей структуре, может содержать эквивалентное понятие в другом месте (или в последовательности) предложения по отношению к предложению на другом языке, то процедура создания базы данных по настоящему изобретению состоит в том, что ассоциируют каждое слово или словосочетание на первом языке со всеми словами и словосочетаниями, найденными в выбранном интервале документа на втором языке. Указанный подход важен также по той причине, что в одном языке понятия часто выражаются с использованием более или менее длинных словосочетаний,чем в другом языке. Интервал определяют посредством анализа двух документов и используют для сравнения слов и словосочетаний второго документа со словами исловосочетаниями первого документа. А именно, интервал слов или словосочетаний во втором документе анализируют как возможные ассоциации к каждому слову или словосочетанию в первом документе. При проверке по интервалу в соответствии с процедурой создания базы данных определяют количество слов или словосочетаний второго языка,которые могут отождествляться и переводиться словами или словосочетаниями первого языка. Существуют две характеристики, которые необходимо определить, чтобы задать в документе на втором языке интервал, в котором следует искать ассоциации к любому заданному слову или словосочетанию из документа на первом языке. Первой характеристикой является величина или размер интервала во втором документе, при этом упомянутая величина или размер измеряется числом слов в интервале. Второй характеристикой является местоположение интервала во втором документе, при этом упомянутое местоположение измеряется положением средней точки интервала. Обе характеристики задаются пользователем, однако, ниже предложены примеры предпочтительных вариантов осуществления. При определении размера и местоположения интервала необходимо добиваться высокой вероятности того,что интервал будет содержать перевод на второй язык слова или словосочетания из анализируемого сегмента на первом языке. Для определения размера или величины интервала можно применить разные методы, включая общеизвестные статистические методы, например расчет графика нормального распределения по числу слов в документе. При использовании статистических методов, например графика нормального распределения, интервал в начале и конце документа будет меньше, чем интервал в середине документа. Колоколообразный частотный график, характеризующий интервал, позволяет выполнять допустимую экстраполяцию перевода, независимо от того, получен ли он, исходя из абсолютного числа слов в документе или из определенного процента слов в документе. Существуют другие способы вычисления интервала,например ступенчатый метод, в соответствии с которым существует интервал одного уровня для определенной процентной части слов, второго более высокого уровня для другой процентной части слов и третьего уровня, равного первому уровню, для последней процентной части слов. И вновь, пользователь может задавать или устанавливать все характеристики интервала в зависимости от других возможных параметров с целью выявления полезных ассоциаций к анализируемому слову или словосочетанию на-6 007776 первом языке. Местоположение интервала в документе на втором языке может зависеть от результата сравнения количеств слов в двух документах. Что следует квалифицировать как документ, предназначенный для определения местоположения интервала, задается пользователем, например таким документом могут быть новые статьи, книжные главы и любые другие дискретно идентифицируемые элементы контента,состоящие из нескольких сегментов данных. Если количества слов в двух документах приблизительно равны, то местоположение интервала в документе на втором языке будет приблизительно совпадать с местоположением анализируемого слова или словосочетания в документе на первом языке. Если количества слов в двух документов не равны, то точное местоположение интервала можно определить из соотношения. Например, если документ А содержит 50 слов, а документ В содержит 100 слов, то соотношение между двумя документами равно 1:2. Серединой документа А является позиция слова 25. Если в документе А анализируют слово 25, то использование данной средней точки (позиция слова 25) в качестве местоположения середины интервала в документе В будет неэффективным решением, поскольку данная позиция (позиция слова 25) не является серединой документа В. Вместо этого, середину интервала в документе В для анализа слова 25 в документе А можно определить из отношения между количествами слов в двух документах (т.е. 25 х 2/1=50), размещением вручную в середине документа В или другими методами. При рассмотрении позиций слов или словосочетаний в документе и выявлении всех слов или словосочетаний, которые попадают в вышеуказанный интервал, процедура создания базы данных в соответствии с настоящим изобретением выдает возможный набор слов или словосочетаний в документе на втором языке, которые могут переводиться каждым словом или словосочетанием в анализируемом первом документе. Когда применяют способ создания базы данных в соответствии с настоящим изобретением,набор слов и словосочетаний, которые соответствуют условиям пригодности в качестве возможных переводов, будет сужаться по мере роста частот ассоциаций. Следовательно, после анализа пары документов по настоящему изобретению будут формироваться частоты ассоциаций слов и словосочетаний на одном языке со словами или словосочетаниями на втором языке. После того как в соответствии с настоящим изобретением будет проанализировано несколько пар документов (и, следовательно, создан большой образец), процедура создания межъязыковой ассоциативной базы данных будет выдавать все более высокие частоты ассоциаций к любому слову или словосочетанию. После получения достаточно большого образца ассоциации с самыми высокими частотами дают вероятные переводы; при этом, конечно, предельное значение, при достижении которого частотой ассоциации полагают, что перевод является точным, задается пользователем и зависит от других способов перевода (например, способов, описанных в предварительной заявке 60/276107 на патент США, поданной 16 марта 2001 г., озаглавленной"Method and Apparatus for Content Manipulation" и включенной в настоящее описание путем ссылки). Согласно вышеприведенному описанию в соответствии с настоящим изобретением проверяются не только слова, но и словосочетания (множества слов). Ранее упоминалось, что словосочетания содержат все знаки пунктуации и знаки в порядке их появления. После окончания анализа одного слова в первом языке в соответствии с процедурой создания базы данных по настоящему изобретению выполняется анализ двухсловного словосочетания, затем трехсловного словосочетания и т.д. с пошаговым наращиванием. Указанная процедура дает возможность выполнять перевод слов или словосочетаний одного языка,которые переводятся в более короткие или длинные словосочетания (или слова) другого языка, что часто имеет место. Если слово или словосочетание появляется только 1 раз во всех имеющихся документах на первом языке, то процедура немедленно переходит к анализу следующего слова или словосочетания, на котором снова выполняется цикл анализа. Анализ прекращается после того, как выполняется анализ всех слов или словосочетаний, которые появляются в первом языке несколько раз во всем имеющемся параллельном и сопоставимом тексте. В определенном смысле, можно объединить любое число документов и обрабатывать их как один документ с целью поиска повторяющихся слов или словосочетаний. По существу, чтобы слово или словосочетание не повторялось, оно должно появляться только 1 раз во всем имеющемся параллельном или сопоставимом тексте. Кроме того, возможен еще один вариант осуществления, по которому можно анализировать интервал, соответствующий каждому слову и словосочетанию, независимо от того, появляется ли оно или нет более 1 раза во всем сопоставимом и параллельном тексте. В соответствии с другим вариантом осуществления базу данных можно строить путем выделения конкретных слов и словосочетаний, которые входят в запрос. Когда для перевода вводят слова и словосочетания, то в соответствии с настоящим изобретением поиск неоднократно появляющихся слов или словосочетаний может выполняться в межъязыковых документах, хранящихся в памяти и еще не анализированных, поиском межъязыкового текста в сети Internet с использованием агентов поиска в Web и других поисковых механизмов и, в конечном счете, обращением к пользователю с запросом вставить недостающую ассоциацию на основании результатов анализа запроса и из-за отсутствия достаточного межъязыкового материала. В соответствии с вышеизложенным настоящее изобретение работает таким образом, чтобы анализировать словосочетания в зависимости от правильности размещения слов (в данном словосочетании), и может работать так, чтобы учитывать контекст выбираемого слова, а также такие грамматические осо-7 007776 бенности, как построение фраз, стиль или сокращения. Эти ассоциации к словосочетаниям полезны также при использовании способа перевода с двойным перекрытием, которому соответствует нижеописанная процедура перевода. Следует отметить, что настоящее изобретение способно работать, когда поднабор слов или словосочетаний, принадлежащий более длинному словосочетанию, постоянно выдается как ассоциация к более длинному словосочетанию. В соответствии с настоящим изобретением такие конфигурации учитываются посредством обработки частот выдачи. Например, имена собственные иногда приводят полностью (например, Джон Доу ("John Doe", но с использованием в полном имени сокращения имени или фамилии (Джон ("John") или Доу ("Doe" либо с другим сокращением (г-н Доу ("Mr. Doe". Поскольку настоящее изобретение, вероятнее всего, будет выдавать отдельные слова, а не словосочетания(т.е. будет чаще выдавать имя или фамилию, чем словосочетание Джон Доу ("John Doe") полного имени), потому что слова, которые составляют словосочетание, неизбежно будут подсчитываться отдельно,а также как часть фразы, то будет применяться механизм изменения ранга. Например, в любом документе словосочетание Джон Доу ("John Doe") может появиться 100 раз, имя Джон ("John") само по себе или в составе словосочетания Джон Доу ("John Doe") может появиться 120 раз, а фамилия Доу("Doe") само по себе или в составе словосочетания Джон Доу ("John Doe") может появиться 110 раз. В нормальном режиме выдачи перевода (в соответствии с настоящим изобретением) Джон ("John") будет иметь ранг выше, чем Доу ("Doe"), а оба данных слова будут иметь ранг выше, чем словосочетание Джон Доу ("John Doe"), при осуществлении всех попыток анализа словосочетания Джон Доу ("JohnDoe"). Вычитание числа появлений более длинного словосочетания из числа появлений поднабора (или отдельных выдаваемых результатов) позволяет добиться надлежащего упорядочивания (хотя для получения аналогичного результата, конечно, можно применить другие способы). Следовательно, вычитание 1 сотни (числа появлений словосочетания Джон Доу ("John Doe" из 120 (число появлений слова Джон ("John" дает точный результат для слова Джон ("John"), равный 20. Применение данного анализа дает число появлений, равное 100, для словосочетания Джон Доу ("John Doe") (при анализе и попытке перевести данное словосочетание), 20 для слова Джон ("John") и 10 для словосочетания Доу("Doe"), и таким образом обеспечивает создание правильных ассоциаций. Следует также отметить, что упомянутая проблема не ограничена именами собственными и часто возникает в общих фразах и многих разных контекстах. Например, каждый раз при переводе словосочетания Я люблю Вас ("I love you") в качестве наиболее часто ассоциируемого с ним словосочетания на другом языке возможно независимое ассоциирование слова к слову любить ("love") в упомянутом другом языке. Кроме того, когда словосочетание переводят по другому в другом анализируемом тексте, то вновь возможно ассоциирование слова любить ("love"). Это будет искажать анализ и приводить к выдаче слова любить ("love") на втором языке вместо словосочетания Я люблю Вас ("I love you") на втором языке в качестве перевода словосочетания "I love you" с первого языка. Поэтому система вновь вычитает число появлений ассоциаций к более длинному словосочетанию из частоты ассоциаций ко всем остальным поднаборам при определении ранга ассоциаций к более длинному словосочетанию. Данные принципы отражены также на фиг. 1. Кроме того, в базу данных можно заложить инструкцию игнорировать общие слова типа личного местоимения "it", неопределенных артиклей "an" и "а", предлога "of", наречия "as", предлога "in" и т.п. или любых общих слов при подсчете частот ассоциаций к словам или словосочетаниям. Такой подход обеспечит более точное отражение истинных численных значений частот ассоциаций, которые в другом случае будут искажаться из-за множества общих слов, появляющихся в составе любого данного интервала. Данное решение позволяет процедуре создания ассоциативной базы данных по настоящему изобретению не допускать искажения анализа из-за общих слов, причем без излишних вычислений необходимых вычитаний. Следует отметить, что, если данные или любые другие общие слова не вычитать из ассоциативной базы данных, они в конечном итоге, все равно, не будут приняты для перевода, если не будут уместными, потому что их отвергнет процедура с двойным перекрытием, подробное описание которой приведено ниже. Следует отметить возможность выполнения других вычислений с целью корректировки частот ассоциаций с тем, чтобы обеспечить точное отражение числа совместных появлений слов или словосочетаний. Например, ввод поправки, исключающей двойной подсчет, возможно, был бы целесообразен в ситуации перекрытия интервалов анализируемых слов. Ввод поправок желателен в данных случаях для того, чтобы составить более точные частоты ассоциаций. Ниже рассмотрен типичный вариант осуществления способа и устройства для создания и дополнения межпонятийной базы данных в соответствии с настоящим изобретением на основе двух документов, ранее использованных в качестве примера; причем далее восстановлена таблица, содержащая упомянутые документы. Таблица 1-8 007776 Следует еще раз отметить, что, хотя в соответствии с настоящим вариантом осуществления изобретения поиск повторяющихся слов и словосочетаний осуществляется только в одном документе, данная процедура представлена лишь для иллюстрации. Анализ повторяющихся слов и словосочетаний будет выполняться с использованием всей совокупности параллельных и сопоставимых текстов. При использовании двух вышеуказанных документов (документа А на первом языке и документа В на втором языке) процедура создания базы данных содержит следующие этапы. Этап 1. Во-первых, определяются размер и местоположение интервала. Выше указано, что размер и местоположение могут быть заданы пользователем или приближенно определены разными способами. Количества слов в обоих документах приблизительно равны (10 слов в документе А, 8 слов в документе В),поэтому середину интервала целесообразно поместить в позицию, совпадающую с местоположением слова или словосочетания в документе А. (Примечание: поскольку соотношение количеств слов в документах равно 80%, то в соответствии с другим вариантом местоположение интервала можно задать на основе отношения 4/5.) В данном примере размер или значение 3 для интервала может обеспечить наилучшие результаты для аппроксимации графика нормального распределения; тогда интервал в начале и конце документа будет равен (+/-)1, а в середине документа - (+/-)2. Однако в соответствии с вышеизложенным интервал (или способ, используемый для определения интервала) может быть задан только пользователем. Этап 2. Далее, осуществляются анализ первого слова в документе А и просмотр документа А с целью определения числа появлений данного слова в документе. В настоящем примере первым словом в документе А является X: X повторяется 3 раза в документе А, в позициях 1, 4 и 9. Номера позиций слова или словосочетания являются просто местоположением данного слова или словосочетания в документе относительно других слов. Следовательно, номера позиций соответствуют номерам слов в документе, но без учета пунктуации; например, если документ содержит 10 слов, а слово король ("king") появляется дважды, то номера позиций слова король ("king") являются всего лишь местами (в последовательности из 10 слов), на которых появляется данное слово. Поскольку слово X появляется в документе больше 1 раза, процедура переходит к следующему этапу. Если бы слово X появилось только 1 раз, то данное слово было бы пропущено, продолжением процедуры был бы переход к следующему слову и процедура создания продолжалась бы. Этап 3. Выдаются возможные переводы на второй язык для первого слова X в позиции 1: интервальная обработка документа В дает слова в позициях 1 и 2 (1 +/-1) в документе В: АА и ВВ (расположенные в позициях 1 и 2 документа В). Выдаются все возможные комбинации как потенциальные переводы или подходящие ассоциации к X: АА, ВВ и АА ВВ (как объединение в словосочетание). Следовательно, в ответ на X1 (первое появление слова X) выдаются АА, ВВ и АА ВВ в качестве ассоциаций. Этап 4. Выполняется анализ следующей позиции слова X. Данное слово (Х 2) появляется в позиции 4. Поскольку позиция 4 находится вблизи центра документа, интервал (установленный вышеописанным способом) будет представлен 2 словами с каждой стороны от позиции 4. Возможные ассоциации выдаются при рассмотрении слова 4 в документе В и использовании интервала (+/-)2, т.е. в результат выдаются 2 слова, находящиеся перед словом 4, и 2 слова, находящиеся после слова 4. Следовательно, в результате выдаются слова в позициях 2, 3, 4, 5 и 6. Данные позиции соответствуют словам ВВ, СС, АА, ЕЕ и FF в документе В. Учитываются все прямые перестановки из данных слов (и словосочетания, полученные их объединением). В соответствии с вышеизложенным в ответ на Х 2 выдаются ВВ, СС, АА, ЕЕ, FF, ВВ СС,ВВ СС АА, ВВ СС АА ЕЕ, ВВ СС АА ЕЕ FF, СС АА, СС АА ЕЕ, СС АА ЕЕ FF, АА ЕЕ, АА ЕЕ FF и ЕЕFF как возможные ассоциации. Этап 5. Результаты, выданные в ответ на первое появление X (в позиции 1), сличаются с результатами, выданными в ответ на второе появление X (в позиции 4), и определяются совпадения. Следует указать, что выданные результаты, которые содержат одинаковое слово или словосочетание, появляющееся в месте перекрытия двух интервалов, следует сократить до одного появления. Например, в настоящем примере в позиции 2 находится слово ВВ; данное слово выдается в ответ как на первое появление X (при интервальной обработке), так и на второе появление X (при интервальной обработке). Поскольку данная неизменная позиция слова выдается в ответ как на X1, так и на Х 2, то считается, что слово появляется 1 раз. Однако если одно и то же слово выдается на участке перекрытия интервала, но с двух разных позиций слова, тогда слово подсчитывается дважды и регистрируется частота ассоциации. В данном случае результатом, выданным в ответ на слово X, является АА, поскольку данное слово (АА) появляется в обеих ассоциациях, выданных в ответ на X1 и Х 2. Следует отметить, что другим словом, которое появляется в обеих выданных ассоциациях, является ВВ; но согласно вышеизложенному, поскольку данное слово является одной и той же позицией (и потому является одним и тем же словом), достигаемой в процессе интервальных обработок при первом и втором появлениях X, данное слово можно отбросить.-9 007776 Этап 6. Анализируется следующая позиция слова X (позиция 9) (Х 3). Применение интервала (+/-)1 (вблизи конца документа) дает ассоциации в позициях 8, 9 и 10 документа В. Поскольку документ В содержит только 8 позиций, результаты усекаются и в качестве возможных значений для X выдается только слово в позиции 8: СС. (Примечание: в альтернативном варианте заданные пользователем параметры могли бы потребовать, по меньшей мере, 2 знака согласно условиям анализа, что привело бы к выдаче позиции 8 и следующей ближайшей позиции (которой является GG в позиции 7. Сличение выданных ассоциаций к Х 3 с выданными ассоциациями к X1 обнаруживает отсутствие совпадений и, следовательно, отсутствие ассоциаций. Этап 7. Анализируется следующее положение слова X; однако, слово X больше не появляется в документе А. С этого момента, слову X в языке А назначается частота ассоциации один (1) к слову АА в языке В. Этап 8. Поскольку слово X больше не появляется, то процедура предусматривает добавление 1 слова, после чего осуществляется проверка словосочетания. В данном случае анализируется словосочетание "X Y",т.е. первые 2 слова в документе А. Метод обработки данной фразы идентичен методу, описанному на этапах 2-7. Этап 9. При просмотре документа А очевидно, что словосочетание X Y появляется в нем только 1 раз. С этого момента процедура добавления прекращается, и создания базы данных не происходит. Поскольку достигнута конечная точка процедуры, то выполняется анализ следующего слова (указанная процедура выполняется всякий раз, когда не появляются совпадения для словосочетания); в данном случае словом в позиции 2 документа А является "Y". Этап 10. Применение процедуры, состоящей из этапов 2-7, для обработки слова "Y" дает следующий результат: слово Y появляется дважды (в позициях 2 и 7), и потому процедура создания базы данных продолжается (и здесь, если бы Y появилось в документе А только 1 раз, то анализ для Y не выполнялся бы); размер интервала в позиции 2 равен (+/-)1 слову; интервальная обработка документа В (для позиции 2, являющейся местоположением первого появления слова Y) выдает в результат позиции 1, 2 и 3 в документе В; соответствующими словами на иностранном языке в указанных выданных позициях оказываются АА, ВВ и СС; применение прямых перестановок дает для Y1 следующие возможности: АА, ВВ, СС, АА ВВ, АА ВВ СС и ВВ СС; анализируется следующая позиция слова Y (позиция 7); размер интервала в позиции 7 равен (+/-)2 слова; обработка данным интервалом документа В (в позиции 7) выдает позиции 5, 6, 7 и 8, а именно: ЕЕFF GG и СС; все перестановки дают следующие возможности для Y2: ЕЕ, FF, GG, СС, ЕЕ FF, ЕЕ FF GG, ЕЕ FFGG СС, FF GG, FF GG СС и GG СС; подбор совпадающих результатов из множества для Y1 дает только одно совпадение: СС; объединение совпадений для Y1 и Y2 дает СС как частоту ассоциаций для Y. Этап 11. Добавление в конце интервала: поскольку единственное возможное совпадение для слова Y (слово СС) появляется в конце интервала, соответствующего первому появлению Y (СС появилось в позиции 3 документа В), то интервал, соответствующий первому появлению, наращивается на 1, и в результате выдаются позиции 1, 2, 3 и 4: АА, ВВ, СС и АА; или следующие прямые перестановки: АА, ВВ, СС,АА ВВ, АА ВВ СС, АА ВВ СС АА, ВВ СС, ВВ СС АА и СС АА. Применение данного результата все также дает СС как возможный перевод для Y. Следует отметить, что добавление к интервалу выполняется потому, что выданное совпадение находилось в конце интервала, соответствующего первому появлению (основному появлению для слова "Y"); т.е. каждый раз, когда будет возникать данная картина, то,чтобы обеспечить полноту, будет выполняться подэтап (или альтернативный этап) добавления в конце интервала. Этап 12. Поскольку "Y" больше не появляется в документе А, то в соответствии с процедурой анализа в документе А добавляется 1 слово и анализируется словосочетание "Y Z" (добавляется следующее слово за словом Y). Добавление следующего слова до словосочетания (Y Z) и повторение процедуры дают следующий результат: словосочетание Y Z дважды появляется в документе А: в позициях 2 и 7. Возможностями для Y Z при первом появлении (Y Z1) являются АА, ВВ, СС, АА ВВ, АА ВВ СС, ВВ СС (следует отметить, что в альтернативном варианте параметры интервала могли быть заданы таким образом, чтобы предусматривать расширение размера интервала по мере того, как словосочетания, анализируемые на- 10007776 языке А, становятся длиннее). Возможностями для Y Z при втором появлении (Y Z2) являются ЕЕ, FF, GG, CC, ЕЕ FF, ЕЕ FF GG,ЕЕ FF GG CC, FF GG FF GG CC и GG CC. Поиск совпадений дает СС как возможную ассоциацию к словосочетанию Y Z. Расширение интервала (добавление в конце интервала) дает для Y Z следующие результаты: АА,ВВ, СС, АА ВВ, АА ВВ СС, АА ВВ СС АА, ВВ СС, ВВ СС АА и СС АА. Применение данных результатов все также дает СС как частоту ассоциации для словосочетания Y Z. Этап 13. Поскольку "Y Z" больше не появляется в документе А, то в соответствии с процедурой анализа в документе А добавляется 1 слово и анализируется словосочетание "Y Z X" (добавляется следующее слово за словом Z в позиции 3 в документе А). Добавление следующего слова до словосочетания (Y Z X) и повторение процедуры (Y Z X дважды появляется в документе А) дает следующий результат: первому появлению Y Z X соответствуют выдаваемые позиции 2, 3, 4 и 5; перестановки имеют вид: ВВ, СС, АА, ЕЕ, ВВ СС, ВВ СС АА, ВВ СС АА ЕЕ, СС АА, СС АА ЕЕ и АА ЕЕ; второму появлению Y Z X соответствуют выдаваемые позиции 5, 6, 7 и 8; перестановки имеют вид: ЕЕ, FF, GG, СС, ЕЕ FF, ЕЕ FF GG, ЕЕ FF GG CC, FF GG, FF GG СС и GG СС. сличение двух данных результатов дает СС как частоту ассоциаций для словосочетания Y Z X; и вновь следует отметить, что слово ЕЕ, выданное в качестве возможной ассоциации, отбрасывается, поскольку оно в обоих случаях появляется как одно и то же слово (т.е. на той же самой позиции). Этап 14. Добавление следующего слова до словосочетания (Y Z X W) дает только одно появление; поэтому создание базы данных словосочетаний завершается и анализируется следующее слово: Z (позиция 3 в документе А). Этап 15. Применение вышеописанных этапов для обработки слова Z, которое появляется 3 раза в документе А, дает следующее: для Z1 выдаются следующие результаты: АА, ВВ, СС, АА, ЕЕ, АА ВВ, АА ВВ СС, АА ВВ СС АА,АА ВВ СС АА ЕЕ, ВВ СС, ВВ СС АА, ВВ СС АА ЕЕ, СС АА, СС АА ЕЕ и АА ЕЕ; для Z2 выдаются следующие результаты: FF, GG, СС, FF GG, FF GG СС и GG СС; сличение результатов для Z1 и Z2 дает СС как частоту ассоциаций для Z; для слова Z3 (позиция 10) нет результатов в заданном интервале. Однако, если в параметры внести дополнение, что должно существовать, по меньшей мере, одно соответствие для каждого слова или словосочетания в языке А, то в ответ на Z будет выдано СС; сличение результатов для Z3 с результатами для Z1 дает СС в качестве частоты ассоциации к словуZ. Однако данная ассоциация не подсчитывается, так как СС в позиции 8 слова уже учтено в вышеприведенной ассоциации к Z2. Если перекрытие интервала потребует от процедуры дважды подсчитать появления, система может уменьшить частоту ассоциаций, чтобы точнее отразить число истинных появлений. Этап 16. Добавление следующего слова до словосочетания дает словосочетание Z X, которое дважды появляется в документе А. Обработка словосочетания Z X согласно вышеописанным этапам дает следующее: для Z X1 выдаются следующие результаты: ВВ, СС, АА, ЕЕ, FF, ВВ СС, ВВ СС АА, ВВ СС АА ЕЕ,ВВ СС АА ЕЕ FF, СС АА, СС АА ЕЕ, СС АА ЕЕ FF, АА ЕЕ, АА ЕЕ FF и ЕЕ FF; для Z X2 выдаются следующие результаты: FF, GG, СС, FF GG, FF GG СС и GG СС; сличение результатов дает ассоциацию между словосочетанием Z X и СС. Этап 17. Добавление следующего слова дает фразу Z X W. Данная фраза появляется только 1 раз, поэтому в документе А выполняется анализ следующего слова (X). Этап 18. Анализ слова X уже выполнялся в первой позиции. Однако вторая позиция слова X, связанная с другим документом, еще не подвергалась анализу на предмет выдачи возможных результатов для словаX. Следовательно, в данном случае, т.е. при продвижении вперед по документу, слово X (во второй позиции) обрабатывается как при первом появлении слова X: для X в позиции 4 выдаются следующие результаты: ВВ, СС, АА, ЕЕ, FF, ВВ СС, ВВ СС АА, ВВ СС АА ЕЕ, ВВ СС АА ЕЕ FF, СС АА, СС АА ЕЕ, СС АА ЕЕ FF, АА ЕЕ, АА ЕЕ FF и ЕЕ FF. для X в позиции 9 выдаются следующие результаты: СС. сличение результатов позиции 9 с результатами позиции 4 дает СС как возможное совпадение для слова X, и ему задана частота ассоциации. Этап 19. Добавление следующего слова до словосочетания (поскольку при просмотре документа в прямом направлении больше не обнаруживаются появления X для сравнения со вторым появлением X) дает сло- 11007776 восочетание X W. Однако данное словосочетание не появляется больше 1 раза в документе А, поэтому процедура переходит к анализу следующего слова (W). Слово "W" появляется в документе А лишь 1 раз,поэтому происходит переход на шаг, но не к следующему словосочетанию, ведь слово "W" появилось только однажды, а к следующему слову в документе А, слову "V". Слово "V" появляется в документе А лишь 1 раз, поэтому выполняется анализ следующего слова (Y). Слово "Y" не появляется ни в одной другой позиции с порядковым номером больше позиции 7 в документе А, поэтому выполняется анализ следующего слова (Z). Слово "Z" появляется еще раз после позиции 8, а именно в позиции 10. Этап 20. Применение вышеописанной процедуры для обработки слова Z при втором появлении дает следующие результаты: для Z в позиции 8 выдаются следующие результаты: GG, СС и GG СС; для Z в позиции 10 выдаются следующие результаты: СС; сличение результатов в позиции 10 с результатами в позиции 8 не дает ассоциаций к слову Z. И вновь слово СС выдается как возможная ассоциация; но поскольку СС представляет одну и ту же позицию слова, которая достигается при анализе слова Z в позиции 8 и слова Z в позиции 10, то данная ассоциация отбрасывается. Этап 21. Добавление одного слова дает словосочетание Z X; но данное словосочетание больше не появляется ни в одной (в прямом направлении) позиции в документе А, поэтому процедура начинается заново на следующем слове в документе А, слове "X". Слово X не появляется больше ни в одной другой (в прямом направлении) позиции документа А, поэтому процедура начинается заново. Однако достигнут конец документа А, поэтому анализ прекращается. Этап 22. Окончательная частота ассоциации вносится в таблицу, сочетающую все результаты вышеописанной процедуры и вычитающую дублированные результаты в соответствии с описанием. Очевидно, объем данных не достаточен для того, чтобы выдать заключительные результаты для слов и словосочетаний в документе А. По мере того, как будет увеличиваться число пар анализируемых документов, содержащих слова и словосочетания вместе с вышепроанализированными ассоциациями,частоты ассоциаций будут становится статистически более надежными, так что взаимосвязанные слова или словосочетания в языках А и В построят сильные ассоциации для возможных переводов слов и словосочетаний. Программа 1 (Program1), приведенная в прилагаемом листинге компьютерных программ, является примером программы, предназначенной для осуществления варианта способа создания базы данных. Программа 1 (Program1) может исполняться компьютерной системой известного в технике типа. Как показано, данный вариант осуществления является характерным для способа, используемого с целью создания ассоциаций. Методики в соответствии с настоящим изобретением не обязательно ограничиваются только языковым переводом. В широком смысле, данные методики будут применимы к любым двум выражениям одного и того же понятия, которые можно ассоциировать, поскольку, по своей сути, перевод на иностранный язык или с него существует просто как парная ассоциация одного и того же понятия, представленного разными словами или словосочетаниями. В соответствии с вышеизложенным настоящее изобретение может применяться для ассоциирования данных, звуков, музыки, видеоданных или любого общего представления, которое существует в форме понятия, в том числе понятий, которые могут представлять сенсорные (слуховые, визуальные, обонятельные и т.д.) ощущения. В соответствии с настоящим изобретением требуется только выполнять два варианта реализации (в языковом переводе вариантами реализации являются документы; в музыке вариантами реализации могут быть цифровые представления музыкальных партитур и звуковых частот, обозначающих одно и то же сочинение,и т.п.). В соответствии с другим вариантом осуществления некоторые широко известные в технике алгоритмы, основанные на правилах, можно включать в межъязыковую ассоциацию, самообучающуюся обработке определенных классов текстов, которые по контексту и смыслу являются взаимозаменяемыми (и иногда могут иметь потенциально неограниченное число производных), например имен, чисел и дат. Кроме того, если доступные межъязыковые документы не обеспечивают статистически значимых результатов для перевода, то пользователи могут анализировать возможные альтернативы для переводов и других ассоциаций и одобрять и классифицировать по рангам соответствующие варианты выбора. В соответствии с вышеизложенным частоты ассоциаций между словами и словосочетаниями становятся строже, по мере того, как все больше документов в форме переведенных пар подвергаются анализу с целью оценки частот ассоциаций. С увеличением числа языковых пар документов, подвергаемых анализу, способ и устройство в соответствии с настоящим изобретением начнут наполнение выведенными ассоциациями между языковыми парами, состоящими из таких языков, которые имеют общую ассоциацию с третьим языком, но не имеют ассоциации непосредственно между собой. Кроме того, когда переведенные документы существуют на нескольких языках, общие выданные ассоциации можно анализировать в нескольких языках, до нахождения только одной общей ассоциации между всеми языками, кото- 12007776 рая является переводом. Программа Program2, приведенная в приложении листинга компьютерных программ, является примером компьютерной программы, которая, при исполнении на компьютерной системе известного в технике типа, представляет способ, в соответствии с которым данные на упомянутых языках применяются в варианте осуществления настоящего изобретения. Кроме того, если отображениям в существующих состояниях искусственно присваивать конкретные ассоциации с частными значениями в другом состоянии и включать данные отображения в каталог базы данных, то можно производить преобразования между двумя состояниями. Например, если каждому понятию, представленному в какой-то форме, состоянии или на каком-то языке, присваивать ассоциацию с электромагнитной волной (тоном), то будет создано электромагнитное представление понятия. Когда заданное число понятий закодировано соответствующими электромагнитными представлениями, данные (в форме понятия) можно преобразовывать в электромагнитные волны и мгновенно передавать с использованием обычной телекоммуникационной инфраструктуры. Когда электромагнитные волны достигают устройства, для которого они предназначены, это устройство будет синтезировать из электромагнитных волн отдельные компоненты и, с учетом ассоциаций (вместе с инструкциями по упорядочиванию, использованием метода двойного перекрытия, изложенного в настоящем описании, и/или других возможных способов), будет представлять отдельные понятия, которые были представлены в виде электромагнитных волн. Способ и устройство для преобразования понятий Другой аспект настоящего изобретения заключается в предложении способа и устройства для создания второго документа, содержащего данные во втором состоянии, форме или на втором языке, из первого документа, содержащего данные в первом состоянии, форме или на первом языке, и получения конечного результата, состоящего в том, что первый и второй документы отражают, по существу, те же самые понятия или информацию; при этом способ и устройство содержат межпонятийную ассоциативную базу данных. Чтобы обеспечить точное преобразование понятий из одного состояния в другое состояние, все варианты осуществления способа перевода используют метод двойного перекрытия. Напротив, известные устройства перевода работают на основе перевода отдельных слов или используют специальные, основанные на правилах коды для облегчения перевода с первого языка на второй язык. В соответствии с настоящим изобретением использование метода перекрытия позволило бы органично связывать между собой слова и словосочетания на втором языке так, чтобы они становились точным переводом с обеспечением для них правильного контекста и точного стиля, в которых данные слова и фразы записывались бы на втором языке. В соответствии с вариантом осуществления настоящего изобретения, чтобы обеспечить точный языковый перевод, сочетают способ создания базы данных и метод перекрытия. Языки могут представлять собой любой вид преобразования и не обязательно ограничиваются разговорными и письменными языками. Например, преобразование может относиться к компьютерным языкам, специальным кодовым наборам типа ASCII и т.п. База данных является динамической; т.е. база данных расширяется по мере того, как контент вводят в систему перевода, с использованием системой перевода в процессе последовательных итераций ранее введенной информации. В соответствии с предпочтительным вариантом осуществления настоящего изобретения применяется вычислительное устройство, например компьютерная система на базе персонального компьютера известного в технике и широкодоступного типа. Однако система не нуждается в использовании упомянутого вычислительного устройства и может быть легко реализована другими средствами, включая ручное создание базы данных и способы перевода. Настоящее изобретение можно использовать с обычной компьютерной системой, содержащей, по меньшей мере, средство отображения, способ ввода и вывода и процессор. Средство отображения может представлять собой любое из широкодоступных в технике средств, например терминалы на базе электроннолучевых трубок, жидкокристаллические дисплеи, плоские индикаторные панели и т.п. Процессорное средство также может представлять собой любое из широкодоступных устройств, используемых в составе компьютерного оборудования, с условием, чтобы примененное средство позволяло компьютеру в процессе работы реализовать настоящее изобретение. И, наконец, используемый способ ввода должен допускать ввод документов с целью построения перекрестно-ассоциативной базы данных; при этом в соответствии с вышеизложенным конкретный способ ввода, предназначенный для преобразования в цифровую форму, может изменяться в зависимости от потребностей пользователя. Ручное создание базы данных и перевод с использованием метода двойного перекрытия Ниже приведено описание типичного варианта осуществления таких способа и устройства для перевода документа с первого языка на второй язык в соответствии с настоящим изобретением, в которых межъязыковая база данных создается посредством обращения к пользователю с запросами на перевод слов и словосочетаний, а также автоматического формирования переводов сегментов с использованием метода двойного перекрытия. В целях описания предпочтительного варианта осуществления изобретения ниже использован пример, в котором данные на английском языке переводят в данные на иврите. Данные условия выбраны исключительно в описательных целях и не предполагают возможность ограничения выбора первого и второго языков.- 13007776 В соответствии с предпочтительным вариантом осуществления настоящего изобретения компьютерная система действует так, чтобы создавать базу данных ассоциаций между переводами с английского языка на иврит. Способ перевода содержит, по меньшей мере, следующие этапы. Во-первых, данные на английском языке вводят в компьютерную систему. Во-вторых, все введенные слова на английском языке сначала анализируются пословно. База данных выдаст известные переводы слов на иврит. Если перевод не содержится в базе данных, то компьютерная система будет действовать таким образом, чтобы запрашивать пользователя о вводе соответствующего перевода. Следовательно, если базе данных не известен эквивалент на иврите введенному английскому слову, то компьютер запросит пользователя предоставить соответствующий эквивалент на иврите. Тогда пользователь выдаст перевод и введет упомянутый перевод в базу данных. При последующем использовании компьютерная система будет работать с базой данных таким образом, чтобы перевод был известен в силу его ввода пользователем в предыдущий момент времени. Следовательно, на втором этапе выполняется анализ входных данных в синтаксически разобранном состоянии, например пословно,и соответствующие переводы либо выдаются (благодаря работе с базой данных), либо вводятся в базу данных. В-третьих, выполняется анализ входных данных таким образом, чтобы дополнить синтаксически разобранные сегменты. Например, если данные сначала прошли пословный синтаксический анализ, то далее способ перевода в соответствии с настоящим изобретением анализирует входные данные посредством оценки двухсловных словосочетаний. И вновь, в соответствии с вышеописанной процедурой база данных выдает переводы двухсловных словосочетаний, если они известны; если же указанные переводы не известны, то компьютерная система действует так, чтобы запрашивать пользователя о вводе соответствующего перевода для всех возможных двухсловных словосочетаний. Затем все перекрывающиеся двухсловные сегменты записываются в базу данных. Например, если словосочетание содержит 4 слова,то база данных удостоверяется в том, записаны ли в память базы следующие сочетания: 1,2, 2,3 и 3,4. Если нет, то база данных обращается с запросом к пользователю. Следует отметить, что только специально кодированные переводы двухсловных сочетаний будут выдаваться как точные переводы, даже несмотря на то, что база данных будет обязательно содержать определение для каждого слова в силу выполнения вышеописанного второго этапа. В-четвертых, если переводы на иврит двух перекрывающихся двухсловных английских словосочетаний содержат перекрывающееся слово (или слова), то система действует таким образом, чтобы сочетать перекрывающиеся сегменты. Избыточные сегменты на иврите в области перекрытия исключаются,чтобы сформировать осмысленный перевод английских трехсловных словосочетаний, которые создаются сочетанием двух перекрывающихся словосочетаний на английском языке (и исключением избыточных слов в области перекрытия на английском языке). Вышеописанные этапы повторяются от 1 раза до бесконечного множества раз (n), чтобы обеспечить подходящий перевод. Способ перевода работает автоматически посредством проверки непротиворечивых словосочетаний, которые соединяют кодированные группы слов на обоих языках по зонам перекрытия. Указанные автоматически выполняемые одобрения связок, которые заполняют зоны перекрытия и непротиворечивы в обоих языках, обеспечивают создание языковой сети, которая преобразуется из одного языка в другой язык с идеальной точностью после того, как база данных достигает критической массы. Рассмотрим, например, английскую фразу "I want to buy a car" (Я хочу купить автомобиль). После обработки способом в соответствии с настоящим изобретением данная фраза будет введена в управляемую компьютером базу данных. Компьютер будет действовать таким образом, чтобы определить, содержит ли база данных эквиваленты на иврите к следующим словам: "I", "want", "to", "buy", "а" и "car". Если данные эквиваленты известны, то компьютер выдаст эквиваленты на иврите. Если данные эквиваленты не известны, то компьютер обратится с запросом к пользователю предоставить соответствующие переводы на иврит и введет в память полученные переводы для будущего использования. Затем компьютер лексически разберет предложение на двухсловные сегменты с перекрытием: "I want", "want to", "to buy","buy а" и "a car". Компьютер будет действовать так, чтобы выдать эквиваленты на иврите к приведенным сегментам (т.е. эквиваленты на иврите к "I want" и т.д.); если данные эквиваленты на иврите не известны,тогда компьютер запросит пользователя предоставить соответствующие переводы на иврит и введет данные переводы в память для будущего использования. Затем в соответствии с настоящим изобретением будут проанализированы трехсловные сегменты "Iwant to", "want to buy", "to buy а" и "buy a car". В данной точке процедуры в соответствии с настоящим изобретением делается попытка сочетать каждую из пар переводов на иврит, у которых двухсловные английские переводы перекрываются и сочетаются, чтобы запросить перевод трехсловных английских словосочетаний (например, "I want" и "want to" сочетаются с образованием "I want to"). Если сегменты на иврите содержат общую зону перекрытия, которая также связывает их, то способ перевода автоматически утверждает преобразование трехсловного английского словосочетания на иврит как перевод без вмешательства пользователя. Если сегменты на иврите не перекрываются и не сочетаются, то пользователю направляется запрос на точный перевод. После попыток подходящего перевода трехсловных английских словосочетаний процедура переходит к четырехсловным словосочетаниям и т.д. и делает по- 14007776 пытку посредством межъязыкового перекрытия автоматически выделить сочетания переводов, пока не закончится анализируемый сегмент (в рассматриваемом случае вся фраза "I want to buy a car"). В соответствии со способом по настоящему изобретению после выполнения описанного лексического анализа производится сличение выданных переводных эквивалентов, исключаются избыточность в местах перекрытия сегментов и переведенная фраза выводится для пользователя. Перевод документов с использованием базы данных и метода двойного перекрытия В соответствии с другим предпочтительным вариантом осуществления настоящего изобретения документ, составленный на первом языке, можно преобразовать в документ на втором языке с использованием вышеописанной межъязыковой базы данных, чтобы обеспечить в виде словосочетаний переводы слов и словосочетаний, содержащихся в документе, а затем сочетать перекрывающиеся словосочетания на втором языке для создания перевода документа с использованием вышеописанного метода межъязыкового двойного перекрытия. Например, рассмотрим базу данных с доступом к достаточному числу межъязыковых документов, чтобы выделить компоненты нижеследующего предложения, введенного на английском языке и предназначенного для перевода на иврит: "In addition to my need to be loved by all theteam." Посредством выполнения вышеописанной процедуры способ обработки может определить, что фраза "In addition to my need to be loved by all the girls" является самым длинным словосочетанием в исходном документе, начинающимся с первого слова исходного документа и существующим в базе данных. Данная фраза ассоциирована в базе данных со словосочетанием на иврите "benosaf ltzorech shelilihiot ahuv al yeday kol habahurot". Затем процедура определит следующие переводы с использованием вышеописанного способа, т.е. самое большое английское словосочетание из подлежащего переводу текста (и существующее в базе данных) с одним словом (или, в соответствии с другим вариантом, несколькими словами), которое(ые) перекрывается(ются) с ранее выявленным английским словосочетанием, и два перевода на иврит для этих перекрывающихся английских словосочетаний, также с перекрывающимися сегментами: "loved by all the girls in town" переводится как "ahuv al yeday kol habahurot buir"; "thetov sh hay paam sihek bekvutzat hakadursal shel medinat new york". При наличии приведенных результатов, выданных базой данных, обработка будет выполняться таким образом, чтобы сличить перекрывающиеся слова и словосочетания и исключить избыточные компоненты. В соответствии с этим "In addition to my need to be loved by all the girls" переводится как "benosafyeday kol habahurot buir". При использовании способа по настоящему изобретению система примет сегменты на английском языке "In addition to my need to be loved by all the girls" и "loved by all the girls intown" и выдаст сегменты на иврите "benosaf ltzorech sheli lihiot ahuv al yeday kol habahurot" и "ahuv alyeday kol habahurot buir", а также определит перекрытие. На английском языке фразы имеют вид: "In addition to my need to be loved by all the girls" и "loved byall the girls in town". Удаление перекрытия дает: "In addition to my need to be loved by all the girls in town". На иврите фразы имеют вид: "benosaf ltzorech sheli lihiot ahuv al yeday kol habahurot" и "ahuv al yedaybuir". Затем в соответствии с настоящим изобретением обрабатывается следующий синтаксически разобранный сегмент, и тем самым процедура продолжается. В настоящем примере процедура обработки применяется к фразе "the girls in town, I always wanted to be known". Система выделяет английский сегмент "In addition to my need to be loved by all the girls in town" и новый набор английских слов "the girls intown, I always wanted to be known". Соответствующими наборами слов на иврите являются "benosafltzorech sheli lihiot ahuv al yeday kol habahurot buir" и новый соответствующий набор слов на иврите "habahurot buir, tamid ratzity lihiot yahua". Удаление перекрытия на английском языке превращает две фразы:"In addition to my need to be loved by all the girls in town" и "the girls in town, I always wanted to be known" в одну фразу "In addition to my need to be loved by all the girls in town, I always wanted to be known". На иврите процедура перекрытия работает следующим образом. Две фразы: "benosaf ltzorech sheliltzorech sheli lihiot ahuv al yeday kol habahurot buir, tamid ratzity lihiot yahua". В соответствии с настоящим изобретением обработка вышеописанного типа продолжается со словами и словосочетаниями, остающимися в подлежащем переводу документе. Поэтому в данном примере предпочтительного варианта осуществления изобретения следующими английскими словосочетаниями являются "In addition to my need to be loved by all the girls in town, I always wanted to be known" и "I alwayswanted to be known as the best player". Переводами на иврит, выданными базой данных для приведенных фраз, являются "benosaf ltzorech sheli lihiot ahuv al yeday kol habahurot buir, tamid ratzity lihiot yahua" и"tamid ratzity lihiot yahua bettor hasahkan hachi tov". Удаление перекрытия на английском языке дает: "Inaddition to my need to be loved by all the girls in town, I always wanted to be known as the best player". Удаление перекрытия на иврите дает: "benosaf ltzorech sheli lihiot ahuv al yeday kol habahurot buir, tamid ratzitylihiot yahua bettor hasahkan hachi tov". При продолжении процедуры следующим словосочетанием является "In addition to my need to bethe New York State basketball team". Соответствующими фразами на иврите являются "benosaf ltzorechhachi tov sh hay paam sihek bekvutzat hakadursal shel medinat new york". Удаление перекрытия на английском языке дает: "In addition to my need to be loved by all the girls in town, I always wanted to be known asthe best player to ever play on the New York state basketball team". Удаление перекрытия на иврите дает фразу: "benosaf ltzorech sheli lihiot ahuv al yeday kol habahurot buir, tamid ratzity lihiot yahua bettor hasahkanhachi tov sh hay paam sihek bekvutzat hakadursal shel medinat new york", которая является переводом текста, ранее предложенного для перевода. По окончании данной процедуры в соответствии с настоящим изобретением переведенный окончательный текст выдается и выводится. Следует отметить, что выдаваемые результаты представляли собой окончательный результат обработки в базе данных, выдающей перекрывающиеся ассоциации в соответствии с вышеописанной процедурой. По ходу исполнения процедуры система, в конечном счете, не примет выданный на втором языке результат, который не содержит естественно согласующейся связки по перекрытию с прилегающими сегментами на втором языке. Если бы у какого-либо выданного результата на иврите не было точного перекрытия со смежным ассоциированным словосочетанием на иврите, то данный результат был бы отвергнут и заменен таким ассоциированным словосочетанием на иврите, которое перекрывается со смежными словосочетаниями на иврите. Программа Рrоgrаm3, приведенная в приложении листингов компьютерных программ, является примером программы для реализации варианта осуществления ручного создания базы данных и перевода с использованием метода двойного перекрытия. Программы могут исполняться на компьютерных системах известного в технике типа. Вышеописанный вариант осуществления, сочетающий использование межъязыковой ассоциативной базы данных с методом перевода на основе принципа межъязыкового двойного перекрытия, может применяться в других областях для повышения качества существующих технологий, с помощью которых пытаются отождествлять информацию, находящуюся в одном состоянии, с информацией в другом состоянии, например известных в технике программных средств распознавания речи и сканирующих устройств с оптическим распознаванием символов (OCR). Обе упомянутые технологии могут проверять результаты, полученные соответствующими системами, с использованием способов перевода в соответствии с настоящим изобретением. Если перевод не существует и поэтому предполагается ошибка, то пользователь может получить предупреждение и запрос, либо система может быть запрограммирована на поиск в базе данных таких близких альтернатив неперекрывающемуся переводу, которые давали бы перекрывающийся перевод. Все результаты, выдаваемые пользователю, конечно, подвергались бы обратному преобразованию на язык оригинала. В соответствии с другим вариантом осуществления настоящего изобретения предлагаются способ и устройство для создания ассоциативной базы данных на одном языке и способ и система для использования ассоциативной базы данных с целью представления ответов на запросы или поставленные пользователем вопросы. В соответствии с данным вариантом осуществления ассоциативная база данных может организовать и хранить информацию, которая позволяет определять и анализировать ассоциации между словами или словосочетаниями. Программа ассоциирования может реализовать некоторые способы по настоящему изобретению и может быть использована для построения базы данных по настоящему изобретению и для анализа информации, хранящейся в базах данных, с целью определения ассоциаций между словами или словосочетаниями. На фиг. 3 показана память 208 компьютерной системы 200, в которой хранится интеллектуальное приложение 302, программа 304 ассоциирования, базы данных 306 и операционная система 308 для доступа со стороны процессора 202. Программа 304 ассоциирования может быть независимой программой или неотъемлемой составной частью интеллектуального приложения 302. Программа 304 ассоциирования может анализировать базы данных 306, чтобы определять ассоциированные слова либо в ответ на запрос из интеллектуального приложения 302, либо в ответ на запрос,переданный непосредственно пользователем через устройство ввода. Система и способ выполняют этапы, на которых синтаксически анализируют текст документа, введенного в систему, и создают частотную ассоциативную базу данных, в которой сегменты синтаксически разобранного текста ассоциируются между собой на основании, например, частоты появления и позиции конкретного фрагмента относительно других фрагментов документа. Сегменты синтаксически разобранного текста могут содержать слова и словосочетания. Документы, используемые в соответствии с настоящим изобретением, могут храниться в документальной базе данных для облегчения доступа, синтаксического разбора и анализа документов. Слова и словосочетания, которые часто появляются в непосредственной близости друг от друга в- 16007776 документе, можно использовать в приложениях искусственного интеллекта или с развитой логикой, которые позволяют пользователю запрашивать систему для получения ответа на вопрос или выполнения действия. Цель использования ассоциативной базы данных по настоящему изобретению в интеллектуальных приложениях заключается в том, чтобы определять ассоциации по общему третьему слову или словосочетанию между или среди, по меньшей мере, двух слов или словосочетаний, выбранных интеллектуальным приложением. Пользователь может определять в документальной базе данных интервалы как любое число слов и/или словосочетаний вблизи каждого появления каждого выбранного слова и/или словосочетания. Затем система производит поиск слов и/или словосочетаний, которые являются общими для интервалов,т.е. общих третьих слов или словосочетаний. Частоты появлений общих третьих слов или словосочетаний в интервалах каждого выбранного слова или словосочетания можно сохранять в частотной ассоциативной базе данных, показанной в табл. 3 и 4. В соответствии с альтернативным вариантом местоположения и частоту появления слов, повторяющихся в документальной базе данных, можно сохранять в базе данных повторяющихся слов и словосочетаний, именуемой также в настоящем описании базой данных повторных появлений, пример которой показан в табл. 5. При использовании упомянутых баз данных программа 304 ассоциирования может устанавливать для третьих слов и словосочетаний связи самого высокого ранга, в которых участвуют, по меньшей мере, 2 слова или словосочетания, выбранные интеллектуальным приложением 302 на основании заданных пользователем весовых коэффициентов или других критериев. Построение ассоциативной базы данных в заданном пользователем интервале Предлагается способ построения ассоциативной базы данных одного типа, именуемой в настоящем описании частотной ассоциативной базой данных, которую можно применить к обработке документов на одном языке с целью построения базы данных связанных слов и словосочетаний на основе их близости друг к другу в тексте. Пример частотной ассоциативной базы данных приведен в табл. 3. Способ содержит следующие этапы.a. Собирают фонд текстов на одном языке в документальной базе данных", при этом, чем больше фонд, тем лучше.b. Производят поиск каждого слова или словосочетания с определением многократных появлений данного слова или словосочетания в документальной базе данных.c. Устанавливают заданное пользователем количество слов или словосочетаний с каждой стороны подлежащего анализу слова или словосочетания. Данное количество будет выполнять функцию интервала. Помимо того, что интервал задается определенным числом слов, его можно задать таким широким(всеми словами в конкретном тексте, в котором появляется слово или словосочетание) или таким узким(словосочетанием ограниченного размера в непосредственной близости от анализируемого слова или словосочетания), как может задать пользователь для конкретного применения.d. Определяют частоту, с которой каждое слово и словосочетание появляются в интервалах вблизи выбранного анализируемого слова или словосочетания, и, при необходимости, степень их близости к выбранному слову или словосочетанию. Ниже приведен пример построения ассоциации между большим числом документов на одном языке. Предложение 1 и предложение 2, показанные в табл. 2, представляют собой два предложения среди множества предложений в документальной базе данных и как весь фонд могут быть полностью проанализированы с вводом всех результатов в частотную таблицу. Таблица 2 Система выполнит поиск повторяющихся слов или словосочетаний. В двух данных предложениях повторяются только следующие слова и словосочетания: "I", "to", "the", "doctor", "and", "sneezing", "a","that", "flu", "are", "rest". Как указано в описании заявки 10/024473 на патент США, в некоторых случаях применения в- 17007776 систему можно заложить инструкцию рассматривать и игнорировать общие слова типа "I", "a", "to" и т.п. Однако данные общие слова будут рассматриваться и включаться в базу данных в случаях, обусловленных целью конкретного применения системы. Если общие слова игнорируются, то останутся: "Doctor","sneezing", "flu" и "rest". Если задано, что интервал содержит, например, до 30 слов с каждой стороны, то система зарегистрирует частоту появления каждого слова и словосочетания в пределах 30 слов от каждого из данных слов. Кроме того, система может также регистрировать близость каждого слова или словосочетания к анализируемому слову или словосочетанию. Поскольку каждое из данных слов появляется внутри интервала длиной 30 слов, начинающегося от каждого из других слов в обоих предложениях, то каждое слово имеет частоту, равную единице, совместного появления с каждым из других слов, как видно из табл. 3, в которой показан вариант осуществления частотной ассоциативной базы данных. Таблица 3 Кроме учета частоты, с которой слова или словосочетания появляются в любом месте в пределах интервалов, относящихся к анализируемым словам и словосочетаниям, можно построить ассоциативную базу данных на основании частот появления слов или словосочетаний на расстоянии, в точности равномX словам от анализируемого слова или словосочетания. В указанных случаях пользователю для конкретного применения потребуется точно задавать интервал в виде 1 слова или 1 словосочетания конкретной длины на точном расстоянии вблизи анализируемого слова или словосочетания. Например, система может анализировать документы, доступные в документальной базе данных,чтобы определить, содержат ли они фразу "go to the game" 10000 раз, и может найти фразу "до to thegame" в пределах 20-словного интервала, относящегося к слову "Jets" 87 раз. Кроме того, может определить, что фраза "go to the game" появилась в точности на расстоянии 7 слов перед словом "Jets" 8 раз(считая от первого слова "gо" словосочетания). Кроме того, можно регистрировать любое сочетание повторяющихся комбинаций слов и словосочетаний, построенное на основании общего числа слов в них. Например, в базу данных можно вводить число предложений в базе данных, в которых слово "Jets" появляется на расстоянии 3 слов перед фразой"go to the game", когда слово "tickets" появляется на расстоянии 9 слов после фразы "go to the game". Указанная комбинация может появляться 3 раза, и частоту появления данной комбинации слов в тексте можно использовать в приложении, которое выводит смысл понятия, чтобы либо способствовать в выдаче ответа на вопрос, заданный пользователем, либо способствовать в выполнении запроса пользователя. На основании предложения 1 и предложения 2 в табл. 2, можно создать частотную ассоциативную базу данных, показанную в табл. 4. Как видно из табл. 4, из повторяющихся слов в интервале предложения 1 и предложения 2 только слово "sneezing" повторяется дважды точно на расстоянии 4 слов после одного из анализируемых слов. Данные таблицы, показывающие точные повторяющиеся комбинации слов в тексте на основании их близости друг к другу, измеряемой числом слов между ними, могут создаваться индивидуально с использованием серии узко заданных интервалов. Если вышеописанный способ применяют для построения базы данных всех взаимосвязей по степени близости и частотности между всеми повторяющимися комбинациями слов в доступном тексте в соответствии с вышеприведенным описанием, то может потребоваться большое число вычислений. Многие взаимосвязи, которые строятся в результате выполнения данной комплексной процедуры, могут никогда не потребоваться для приложения. Нижеописанный метод предусматривает индексацию повторяющихся словосочетаний, чтобы избежать выполнения заранее обработки, которая может никогда не потребоваться. Нижеописанную процедуру индексации можно применить как процедуру, альтернативную вышеописанному способу автоматического определения ассоциаций по частоте и степени близости, и чтобы выполнять общий интервально-частотный анализ и анализ точных комбинаций на основании местоположений конкретного слова или словосочетания в интервале в соответствии с вышеприведенным описанием. Данный вариант осуществления изобретения является способом построения такой базы данных повторяющихся слов и словосочетаний (или базы данных повторных появлений), которая содержит местоположение каждого повторяющегося слова и словосочетания в документальной базе данных, при этом способ содержит следующие этапы. 1. Поиск повторных появлений всех слов и словосочетаний в доступном тексте. 2. Ввод в базу данных местоположений для каждого неоднократно появляющегося слова и словосочетания посредством фиксирования его позиции в каждом документе, в котором оно появляется, например отождествлением номера слова у первого слова в словосочетании и номера документа в документальной базе данных. В соответствии с альтернативным вариантом сохранять можно только номер документа в документальной базе данных для документа, в котором находится слово или словосочетание. В данном случае позицию слова или словосочетания можно определить при ответе на запрос. Табл. 5 является примером информационных элементов в базе данных повторных появлений. Как показано, каждое появление слова или словосочетания, обнаруженного, по меньшей мере,2 раза в документальной базе данных, будет прибавляться к подсчитанной частоте, а местоположение данного слова или словосочетания будет отмечаться обозначением позиции номером слова в документе,а также номером, присвоенным для идентификации документа, в котором слово появляется, или посредством использования любого другого идентификатора местоположения слова или словосочетания в документальной базе данных. Если база данных повторных появлений сформирована целиком и полностью (включая нумерованные позиции слов, а также номера документов) для всех документов в документальной базе данных, то информация о местоположении позволяет системе вычислять любые общие взаимосвязи по частоте или любые взаимосвязи по частоте появления конкретной комбинации слов, создаваемые в соответствии с вышеприведенным описанием. Кроме того, если база данных повторных появлений еще не построена, то система может на ходу анализировать частоты появления, по меньшей мере, в двух интервалах. Любое повторное появление слова или словосочетания, еще не внесенное в базу данных повторных появлений, можно включать в базу данных, пока система отвечает на запрос анализом непосредственно документов в документальной базе данных, чтобы дополнить анализ базы данных повторных появлений. После того как информацию,полученную непосредственным анализом документов в документальной базе данных, используют в конкретной задаче, для которой данная информация создавалась, информацию можно сохранить в базе данных повторных появлений для любого будущего использования. Выполняет ли система анализ частот появления (частотный анализ) с использованием базы данных повторных появлений, или на ходу строятся упомянутые взаимосвязи, в результате данных действий создается база данных ассоциаций слов и словосочетаний, которую могут применять интеллектуальные приложения. Как видно из фиг. 3, в рамках процедуры общего частотного анализа, интеллектуальное приложение 302 может запрашивать частотную ассоциативную базу данных или базу данных повторных появлений через программу 304 ассоциирования посредством ввода, по меньшей мере, 2 слов или словосочетаний о том, чтобы установить, какие другие третьи слова или словосочетания часто ассоциируются с некоторыми или всеми представленными словосочетаниями. Система может применять два разных способа при выполнении общего частотного анализа (CFA): либо 1) независимый общий частотный анализ, либо 2) связанный общий частотный анализ. Кроме того, система может дополнительно выполнять статисти- 20007776 ческий анализ после выполнения любой из двух процедур посредством распространения их на дополнительное поколение или поколения данных или посредством сочетания результатов и/или сегментов любого общего частотного анализа для последующего частотного анализа. Независимый общий частотный анализ (ICFA) Когда интеллектуальное приложение 302 представляет программе 304 ассоциирования, по меньшей мере, 2 слова и/или словосочетания для общего частотного анализа (CFA), система может идентифицировать все слова и словосочетания, часто связываемые с представленными словами с использованием ассоциативной базы данных в соответствии с настоящим изобретением. Затем система может идентифицировать слова и/или словосочетания, которые часто ассоциируются с некоторыми или всеми представленными словами или словосочетаниями. Затем система может использовать общие ассоциации между представленными словами и/или словосочетаниями множеством заданных пользователем способов. Например, система может идентифицировать общую ассоциацию самого высокого ранга суммированием (или умножением или любым другим заданным пользователем способом взвешивания) частот для общей ассоциации или ассоциации по общему третьему слову или словосочетанию к представленным словам и/или словосочетаниям в частотной ассоциативной базе данных. Другим примером задаваемого пользователем параметра, который может потребоваться, является минимальная частота (оцениваемая по общему рангу, номеру строки или другому критерию) по всем таблицам представленных слов и/или словосочетаний. При использовании элементов данных в примере базы данных повторных появлений система может определить частоту, с которой "ice cream" и "kids love" появляются в заданном пользователем интервале во всех доступных документах за 1 анализ, и затем система может зарегистрировать частоту, с которой"ice cream" и "before going to bed" появляются вместе. Затем частотой каждой из независимых связей сможет воспользоваться приложение, которое выдаст относительное значение для каждой связи. Значение будет получено на основе того, как оценивается (по заданию пользователя в абсолютном или относительном исчислении) частота фразы "ice cream" в частотной таблице фразы "kids love" и в частотной таблице фразы 'before going to bed", или на основе процентного отношения количества случаев появления ассоциации (например, "ice cream") со словом или словосочетанием (например, "kids love") к общему количеству случаев появления словосочетания (например, "kids love"). И вновь, частотные таблицы для"kids love" и "before going to bed" представляют собой табличные классификации по рангам появлений третьих слов или словосочетаний на основе их близости к выбранным словосочетаниям "kids love" и"before going to bed." В соответствии с данным способом на основе заданных пользователем значений после анализа фразы "ice cream" можно проанализировать на относительную частотность фразу "a warm hug" определением ее положения в частотной таблице для "kids love" (на основании заданных пользователем требований приложения к ширине интервала или степени близости), а затем определить положение фразы "a warmhug" в частотной таблице для фразы "before going to bed". Все остальные частые ассоциации (заданные пользователем) в обеих частотных таблицах будут сравниваться, например фраза "staying up late", и оцениваться на основании заданных пользователем значений комбинированных относительных частот из обеих таблиц. Система выдаст словосочетание самого высокого ранга на основании заданного пользователем весового коэффициента каждой ассоциации по частоте. Возможно, в результате данного анализа система определит, что, хотя "kids love" (дети любят) "ice cream" (мороженое) больше, чем "warmhugs" (сердечные объятия), однако, "kids love warm hugs" (дети любят сердечные объятия) больше,чем "kids love ice cream" (дети любят мороженное) "before going to bed" (перед сном). В качестве другого примера, когда в систему введены слово "kangaroos" и слово и словосочетание"find" и "in America" для независимого общего частотного анализа, представлена табл. 6, представляющая собой частотную таблицу, которую можно собрать по документам в документальной базе данных. Таблица 6 Слово "Australia" имеет самый высокий ранг, исходя из суммы совокупных ассоциаций по строкам. Однако заданные пользователем параметры могут взвешивать относительные значения частот. Так, по- 21007776 одному их возможных способов, ассоциации с наименьшей частотой можно присвоить оценку один, а затем ассоциации с большими частотами можно оценить в зависимости от кратности к наименьшей частоте. В рассматриваемом случае фраза "the Zoo" будет иметь самый высокий ранг. Таблица 7 Относительные веса ассоциаций показывают, как Zoo станет результатом на основании вышеупомянутого заданного пользователем параметра. Аналогичные результаты можно получить умножением количества раз, когда конкретное слово или словосочетание ассоциируется с каждым из запросов, чтобы придать значение относительному равновесию между общими ассоциациями. В нашем примере, в результате выдается "the Zoo": 1. "the Zoo" 7000 x 2000 x 5000 = 70,000,000,000 2. "Australia" 21000 x 1000 x 300 = 6,100,000,000 3. "New Zealand" 1000 x 500 x 100 = 50,000,000 Чтобы классифицировать по рангу и выбрать ассоциации, общие, по меньшей мере, для 2 представленных слов и/или словосочетаний, можно применить другие заданные пользователем критерии. Сюда можно отнести оценивание некоторых ассоциаций в некоторых категориях выше остальных. Например,приложение может присвоить более высокое значение ассоциации местоположения (например, "inAmerica") для вопроса где (например, "where can you find kangaroos in America" (где можно обнаружить кенгуру в Америке). Связанный общий частотный анализ (RCFA) Кроме отыскания общих независимых ассоциаций, по меньшей мере, к 2 представленным словам и/или словосочетаниям, в соответствии с другим вариантом осуществления можно осуществлять поиск с целью определения частых появлений слов и/или словосочетаний, которые обнаруживаются в заданных пользователем интервалах, но только в документах, содержащих, по меньшей мере, 2 анализируемых слова или словосочетания. Данный вариант осуществления содержит следующие этапы.a. В базе данных находят номера всех документов, общих, по меньшей мере, для 2 представленных слов и/или словосочетаний.b. Сравнивают каждое слово и словосочетание в заданных пользователем интервалах вблизи всех представленных слов и/или словосочетаний и регистрируют частоту для всех повторяющихся слов и словосочетаний в интервалах. И вновь, заданный пользователем интервал может быть ограничен и может содержать только повторяющиеся слова или словосочетания в непосредственной близости от представленных слов или словосочетаний. Например, допустим, что системе предъявлены 2 словосочетания "kids love" и "before going to bed" для связанного общего частотного анализа (RCFA). Если база данных уже содержит следующие элементы данных, соответствующие фразам в документах в документальной базе данных:"before going to bed" 684 раза база данных повторных появлений может направить систему к документам, которые находятся в документальной базе данных и содержат как фразу "kids love", так и фразу "before going to bed", потому что у них одинаковый связанный с ними номер документа. Кроме того, при необходимости, система может отыскивать только те документы, в которых расстояние между словосочетаниями не превышает заданное пользователем число слов или соответствует любой другой заданной пользователем степени близости- 22007776 друг к другу. После того как система идентифицировала в документальной базе данных все документы, которые содержат фразу "kids love" в заданной близости от фразы "before going to bed", система может построить частотную таблицу всех повторяющихся слов и словосочетаний в пределах заданного пользователем интервала. Из ограниченного примера вышеописанной базы данных слов и словосочетаний известно, что фраза "ice cream" будет появляться с частотой не менее 10, фраза "staying up late" - с частотой не менее 17 и фраза "a warm hug" - с частотой не менее 12. Все указанные частоты могут быть намного выше, поскольку соответствующие фразы могут появляться в одном и том же тексте вблизи фраз "kids love" и'before going to bed" без непосредственного примыкания к ним (например, "kids love ice cream and othersweets before going to bed"). На запрос "what do kids love before going to bed" (что дети любят перед сном) можно дать много правильных ответов. Однако, если есть критическая масса документов, отражающих различные характерные мнения, многие более высокие частоты будут отражать консенсус по вопросу, а низкие частоты существующие альтернативные мнения. Например, в интервале с фразами "kids love" и "before going tobed" может 3 раза присутствовать фраза "hot shower", что указывает на приоритетный порядок мнения,которое далеко не так популярно, как некоторые другие мнения. В соответствии с другими вариантами осуществления настоящего изобретения для независимого общего частотного анализа (ICFA) или связанного общего частотного анализа (RCFA) можно использовать тезаурус или любые другие известные или установленные эквиваленты словосочетаний вместо отыскиваемых слов и словосочетаний, чтобы находить повторяющиеся слова и словосочетания по интервалам данных эквивалентов слов. Например, система может также производить поиск фраз "kids like", "kidsreally love", "kids enjoy", "children enjoy", "children love", вместо фразы "kids love". Тот же самый метод можно использовать, чтобы заменить в системе фразу "before going to bed" известными эквивалентами типа фраз "before bed", "before going to sleep", "before bedtime". Сочетание известного в технике тезауруса слов и/или общих частотных способов в соответствии с настоящим изобретением будет давать большее число семантически эквивалентных слов и словосочетаний. Ниже следует общее разъяснение того, каким образом система определяет семантически эквивалентные словосочетания с использованием ассоциативных баз данных и интеллектуального приложения 302 и посредством общего частотного анализа. Система может также исполнять независимый общий частотный анализ (ICFA) и связанный общий частотный анализ (RCFA) представленных слов и словосочетаний и сочетать результаты с использованием заданных пользователем весовых параметров. Частотный анализ второго уровня В соответствии с другим вариантом осуществления система может выполнять частотный анализ с использованием общей ассоциации между 1-ым или 2-ым словом или словосочетанием и выбранным 3 им словом или словосочетанием в качестве общей частоты для 2 анализируемых слов или словосочетаний, что добавит новую информацию к результатам анализа для приложения. Например, если общая ассоциация, выбранная по частотам всех слов и словосочетаний в пределах общего интервала фраз "beforegoing to bed" (1-я) и "kids love" (2-я), представляет собой фразу "ice cream" (3-я), то в соответствии с данным вариантом осуществления выполняется либо независимый, либо связанный частотный анализ для фраз либо "before going to bed" (1-я) и "ice cream" (3-я), либо "kids love" (2-я) и "ice cream" (3-я) и выбираются ассоциации на основании результатов 2 данных анализов. Кроме того, любые, по меньшей мере,2 слова или словосочетания можно анализировать с использованием таких же методов в стольких сочетаниях такого количества поколений результатов, сколько задает пользователь. Специальные приложения будут запрашивать выполнение автоматизированного анализа, выявляющего общий частотный анализ, который следует выполнить для каждого поколения результатов анализа частот ассоциаций. Более сложные приложения будут выявлять, по меньшей мере, 2 частотных анализа, которые должны быть выполнены перед тем, как использовать в сочетании, по меньшей мере, 2 независимых результата. Использование общего частотного анализа для определения функции или значения слова В соответствии с описанием заявки 10/024473 на патент США получаемые с высокой частотой ассоциации между анализируемыми словом и словосочетаниями и слово, и словосочетания, которые найдены в их интервалах и не являются переводами, но являются тесно связанными понятиями, можно использовать в приложениях искусственного интеллекта. Искусственный интеллект или интеллектуальное приложение представляет собой приложение, которое способно ответить на вопрос или выполнить задачу, которые не обязательно ставились в прошлом с требованием, соответственно, дать ответ или выполнить задачу. В соответствии с настоящим изобретением можно использовать ассоциативные базы данных, чтобы распознавать словообразования и/или комбинации слов и словосочетаний, которыми можно воспользоваться как указателями классов для определения функции или назначения других слов или словосочетаний, ассоциированных с указателями классов. Например, конкретную комбинацию слов обычно можно ассоциировать со словом, которое является именем человека, типом пищи или действием. В соответствии с настоящим изобретением с использованием общего частотного анализа можно анализировать документы, чтобы выявлять существование данных комбинаций и их ассоциацию с другими словами или словосочетаниями. На основании- 23007776 данной ассоциации, система может классифицировать другие слова, которые аналогичным образом ассоциированы с этими комбинациями, так как другие слова, которые ассоциированы аналогичным образом, очевидно, должны попадать в аналогичные классы. Следовательно, система может выявлять наличие указателей классов и использовать данные указатели. Один из примеров описанного приложения состоял бы в том, чтобы помогать способу перевода в соответствии с настоящим изобретением при выполнении переводов, которые система не может сделать иначе, с использованием вышеописанных процедур. Например, допустим, система получила запрос на английском языке, "I love Moshe", для перевода на язык X. Допустим, система располагает переводом словосочетания "I love", но не имеет переводы для словосочетаний "I love Moshe" или "love Moshe". Ассоциативная база данных содержит слово "Moshe" в словосочетаниях типа "my name is Moshe","Mr. Moshe Fein", "his name is Moshe". Чтобы выявить взаимосвязь между данными словосочетаниями и именем Moshe, можно воспользоваться общим частотным анализом (CFA). Тогда пользователь может указать системе данные фразы как фразы, обладающие высокой степенью корреляции с именами и потому являющиеся индикаторами имен, т.е. индикатором категории конкретного типа. Когда слово "Moshe" появится в заданном пользователем числе (или процентной части) фраз, являющихся индикаторами имени, система определит статистическую достоверность того, что слово "Moshe" потенциально является именем, потому что оно появляется в тексте, который является индикатором имени. Хотя другие известные в технике системы также используют такие индикаторы имен и другие индикаторы категорий, например, для дат, чисел и других специальных классов, настоящее изобретение дает возможность использовать кодированные вручную индикаторы типа фраз, сообщающих об именах,чтобы выявить все остальные фразы, в которых также появляются имена наподобие Moshe и другие известные имена. Например, пользователь мог бы и не подумать о том, чтобы прибавить в качестве указателя имени фразу "the guy's name is" (имя парня), однако, в соответствии с настоящим изобретением данная фраза будет представлена, а также многие другие, которые пользователь не включил при использовании данного варианта осуществления. Каждое слово и словосочетание обладает ограниченной совокупностью возможных альтернативных слов или словосочетаний, которые можно обнаружить среди окружающих слов и словосочетаний. Данная совокупность будет содержать слова и словосочетания, точно выражающие понятия, которые они заменяют, и будут иметь размах от исходно выраженного понятия до мыслей, которые являются прямыми противоположностями. Например, в процессе анализа фразы "I lovechocolate" (я люблю шоколад) система может сформировать все возможные замены слова "love". Система сформирует эквиваленты и почти эквиваленты типа "I really love chocolate" (я действительно люблю шоколад), "I adore chocolate" (я обожаю шоколад), "I really enjoy chocolate" (я действительно наслаждаюсь шоколадом), а также неэквиваленты и противоположности типа "I tolerate chocolate" (я терпимо отношусь к шоколаду) и "I hate chocolate" (я ненавижу шоколад). Система не определит повторяющиеся частоты слов, которые не заполняют все, остающееся после слова love, с использованием независимого (или, в альтернативном варианте осуществления, связанного) общего анализа частот ассоциаций. Например, базы данных при анализе не будут выдавать фразы "I fish chocolate" (я ловлю в воде шоколад), "I you chocolate" (я вы шоколад), "I who chocolate" (я кто шоколад). Как только система установит, что слово Moshe является именем, и если фраза "I love" является индикатором имени (но не единственным, в котором когда-либо появлялось имя Moshe), то, если механизм перевода располагает переводом для слова "Moshe" на языке В, данный механизм может присоединить его к переводу "I love" на языке В без перекрытия. Если перевод слова "Moshe" на языке В не известен,то можно воспользоваться функцией транслитерации с английского языка на язык В, чтобы образовать на языке В представление имени "Moshe" и присоединить его к переводу фразы "I love" на язык В без перекрытия. Имена, которые явно связаны с другими словами и/или словосочетаниями как имена, являются простым примером того, как определяемые пользователем общие статистические связи между словосочетаниями, отражающими понятия, можно классифицировать по общему значению с целью использования в интеллектуальном приложении. Кроме того, все словосочетания будут обладать собственными динамическими связями со всеми остальными связанными общими представлениями и понятиями, что наглядно подтверждается одноязычными ассоциативными базами данных, которые содержат перечень связанных понятий на основе частоты их нахождения в непосредственной близости друг от друга, когда они выражены на языке. У каждого словосочетания, составляющего осмысленное понятие, будет собственное множество связанных понятий в виде часто повторяющихся комбинаций в тексте, расположенных в определенной близости друг к другу, чтобы система получала вероятности значений для упомянутых понятий в любом заданном контексте. Если, например, запрос перевода содержит слово, которое явно не является именем, то частоту для связанных понятий можно анализировать на следующем уровне соседних слов и словосочетаний, чтобы обеспечить дополнительный контекст. Например, если запрос на английском языке, подлежащий переводу на язык В, имеет вид "I love Faith", то данный запрос несколько неоднозначен, так как слово Faith может быть именем или чувством веры без доказательства. Если другими соседними словами около фразы "I love Faith" в полном запросе перевода являются"her" (ее) и "she" (она), а не "god" (бог), "religion" (религия), "church" (церковь) и т.д., то система применит формулы, которые взвесят частоту, степень близости, а также другие индикаторы категорий в отношении ассоциаций, существующих в базе данных системы, и будет понимать, что следует выбрать перевод Вера (Faith) как имя, а не вера (Faith) как вера без доказательства. Остальные соседние слова и словосочетания вместе с их набором повторяющихся связей с другими понятиями будут представлять дополнительное подтверждение намерений говорящих, пока статистическая значимость не зафиксирует ответ или система не запросит пользователя дать разъяснения из-за недостатка информации. Такое случилось бы, например, если бы весь вопрос имел вид "I love Faith". Поскольку в таком виде вопрос несколько неоднозначен, даже человек-переводчик может спросить: Вы подразумеваете, что словоFaith относится к некоторому лицу В английском языке первая буква верхнего регистра подразумевает имя Вера (Faith). Данное свойство служит еще одной характеристикой, с которой может работать система для определения того,что Faith (Вера), вероятно, является именем. Во многих языках, не использующих латиницу, не содержатся знаки верхнего/нижнего регистров, и поэтому при решении рассмотренного вопроса будут полагаться только на поуровневые отношения между словосочетаниями, связанными частой близостью друг к другу в тексте, и любым другим представлением языка (голосом, символами, знаками и т.д.). Использование общего частотного анализа для поиска семантически аналогичных слов Слова и словосочетания в языке, которые представляют конкретную идею, часто появляются в комбинациях. Данные комбинации могут быть обозначены частотой, с которой конкретные слова и словосочетания обнаруживаются непосредственно перед конкретным словом (в английском языке, слева от конкретного слова), а также после конкретного слова (в английском языке, справа от конкретного слова). В соответствии с этим слова и словосочетания, выражающие одинаковые понятия, будут иметь схожие тип и порядок слов и словосочетаний, которые идут впереди и отходят от них. Другим примером использования комбинаций слов для выработки информации является создание исчерпывающего тезауруса эквивалентов слов и словосочетаний. Если систему запрашивают определить слово, у которого то же самое или почти то же самое значение, как у другого слова, т.е. слова являются семантически подобными, то система может найти частоты слов и словосочетаний, ассоциируемых с данным словом, и произвести поиск слова в таком языке, в котором частоты ассоциаций наиболее точно соответствуют ему. Обычно, чем больше конструктивно подобны образования двух слов и/или словосочетаний, тем более схожи их значения. Иногда противоположности будут характеризоваться большими частотами общих ассоциаций, но будут сильно различаться по некоторым важным качественным ассоциациям, которые создают картину сигнатуры противоположностей, которую система также может обеспечивать приложениям. Система будет обнаруживать характер ассоциации между любым понятием, представленным словом или словосочетанием, и любым другим понятием, представленным словом и словосочетанием, так называемую сигнатуру ассоциации. Система использует ассоциативные базы данных, чтобы обнаруживать конкретные словообразования в пределах заданных пользователем интервалов, предназначенных для обнаружения комбинаций слов, окружающих понятие, которое определяет отношение между понятием и другими понятиями, находящимися в относительной близости от него. Программа Program4,представленная в приложении листинга компьютерных программ, является примером программы, которая использует общий частотный анализ для нахождения семантически эквивалентных или подобных слов. Например, один вариант осуществления, использующий конкретное словообразование вблизи слова или словосочетания, использующего независимый общий частотный анализ (ICFA), заключается в том,чтобы идентифицировать слова и словосочетания, которые представляют собой эквиваленты или почти эквиваленты в семантическом отношении (т.е. по смыслу) в отношении любого слова или словосочетания. Данный вариант осуществления содержит следующие этапы. Этап 1, заключающийся в том, что принимается запрос на то, чтобы слово или словосочетание (слово запроса) было подвергнуто анализу на эквиваленты, и выдается словосочетание (выданное слово) заданного пользователем размера, которое появляется с наибольшей частотой, а также частота появления выданного слова, при этом выданное слово располагается непосредственно слева от слова запроса во всех доступных документах, использующих независимый общий частотный анализ (ICFA). Чем больше заданное пользователем словосочетание, тем более точным будут окончательные результаты. Этап 2, заключающийся в том, что выполняется независимый общий частотный анализ (ICFA) для каждого результата из заданного пользователем числа имеющих наивысший ранг результатов этапа 1 с использованием интервала, образованного 1 словом или словосочетанием справа от каждого анализируемого слова или словосочетания (применение интервала длиной в 1 слово или словосочетание означает, что система будет классифицировать по рангу наиболее часто повторяющиеся слова и словосочетания справа от каждого из слов или словосочетаний, анализируемых на этапе 2). Затем выполняется суммирование полученных на этапе 2 частот всех общих слов и словосочетаний. Этап 3, заключающийся в том, что выполняется независимый общий частотный анализ(ICFA) запроса с использованием интервала, образованного заданным пользователем числом слов непосредственно справа от запроса (и вновь, для обеспечения точности обычно требуется, по меньшей мере,- 25007776 два слова). Этап 4, заключающийся в том, что выполняется независимый общий частотный анализ(ICFA) для каждого слова и словосочетания из заданного пользователем числа имеющих наивысший ранг слов и словосочетаний, выданных на этапе 3 с использованием интервала, образованного 1 словом или словосочетанием слева от каждого анализируемого слова или словосочетания (и вновь, результаты применения интервала длиной в 1 слово или словосочетание непосредственно слева от анализируемого слова или словосочетания будут классифицироваться по рангам на основе частоты слов и словосочетаний, наиболее часто идущих впереди каждого слова и словосочетания, анализируемого на этапе 4). Затем частоты всех общих слов и словосочетаний, полученных в результате выполнения этапа 4, суммируются. На этапе 5 определяется каждое из слов или словосочетаний, которые выдаются как на этапе 2, так и на этапе 4. Численные значения частот каждого из общих слов и словосочетаний, выданных на этапе 2, умножаются на численные значения частот общих слов и словосочетаний, выданных на этапе 4. Слова или словосочетания, классифицированные наивысшим рангом на основании произведений их частот, выданных на этапе 2 и этапе 4, будут словами и словосочетаниями, наиболее семантически эквивалентными или подобными запросу. В примере варианта осуществления с построением тезауруса эквивалентов всех слов и словосочетаний в документальной базе данных системы предполагается, что пользователь вводит слово "detained"(задержанный) для определения всех известных системе эквивалентов слов и словосочетаний. На этапе 1, на основании результатов наивысшего ранга (заданных пользователем), взятых в количестве 3 для большей наглядности, сначала система определит (смотри ниже) 3 словосочетания (заданные пользователем), наиболее часто появляющихся непосредственно слева от detained: 1. "the suspect was"(продолжал быть) На этапе 2 система находит (смотри ниже) слова и словосочетания, которые наиболее часто следуют за 3 вышеприведенными выданными в результате словосочетаниями справа: 1. "the suspect was"c. "optimistic" (120) Затем частоты общих результатов, выданных на этапе 2, суммируются. На этапе 2 выданы только следующие общие результаты:b. "released" 90 + 100 = 190 На этапе 3 система определит 3 наиболее часто появляющихся (согласно заданному пользователем параметру) двухсловных словосочетания (заданных пользователем) непосредственно справа от выбранного запроса detained в документах в базе данных: 1."for questioning" 2. "on charges" 3. "during the" На этапе 4 система определит (смотри ниже) слова и словосочетания, наиболее часто появляющиеся непосредственно слева от 3 словосочетаний, выданных на этапе 3: 1. "for questioning"b. "happy"(400) с. "people" (250) Затем суммируются все общие результаты, полученные на этапе 4. В данном примере выдано 2 общих результата:b. "brought in" 100 + 150 = 250 Этап 5. На данном этапе перемножаются (смотри ниже) частоты общих результатов, выданных на этапах 2 и 4: 1. "held" 650 х 270 = 175,500 2. "arrested" 200 х 240 = 48,000 Вышеприведенный наглядный пример основан на сравнительно небольшом числе документов в документальной базе данных. Документальная база данных может быть больше и может содержать документы, удаленно доступные системе по сетям, например сети Internet. Вышеописанный вариант осуществления представляет собой один из многих вариантов способа по настоящему изобретению, который позволяет применять независимый общий частотный анализ (ICFA)(или, в альтернативном варианте, связанный общий частотный анализ (RCFA для определения характеристик понятий, отраженных словами и словосочетаниями, и характер отношения между словом или словосочетанием и любым другим словом или словосочетанием. Можно применять и другие способы, основанные на одной и той же принципиальной идее использования отношений, существующих между понятиями и обнаруживаемых по их частоте и близости друг к другу в языке, в сочетании с другими индикаторами категорий, с целью решения более сложных проблем. Указанные способы могут содержать этапы, заключающиеся в выполнении общего частотного анализа, по меньшей мере, для 2 различных наборов сегментов и использовании комбинированных результатов в соответствии с инструкциями пользователя. Один из примеров более сложного отношения, которое можно обнаружить, представляет собой комбинацию, образованную при сравнении сигнатур слов или словосочетаний, которые являются противоположностями друг другу. Чтобы обнаружить комбинацию, пользователь будет вводить слово в систему (например, hot (горячий. Тогда система определит все частоты появления повторяющихся слов и словосочетаний около данного слова (в результате формируется сигнатура слов). Затем пользователь обратиться к системе с требованием определить все частоты появления повторяющихся слов и словосочетаний около слова или словосочетания, отражающего противоположное понятие (например, Cold (холодный. Затем система произведет для перекрывающихся понятий поиск общей комбинации для левой стороны от слова hot и правой стороны от слова cold и для левой стороны от слова cold и правой стороны от слова hot. Полученный результат представляет собой комбинацию, образованную сравнением двух сигнатур,которую система может впоследствии использовать для идентификации других пар слов или словосочетаний с аналогичными комбинациями, образованными сравнениями их сигнатур. Следовательно, если система получит запрос в виде слова или словосочетания таким образом, что будет производить поиск противоположности, то система (1) обнаружит все слова и словосочетания, окружающие данный запрос,(2) определит список слов и словосочетаний, которые имеют сигнатуры, аналогичные запросу, но не с такой степенью подобия, которая позволяет классифицировать их как синонимы, (3) затем сравнит сигнатуры этих связанных (но не синонимических) слов и словосочетаний с запросом и (4) сравнит результат сравнения, полученный на этапе 3, с результатами сравнений сигнатур ранее обнаруженных пар противоположных слов или словосочетаний. Если какие-либо из результатов сравнений, выполненных на этапе 3, содержат комбинацию, которая достаточно подобна (на основании заданных пользователем критериев) комбинации, образованной сравнениями сигнатур известных противоположностей, то система выявит слово или словосочетание в результатах этапа 2, которые противоречат запросу, чтобы сформировать комбинацию и обозначить ее как противоположность запросу. Следует также отметить, что параметры, задаваемые пользователем так, чтобы система создавала эквиваленты словосочетаний (или любое другое отношение), могут содержать словосочетания, характеризующиеся любой степенью близости к запросу, а не только непосредственно примыкающие к запросу с левой или правой стороны. Корректировка заданных пользователем параметров потребуется для приложений, в которых выражение семантического содержания обычно менее эффективно или конструктивно менее общепринято (например, переговоры, записанные на форумах сети Internet ("chat room"), и переговоры других типов). В принципе, процедура построения ассоциативной базы данных содержит этапы, заключающиеся в том, что (i) принимается единица группированных данных, организованных линейно или упорядоченно,(ii) группа данных делится на все возможные смежные поднаборы целой группы, и (iii) строятся отношения между всеми поднаборами данных на основе часто повторяющейся (обычно, непосредственной) близости друг к другу всех доступных единиц группированных данных. По существу, на основе общего частотного анализа, система выдает пользователю часто повторяющиеся отношения близости между сегментами поднаборов данных, чтобы облегчать обнаружение определенных повторяющихся комбинаций,которые задают сигнатуру данных, обеспечивающую обобщенную информацию о любых данных, связанных с упомянутой общей сигнатурой данных. Поэтому одни и те же процедуры, используемые при создании базы данных, и общий частотный анализ можно применять в приложениях распознавания обра- 27007776 зов для извлечения информации из данных и текста различными другими способами, опознавания цели и любом другом приложении, которое требует распознавания образов. Специалистам в данной технической области очевидно, что при наличии опыта и квалификации в вышеописанные устройство и способы можно внести множество изменений, не выходящие за пределы сущности и объема изобретения. Приложение

МПК / Метки

МПК: G06F 17/28, G06F 17/30, G06F 17/21

Метки: преобразования, способ, устройство, контента

Код ссылки

<a href="https://eas.patents.su/30-7776-sposob-i-ustrojjstvo-dlya-preobrazovaniya-kontenta.html" rel="bookmark" title="База патентов Евразийского Союза">Способ и устройство для преобразования контента</a>

Похожие патенты