Способ и устройство ассоциирования слов

Номер патента: 6373

Опубликовано: 29.12.2005

Автор: Абир Эли

Скачать PDF файл.

Формула / Реферат

1. Способ ассоциирования слов и цепочек слов в языке, содержащий

совокупность документов, причем упомянутая совокупность включает в себя по меньшей мере один документ;

прием от пользователя подлежащего анализу запроса на слово или цепочку слов;

поиск в упомянутой совокупности документов в отношении подлежащего анализу запроса и выдачу документов, содержащих подлежащий анализу запрос;

нахождение заданного пользователем количества слов, или цепочек слов, или и того, и другого слева от упомянутого подлежащего анализу запроса в упомянутых выданных документах на основании их частоты и создание списка левой сигнатуры, содержащего упомянутое слово или цепочку слов слева от упомянутого подлежащего анализу запроса в упомянутых выданных документах;

нахождение заданного пользователем количества слов, или цепочек слов, или и того, и другого справа от упомянутых слов или цепочек слов, содержащего упомянутый список левой сигнатуры, и создание списков левой привязки, содержащих упомянутое слово или цепочку слов справа от упомянутых списков левой сигнатуры на основании их частоты в совокупности документов;

нахождение заданного пользователем количества слов, или цепочек слов, или и того, и другого справа от упомянутого подлежащего анализу запроса в упомянутых выданных документах на основании их частоты и создание списка правой сигнатуры, содержащего упомянутое слово или цепочку слов справа от упомянутого подлежащего анализу запроса в упомянутых выданных документах;

нахождение определенного пользователем количества слов, или цепочек слов, или и того, и другого слева от упомянутых слов или цепочек слов, содержащего упомянутый список правой сигнатуры, и создание списков правой привязки, содержащих упомянутое слово или цепочку слов слева от упомянутых списков правой сигнатуры на основании их частоты в совокупности документов;

ранжирование результатов на основании частоты каждого слова или цепочки слов, появляющихся в упомянутых списках левой привязки, и частоты каждого слова или цепочки слов, появляющихся в упомянутых списках правой привязки.

2. Способ по п.1, в котором ранжирование результатов включает в себя умножение полной частоты каждого слова или цепочки слов, появляющихся в упомянутых списках левой привязки, на полную частоту каждого слова или цепочки слов, появляющихся в упомянутых списках правой привязки.

3. Способ по п.1, в котором ранжирование результатов включает в себя прибавление полной частоты каждого слова или цепочки слов, появляющихся в упомянутых списках левой привязки, к полной частоте упомянутого слова или цепочки слов, появляющихся в упомянутых списках правой привязки, для каждого слова или цепочки слов, появляющихся как в списке левой привязки, так и в списке правой привязки.

4. Способ ассоциирования слов и цепочек слов в языке, содержащий совокупность, документов, причем упомянутая совокупность включает в себя по меньшей мере один документ;

прием от пользователя подлежащего анализу запроса на слово или цепочку слов;

поиск в упомянутой совокупности документов в отношении подлежащего анализу запроса и выдачу документов, содержащих подлежащий анализу запрос;

нахождение заданного пользователем количества и размера слов, или цепочек слов, или и того, и другого слева и справа от запроса в упомянутых выданных документах, содержащих подлежащий анализу запрос;

выдачу списка с записью или множеством записей, причем упомянутая запись или упомянутое множество записей содержат упомянутое найденное количество слов слева и справа от запроса в упомянутых выданных документах;

поиск в упомянутой совокупности документов в отношении упомянутой записи или множества записей в упомянутом выданном списке и

выдачу списка слов, или цепочек слов, или и того, и другого, которые появляются наиболее часто между упомянутым найденным количеством слов слева и справа от упомянутого запроса в упомянутых выданных документах.

 

Текст

Смотреть все

Родственные заявки Данная заявка является частичным продолжением заявки США 10/157,894, поданной 31 мая 2002 года, которая в свою очередь является частичным продолжением заявки США 10/024,473, поданной 21 декабря 2001 года, по которой испрашивается приоритет предварительной заявки США 60/276,107,поданной 16 марта 2001 года, и предварительной заявки США 60/299,472, поданной 21 июня 2001 года, которые все включены сюда посредством ссылки. Приложение листингов компьютерных программ Данная заявка включает в себя листинги компьютерных программ в приложениях, включенных в заявку США 10/157,894, поданную 31 мая 2002 года, которая включена сюда посредством ссылки. Область техники, к которой относится изобретение Данное изобретение относится к способу и устройству для создания базы данных для использования при преобразовании информации из одного состояния в другое состояние. В предпочтительном варианте осуществления информация является языком, и изобретение относится к способу и устройству для создания ассоциативной базы данных, каковая база данных может использоваться в системе языкового перевода. Предшествующий уровень техники Известны устройства и способы для автоматического перевода документов с одного языка на другой. Однако эти устройства и способы зачастую не в состоянии точно перевести документы с одного языка на другой, могут расходовать много времени и могут быть неудобными в использовании. В дополнение к переводчикам на основе человека другие известные устройства включают в себя коммерчески доступное программное обеспечение машинного перевода. Эти известные системы имеют недостатки,которые делают их чувствительными к ошибкам, обуславливают низкую скорость и неудобство. Известные устройства и способы перевода не могут согласованно выдать точные переводы для текстового ввода, а потому часто требуют интенсивного вмешательства пользователя для проверки варианта текста и редактирования. Точный машинный перевод является более сложным, чем обеспечение устройств и способов, которые делают дословные переводы документов. В этих дословных системах перевод во многих случаях имеет мало смысла для читателя переведенного документа, т.к. дословный способ приводит к неправильным выборам слов и бессвязным грамматическим блокам. Для преодоления этих трудностей известные устройства перевода в течение десятилетий пытались отбирать словесные переводы внутри контекста предложения на основании сочетания или набора лексических, морфологических, синтаксических и семантических правил. Эти системы, известные в технике как основанные на правилах системы машинного перевода (МП, МТ), порочны, потому что к правилам имеется так много исключений, что они не могут обеспечить согласованно точного перевода. В дополнение к основанному на правилах МП, в последнее десятилетие разработан новый способ МП, известный как основанный на примерах (ОПМП, ЕВМТ). ОПМП использует предложения (или,может быть, части предложений), хранящиеся в двух различных языках в перекрестно-языковой базе данных. Когда запрос перевода подбирает предложение в этой базе данных, перевод этого предложения на целевом языке производится базой данных, выдающей точный перевод на втором языке. Если часть запроса перевода подбирает часть предложения в базе данных, эти устройства пытаются точно определить, какая часть предложения, отображенная в предложении исходного языка, является переводом запроса. Системы ОПМП не могут обеспечить точный перевод полного языка, потому что базы данных потенциально бесконечных перекрестно-языковых предложений строятся вручную и всегда будут по преимуществу неполными. Другой недостаток систем ОПМП состоит в том, что частичные соответствия не переводятся надежно. Системы, которые используют статистический машинный перевод, пытаются автоматизировать создание перекрестно-языковых баз данных с помощью пар переведенных документов в сочетании с большим массивом документов именно на целевом языке. Ни одна из этих систем не использует алгоритм, который надежно и точно очищает переводы от достаточного числа слов и словесных цепочек, чтобы выдавать надежный перевод. Некоторые устройства перевода комбинируют основанные на правилах, статистические МП и(или) ОПМП механизмы. Хотя эти комбинации подходов могут дать более высокую степень точности, нежели любая система в одиночку, результаты остаются недостаточными для использования без значительного пользовательского вмешательства и редактирования. Проблемы, с которыми сталкиваются при попытках перевести документы с одного языка на другой,можно приложить в общем случае к проблеме преобразования данных, представляющих понятия или информацию, из одного состояния, скажем из слов, в другое состояние, к примеру в математические символы. В таких случаях необходимо справляться в перекрестно-понятийных ассоциативных базах данных, которые ассоциируют данные в одном состоянии с эквивалентными данными во втором состоянии. Поэтому существует необходимость в усовершенствованных и более эффективных способе и устройстве для создания словарей или баз данных, которые ассоциируют эквивалентные понятия в различных языках или состояниях (например, слова, цепочки слов, звуки, движение и тому подобное), и для-1 006373 перевода или преобразования понятий, выраженных документами в одном языке или состоянии, в такие же или подобные понятия, представленные документами во втором языке или состоянии. Изобретение относится к манипулированию содержанием с помощью перекрестно-понятийной ассоциативной базы данных. В частности, настоящее изобретение обеспечивает способ и устройство для создания базы данных ассоциированных понятий и обеспечивает способ и устройство для использования этой базы данных для преобразования понятий из одного состояния в другие состояния. В одном варианте осуществления и посредством примера настоящее изобретение обеспечивает способ и устройство для создания базы данных языкового перевода, где два языка образуют базу данных ассоциированных понятий. Настоящее изобретение также обеспечивает способ и устройство для использования этой базы данных языкового перевода для преобразования документов (представляющих понятия) из одного языка в другой (или, в более общем случае, из одного состояния в другое). Однако настоящее изобретение не ограничивается языковым переводом, хотя и будет представлен этот предпочтительный вариант осуществления. Аспект создания базы данных по настоящему изобретению можно применять к любым понятиям, которые соотносятся некоторым образом, но выражаются в разных состояниях, а аспект преобразования по настоящему изобретению можно применять к точному переводу понятий из одного состояния в другое. В другом варианте осуществления аспект создания базы данных по настоящему изобретению может использоваться для построения ассоциаций между понятиями в одном языке и их соотношением друг с другом, подлежащим использованию в приложениях искусственного интеллекта. Теперь будет описываться применение настоящего изобретения к варианту осуществления языкового перевода. Как используются здесь, выражения, относящиеся к преобразованию, переводу и манипулированию, используются взаимозаменяемо и в своем наиболее широком смысле. Сущность изобретения Одна задача настоящего изобретения состоит в том, чтобы облегчить эффективный перевод документов с одного языка или из одного состояния на другой язык или в другое состояние путем обеспечения способа и устройства для создания и пополнения перекрестно-понятийных ассоциативных баз данных. Эти базы данных в общем случае ассоциируют данные в первом виде или состоянии, которое представляет конкретные понятия или порции информации, с данными во втором виде или состоянии, которые представляют те же самые понятия или порции информации. Другая задача настоящего изобретения состоит в том, чтобы облегчить перевод документов с одного языка или из одного состояния на другой язык или в другое состояние путем обеспечения способа и устройства для создания второго документа, содержащего данные во втором состоянии, виде или на втором языке, из первого документа, содержащего данные в первом состоянии, виде или на первом языке, с тем результатом, что первый и второй документы представляют практически одни и те же понятия или информацию. Еще одна задача настоящего изобретения состоит в том, чтобы облегчить перевод документов с одного языка или из одного состояния на другой язык или в другое состояние путем обеспечения способа и устройства для создания второго документа, содержащего данные во втором состоянии, виде или на втором языке, из первого документа, содержащего данные в первом состоянии, виде или на первом языке, с тем результатом, что первый и второй документы представляют практически одни и те же понятия или информацию, и при этом способ и устройство включают в себя перекрестно-понятийную ассоциативную базу данных. Еще одна задача настоящего изобретения состоит в том, чтобы обеспечить перевод документов (в широком смысле, преобразование понятий из одного состояния в другое состояние) в режиме реального времени. Еще одна задача настоящего изобретения состоит в том, чтобы обеспечить способ и устройство для создания базы данных для использования в преобразовании информации из одного состояния во второе состояние. В предпочтительном варианте осуществления этой информацией является язык, и изобретение относится к способу и устройству для создания ассоциативной базы данных, причем эта база данных выполнена с возможностью использования в системе языкового перевода. Настоящее изобретение решает эти и иные задачи путем обеспечения способа и устройства для создания перекрестно-понятийной базы данных. Способ и устройство для создания перекрестнопонятийной базы данных могут включать в себя обеспечение двух или более документов, причем каждый документ наличествует в отличном от других языке, но представляет практически одни и те же понятия. Эти документы могут быть точными переводами одного и того же текста, т.е. параллельными текстовыми документами, либо могут быть переводами, содержащими в общем связанный текст, т.е. сопоставимыми текстовыми документами. Согласно настоящему изобретению выбирают по меньшей мере первое и второе появления всех слов и цепочек слов, которые имеют множество появлений в первом языке, в доступных перекрестно-языковых документах. Затем выбирают по меньшей мере первый диапазон слов и второй диапазон слов в документах на втором языке, причем первый и второй диапазоны слов соответствуют первому и второму появлениям выбранных слова или цепочки слов в документах на первом языке. Затем сравнивают слова и цепочки слов, найденные в первом диапазоне слов, со словами или-2 006373 цепочками слов во втором диапазоне слов, обнаруживая слова и цепочки слов, общие в обоих диапазонах слов, и сохраняют эти обнаруженные общие слова и цепочки слов в перекрестно-понятийной базе данных. Согласно изобретению затем ассоциируют в упомянутой перекрестно-понятийной базе данных обнаруженные общие слова или цепочки слов в двух диапазонах на втором языке с выбранными словом или цепочкой слов на первом языке, ранжированные по их частоте ассоциаций (числу повторных появлений), после согласования частот ассоциаций, как подробно указывается здесь. Посредством тестирования общих слов и цепочки слов по языкам в параллельных или сопоставимых текстах база данных будет разрешать тем больше ассоциаций, чем больше параллельный или сопоставимый текст становится доступным во множестве различных языков. Настоящее изобретение также решает эти и иные задачи путем обеспечения способа и устройства для преобразования документа из одного состояния в другое состояние. Настоящее изобретение обеспечивает базу данных, состоящую из сегментов данных на первом языке, ассоциированных с сегментами данных на втором языке (созданную вышеописанными способами или вручную). Согласно настоящему изобретению, переводят текст путем обращения к вышеназванной базе данных и идентифицируют самую длинную цепочку слов в документе, подлежащем переводу (измеряемую числом слов), начиная с первого слова документа, которая имеется в этой базе данных. Система затем извлекает из базы данных цепочку слов на втором языке, ассоциированную с обнаруженной цепочкой слов из документа на первом языке. Система затем выбирает вторую цепочку слов в документе, которая имеется в этой базе данных и имеет частично совпадающее слово (или, альтернативно, цепочку слов), с ранее идентифицированной цепочкой слов в документе, и извлекает из базы данных цепочку слов на втором языке, ассоциированную со второй цепочкой слов на первом языке. Если ассоциации цепочек слов на втором языке имеют частично совпадающее слово (или, альтернативно, слова), эти ассоциации цепочек слов на втором языке объединяются (исключая избыточность в частичном совпадении) для формирования перевода; если нет,другие ассоциации второго языка с цепочками слов первого языка ищутся и тестируются для объединения через частичное совпадение слов до тех пор, пока не достигается успех. Следующая цепочка слов в документе на первом языке выбирается путем нахождения самой длинной цепочки слов в базе данных,которая имеет частично совпадающее слово (или, альтернативно, слова) с ранее идентифицированной цепочкой слов первого языка, и вышеуказанный процесс повторяется до тех пор, пока весь документ на первом языке не будет переведен в документ на втором языке. Согласно настоящему изобретению также создают частотные таблицы для определения ассоциации между двумя или более словами так, что эти частотные таблицы могут использоваться в других приложениях, в том числе тех, которые включают в себя преобразование содержания из одного состояния во второе состояние. Эти частотные таблицы создаются путем проверки документа в заданном состоянии(например, на заданном языке) и определения частоты, с которой связываются два слова и(или) две цепочки слов, на основании близости к слову или цепочке слов в тексте. Таким образом, например, путем проверки текстов в частотных таблицах на английском языке можно устанавливать ассоциации для слов или цепочек слов, связанных с фразой гора Эверест, такие как гора, высочайшее место в мире,снег, восхождение, погибшие люди и холод. Эти частотные таблицы можно затем использовать в любом числе интеллектуальных приложений, чтобы отвечать на вопросы, путем идентификации общих ассоциаций в двух или более частотных таблицах. Базы данных, созданные для интеллектуальных приложений, могут строиться из документов на одном языке (или, альтернативно, с помощью перекрестноязыкового текста). Краткое описание чертежей Фиг. 1 - вариант осуществления перекрестно-понятийной базы данных согласно настоящему изобретению; фиг. 2 - вариант осуществления компьютерной системы по настоящему изобретению, реализующей способы по настоящему изобретению; фиг. 3 - запоминающее устройство компьютерной системы по настоящему изобретению, содержащее программы для реализации способов по настоящему изобретению. Подробное описание изобретения Настоящее изобретение обеспечивает способ и устройство для создания и пополнения перекрестнопонятийной базы данных и для перевода документов с первого языка или из первого состояния на второй язык или во второе состояние с помощью этой перекрестно-понятийной базы данных. Документы, как обсуждается здесь, представляют собой совокупности информации как понятий, которые представляются символами и знаками, зафиксированными на некотором носителе. Например, документами могут быть электронные документы, хранящиеся на магнитных или оптических носителях, либо бумажные документы, такие как книги. Символы или знаки, содержащиеся в документах, представляют понятия и информацию, выраженные с помощью одной или более систем выражений, предназначенных для понимания пользователями этих документов. Настоящее изобретение манипулирует документами в первом состоянии, т.е. содержащими информацию, выраженную в одной системе выражений, чтобы получить документы во втором состоянии, т.е. содержащие практически ту же самую информацию, выраженную с помощью второй системы выражений. Таким образом, настоящее изобретение может манипулировать до-3 006373 кументами или переводить документы между системами выражений, к примеру, письменных и разговорных языков, таких как английский, иврит и кантонский (диалект китайского), на другие языки. Система или устройство для реализации способа преобразования содержания или манипулирования содержанием по настоящему изобретению может быть компьютерной системой 200, показанной на фиг. 2. Эта компьютерная система 200 включает в себя процессор 202, связанный через шину 214 с памятью 208, устройством 210 ввода и устройством 212 вывода. Компьютерная система 200 может также включать в себя устройство 204 хранения данных и сетевой интерфейс 206. Процессор 202 осуществляет доступ к данным и программам, хранящимся в памяти 208. Путем выполнения программ из памяти 208 процессор может управлять компьютерной системой 200 и может выполнять шаги для манипулирования данными и для управления устройствами, включая, к примеру, устройство 210 ввода, устройство 212 вывода, устройство 214 хранения данных, сетевой интерфейс 206 и память 208. Программы, хранящиеся в памяти 208, могут включать в себя шаги для выполнения способов по настоящему изобретению, такие как преобразование содержания, ассоциирование слов и цепочек слов, и способов создания и пополнения базы данных. Устройство 204 хранения данных записывает и сохраняет информацию для последующего извлечения процессором 202 в память 208 и может включать в себя устройства хранения данных, известные в технике, такие, например, как устройства энергонезависимой памяти, дисководы для магнитных дисков,лентопротяжные устройства и устройства оптической памяти. Устройство 204 хранения может хранить программы и данные, в том числе базы данных, которые могут переноситься в память 208 для использования процессором 202. Полные базы данных или части баз данных могут переноситься в память 208 для доступа и манипулирования со стороны процессором 202. Сетевой интерфейс 206 обеспечивает взаимодействие между компьютерной системой 200 и сетью 216, такой как Интернет, и преобразует сигналы из компьютерной системы 200 в формат, который можно передавать по сети 216, и наоборот. Устройство 210 ввода может включать в себя, к примеру, клавиатуру и сканер для ввода в память 208 и в устройство 204 хранения данных. Вводимые данные могут включать в себя текст документов, подлежащих хранению в документной базе данных для анализа и преобразования содержания. Устройство 212 вывода включает в себя устройства для представления информации пользователю компьютерной системы и может включать в себя, к примеру, экран монитора и принтер. Теперь будет приведено подробное описание настоящего изобретения, включая способ и устройство создания базы данных, а также способ и устройство преобразования. Способ и устройство создания базы данных Способ по настоящему изобретению использует перекрестно-понятийную базу данных для манипулирования содержанием документов. Фиг. 1 показывает вариант осуществления перекрестно-понятийной базы данных. Этот вариант осуществления перекрестно-понятийной базы данных содержит листинг ассоциированных сегментов данных в столбцах 1 и 2. Сегменты данных являются символами или группировками знаков, которые представляют частное понятие или порцию информации в системе выражения. Если система выражения в документе является, к примеру, словесным языком, сегмент может быть словом или цепочкой слов. Таким образом, сегменты Системы А в столбце 1 являются сегментами данных,которые представляют разнообразные понятия и сочетания понятий Dal, Da2, Da3 и Da4 в гипотетической системе выражения А. Сегменты Системы В в столбце 2 являются сегментами Db1, Db3, Db4, Db5,Db7, Db9, Db10 и Db12 данных, которые представляют разнообразные понятия и некоторые из сочетаний этих понятий в гипотетической системе выражения В, которые упорядочены по частоте ассоциации с сегментами данных в системе выражения А. Столбец 3 показывает прямую частоту, которая представляет собой число раз, когда сегмент или сегменты в языке В были ассоциированы с приведенным в списке сегментом (или сегментами) в языке А. Столбец 4 показывает частоты после вычитания, которые представляют число раз, когда сегмент (или сегменты) данных в языке В ассоциированы с сегментом (или сегментами) данных в языке А после вычитания числа раз, когда сегмент (или сегменты) данных ассоциированы как часть большего сегмента, как более полно описывается позже. Как показано на фиг. 1, возможно, что единственный сегмент, скажем Dal, является в наибольшей степени ассоциирован со множеством сегментов, Db1 вместе с Db3 и Db4. Чем выше частоты после вычитания (как описывается здесь) между сегментами данных, тем выше вероятность того, что сегмент системы А эквивалентен сегменту системы В. В дополнение к измерению согласованных частот по полному числу появлений могут также измеряться согласованные частоты посредством вычисления процентной доли случаев, когда конкретные сегменты системы А соответствуют конкретным сегментам системы В. Когда база данных используется для перевода документа, ассоциированный сегмент с наивысшим рангом будет находиться в базе данных первым в процессе. Зачастую, однако, способ, используемый для тестирования комбинации ассоциированных сегментов для перевода (как описывается позже), определяет, что следует тестировать отличающуюся ассоциацию с менее высоким рангом, потому что ассоциация с более высоким рангом, единожды протестированная, не может использоваться. Например, если база данных запрашивалась в отношении ассоциации для Dal, она выдаст Db1+Db3+Db4; еслиDbl+Db3+Db4 не может использоваться, как определено процессом, который точно комбинирует сегменты данных для перевода, база данных выдаст тогда Db9+Db10 для тестирования для точной комбинации-4 006373 с другим ассоциированным сегментом для перевода. В общем случае способ создания перекрестно-понятийной базы данных по настоящему изобретению включает в себя проверку и оперирование на параллельном или сопоставимом тексте. Способ и устройство по настоящему изобретению используются так, что база данных создается ассоциациями по двум состояниям - точным преобразованиям или, конкретнее, ассоциациям между понятиями, как они выражены в одном состоянии, и понятиями, как они выражены в другом состоянии. Перевод и иные релевантные ассоциации между двумя состояниями становятся сильнее, т.е. чаще, по мере того как все больше документов проверяются и обрабатываются настоящим изобретением, так что путем оперирования на достаточно большой выборке документов наиболее общая (и, в некотором смысле, правильная) ассоциация становится явной, и способ и устройство могут использоваться для целей преобразования. В одном варианте осуществления настоящего изобретения два состояния представляют словесные языки (например, английский, иврит, китайский и т.д.), так что настоящее изобретение создает перекрестно-языковую базу данных, соотносящую слова и цепочки слов на одном языке в их переводные эквиваленты на втором языке. Цепочки слов могут определяться как группы следующих друг за другом смежных слов и часто включают в себя знак препинания и иную метку, используемые в выражениях языка. В этом примере настоящее изобретение создает базу данных путем проверки документов на двух языках и создания базы данных переводов для каждых повторяющихся слова или цепочки слов на обоих языках. Однако настоящее изобретение не нужно ограничивать языковыми переводами. Настоящее изобретение позволяет пользователю создавать базу данных понятий и ассоциировать эти понятия с другими отличающимися понятиями иерархическим образом. Таким образом, понятия ассоциируются с другими понятиями и оцениваются согласно частоте появления. Конкретный вес присваивается частоте появления, и использование, примененное к созданной таким образом базе данных, может меняться в зависимости от пользовательских требований. Например, в контексте преобразования текста с одного языка на другой настоящее изобретение будет действовать для создания языковых переводов слов и цепочек слов между английским и китайским языками. Настоящее изобретение будет выдавать ранжирование ассоциаций между словами и цепочками слов по этим двум языкам. При задании достаточно большого размера выборки слово или цепочка слов,появляющиеся наиболее часто, будут одним из китайских эквивалентов английского слова или цепочки слов. Однако настоящее изобретение будет также выдавать другие ассоциации китайского языка для английских слов или цепочек слов, и пользователь может манипулировать этими ассоциациями, как желает. К примеру, слово гора при оперировании согласно настоящему изобретению может выдать список слов и цепочек слов китайского языка на проверяемом языке. Эквиваленты китайского языка к слову гора будут наиболее вероятно ранжированы выше всего; однако настоящее изобретение будет выдавать слова или цепочки слов другого иностранного языка, ассоциированные с горой, такие как снег,лыжи, опасный спорт, наивысшая точка в мире или г. Эверест. Этими словами или цепочками слов, которые, вероятно, будут ранжированы ниже, чем переводы горы, можно манипулировать, как пожелает пользователь. Таким образом, настоящее изобретение представляет собой автоматический создатель базы данных. Наиболее сильные ассоциации представляют переводы или преобразования в одном смысле, но другие частые (но более слабые) ассоциации представляют понятия, которые тесно связаны с проверяемыми понятиями. Поэтому базы данных могут использоваться системами, использующими приложения искусственного интеллекта, которые общеизвестны в технике. Эти системы в настоящее время используют неполные, созданные вручную понятийные базы данных или онтологии в качестве нейронных сетей для приложений. Эти базы данных ассоциированных понятий для приложений искусственного интеллекта могут строиться с помощью любого определенного пользователем диапазона из документов на единственном языке. Другой вариант осуществления настоящего изобретения использует вычислительное устройство,такое как персональная компьютерная система вида, легко доступного в уровне техники. Хотя это вычислительное устройство является, как правило, общим персональным компьютером (либо отдельным,либо в сетевом окружении), подразумеваются аналогично и иные вычислительные устройства, такие как персональные цифровые ассистенты (ПЦА, PDA), беспроводные устройства, серверы, мейнфреймы и тому подобное. Однако способ и устройство по настоящему изобретению не нуждаются в использовании такого вычислительного устройства и могут легко выполняться иными средствами, в том числе созданием перекрестных ассоциаций вручную. Способ, посредством которого следующие друг за другом документы проверяются для расширения выборки документов и создания перекрестно-ассоциированной базы данных, может варьироваться: документы могут устанавливаться для анализа и манипулирования вручную, автоматической подачей (такой как автоматические загрузчики бумаги, как известно из уровня техники) или использованием поисковых методик по Интернет для автоматического отыскания связанных документов, таких как Web Crawlers. Отметим, что настоящее изобретение может создавать ассоциированную базу данных путем проверки сопоставимого текста в дополнение к параллельному тексту (или даже вместо него). Далее, способ просматривает все доступные документы совместно при поиске повторяющихся слов или цепочек слов в языке. Построение базы данных Согласно настоящему изобретению документы проверяются для целей построения базы данных. После ввода документов (опять-таки, пары документов, представляющих один и тот же текст на двух разных языках) процесс создания начинается с помощью описанных здесь способов и(или) устройств. Для целей иллюстрации предположим, что документы содержат одно и то же содержание (или, в общем смысле, понятие) на двух разных языках. Документ А имеется на языке А, Документ В имеется на языке В. Эти документы имеют следующий текст: Первый шаг в настоящем изобретении состоит в том, чтобы вычислить диапазон слов для определения приблизительного местоположения возможной ассоциации для любого заданного слова или любой цепочки слов. Поскольку перекрестно-языковый пословный анализ сам по себе не даст продуктивных результатов (т.е. слово 1 в документе А зачастую не будет существовать как буквальный перевод слова 1 в документе В), и структура предложения в одном языке может иметь эквивалентное понятие в отличном местоположении (или порядке) предложения, чем другой язык, методика создания базы данных по настоящему изобретению ассоциирует каждое слово или цепочку слов на первом языке со всеми из слов или цепочек слов, найденных в выбранном диапазоне в документе на втором языке. Это также важно,потому что один язык зачастую выражает понятия более длинными или более короткими цепочками слов, чем другой язык. Диапазон определяется проверкой двух документов и используется для сравнения слов и цепочек слов во втором документе со словами и цепочками слов в первом документе. Т.е. диапазон слов или цепочек слов во втором документе проверяется как возможные ассоциации для каждого слова или цепочки слов в первом документе. Посредством проверки по диапазону методика создания базы данных устанавливает несколько слов или цепочек слов второго языка, которые могут приравниваться и переводить слова и цепочки слов первого языка. Имеется два атрибута, которые должны быть определены, чтобы установить диапазон в документе на втором языке, в котором нужно искать ассоциации для любого заданного слова или цепочки слов в документе на первом языке. Первым атрибутом является значение или размер диапазона во втором документе, измеряемый числом слов в диапазоне. Вторым атрибутом является местоположение диапазона во втором документе, измеряемое размещением середины диапазона. Оба атрибута определяются пользователем, но ниже предлагаются примеры предпочтительных вариантов осуществления. При определении размера и местоположения диапазона цель состоит в гарантировании высокой вероятности того, что будет включен перевод анализируемого сегмента на первом языке в слово или цепочку слов на втором языке. Для определения размера или значения диапазона могут использоваться различные методы, в том числе общие статистические методы, такие как получение колоколообразной кривой на основании числа слов в документе. При таком статистическом методе, как колоколообразная кривая, диапазон в начале и в конце документа будет меньше, чем диапазон в середине документа. Колоколообразная частота для диапазона обеспечивает разумный выбор экстраполяции перевода независимо от того, получен ли он согласно абсолютному числу слов в документе или согласно некоторой доли слов в документе. Существуют иные способы вычислить диапазон, такие как ступенчатый метод, где диапазон существует на одном уровне для некоторой доли слов, втором более высоком уровне для другой доли слов и третьем уровне, равном первому уровню, для последней доли слов. Опять-таки, все атрибуты диапазона могут определяться или устанавливаться пользователем согласно другим возможным параметрам с целью улавливания полезных ассоциаций для анализируемого слова или цепочки слов в первом языке. Местоположение диапазона в документе на втором языке может зависеть от сравнения между числом слов в двух документах. То, что считается документом для целей местоположения диапазона, определяется пользователем и может представлять собой новые статьи, главы книги и любые иные дискретно идентифицируемые блоки содержания, составленные из множества сегментов данных. Если счет слов двух документов приблизительно равен, местоположение диапазона во втором языке будет приблизительно совпадать с местоположением анализируемого слова или цепочки слов в первом языке. Если число слов в двух документах не равно, тогда для точного позиционирования местоположения диапазона может использоваться соотношение. Например, если документ А имеет 50 слов, а документ В имеет 100 слов, отношение между этими двумя документами равно 1:2. Середина документа А является словесной позицией 25. Однако если анализируется слово 25 в документе А, использование этой середины (словесной позиции 25) в качестве размещения середины диапазона в документе В не является эффективным,поскольку эта позиция (словесная позиция 25) не является серединой документа В. Вместо этого середина диапазона в документе В для анализа слова 25 в документе А может быть определена отношением слов между двумя документами (т.е. 25x2/1=50) путем помещения вручную в середину документа В или иными методами.-6 006373 Путем просмотра в позиции слова или цепочки слов в документе и отметки всех слов или цепочек слов, которые попадают в диапазон, как описывается выше, методика создания базы данных по настоящему изобретению выдает возможный набор слов или цепочек слов в документе на втором языке, который можно переводить в каждое слово или цепочку слов в анализируемом первом документе. При использовании методики создания базы данных по настоящему изобретению набор слов и цепочек слов,которые оцениваются как возможные переводы, будет сужаться по мере развития частот ассоциации. Таким образом, после проверки пары документов настоящее изобретение будет создавать частоты ассоциации для слов и цепочек слов в одном языке со словами или цепочками слов во втором языке. После того как будут проверены несколько пар документов согласно настоящему изобретению (а тем самым создана большая выборка), методика создания перекрестно-языковой ассоциативной базы данных будет выдавать все более и более высокие частоты ассоциации для любого слова или любой цепочки слов. После достаточно большой выборки наивысшие частоты ассоциации дадут результат в возможном переводе; разумеется, конечная точка, где частота ассоциации считается точным переводом, определяется пользователем и подлежит другим методам пояснительного перевода (таким как описанные в предварительной заявке 60/276,107, озаглавленной Method and Apparatus for Content Manipulation (Способ и устройство для манипуляции содержанием), поданной 16 марта 2001 г. и включенной сюда посредством ссылки). Как указано выше, изобретение тестирует не только слова, но также цепочки слов (множества слов). Как упоминается, цепочки слов включают в себя все знаки пунктуации и иные метки по мере их появления. После того как анализируется единственное слово на первом языке, методика создания базы данных по настоящему изобретению анализирует двухсловные цепочки слов, затем трехсловные цепочки слов и т.д. по возрастанию. Эта методика делает возможным перевод слов или цепочек слов на одном языке, которые переводятся в более короткие или более длинные цепочки слов (или слово) на другом языке, как часто встречается. Если слово или цепочка слов появляется один раз во всех доступных документах на первом языке, процесс немедленно переходит к анализу следующего слова или цепочки слов,когда цикл анализа появляется снова. Анализ останавливается, когда проанализированы все слова или цепочки слов, которые имеют множество появлений на первом языке в доступном параллельном или сопоставимом тексте. В некотором смысле любое число документов объединяются и могут обрабатываться как один единый документ для целей просмотра повторов слов или цепочек слов. В сущности, для слова или цепочки слов без повтора оно должно было бы появиться только один раз во всем доступном параллельном и сопоставимом тексте. Вдобавок, в качестве другого варианта осуществления возможно проверять диапазон, соответствующий каждому слову или цепочке слов независимо от того, появляется ли оно больше,чем один раз, во всем доступном параллельном и сопоставимом тексте. В качестве другого варианта осуществления база данных может строиться путем разрешения конкретных слов и цепочек слов, которые являются частью запроса. Когда слова и цепочки слов вводятся для перевода, настоящее изобретение может просматривать множество появлений этих слов или цепочек слов в перекрестно-языковых документах, хранящихся в памяти, которые еще не анализировались, путем обнаружения перекрестноязыкового текста в Интернет с помощью средств сетевого поиска и других устройств и, наконец, путем обращения к пользователю дать пропущенные ассоциации на основании анализа запроса и отсутствия достаточно доступного перекрестно-языкового материала. Настоящее изобретение, таким образом, функционирует таким образом, чтобы анализировать цепочки слов, которые зависят от правильного расположения слов (в этой цепочке слов), и может функционировать так, чтобы учитывать контекст выбора слов, а также грамматические особенности, такие как выражение, стиль или аббревиатуры. Эти цепочки слов также полезны для метода перевода двойного частичного совпадения, который обеспечивает процесс перевода, как описывается здесь. Важно отметить, что настоящее изобретение может охватывать ситуации, где слово поднабора или цепочка слов большей цепочки слов последовательно выдается как ассоциация для более длинной цепочки слов. Настоящее изобретение учитывает эти образы путем манипулирования выдачей частот. Например, собственные имена иногда представляются полными (как в Джон Доу), сокращенными до имени или фамилии (Джон или Доу) либо сокращенными иным образом (Мр. Доу). Поскольку настоящее изобретение будет вероятнее всего выдавать больше выдач в виде отдельных слов, чем выдач в виде цепочек слов (т.е. больше выдач для имен или фамилий, а не цепочки слов полного имени Джон Доу), т.к. эти слова, которые составляют цепочку слов, будут обязательно подсчитаны по отдельности, а также как часть выражения, должен использоваться механизм для изменения ранжирования. Например, в любом документе имя Джон Доу может появиться сотню раз, тогда как Джон сам по себе или как часть Джона Доу может появиться сто двадцать раз, а Доу сам по себе или как часть Джона Доу может появиться сто десять раз. Выдача обычного перевода (согласно настоящему изобретению) будет ранжировать Джон выше, чем Доу, и оба этих слова выше, чем цепочку слов Джон Доу, - все при попытке анализа цепочки слов Джон Доу. Путем вычитания числа появлений более длинной цепочки слов из появлений поднабора (или отдельных выдач) можно достичь должного порядка (хотя, разумеется, другие способы могут использоваться для получения подобного же результата). Таким образом, при-7 006373 вычитании сотни (числа появлений для Джон Доу) из ста двадцати (число появлений для слова Джон) правильная выдача для Джон равна двадцати. Применение этого анализа дает сотню как число появлений для цепочки слов Джон Доу (при анализе и попытке перевести эту цепочку слов), двадцать для слова Джон и десять для цепочки слов Доу, тем самым создавая должные ассоциации. Отметим, что этот итог не ограничивается собственными именами и часто появляется в общих выражениях и во многих различных содержаниях. Например, каждый раз, как цепочка слов Я люблю Вас переводится в свою наиболее частую ассоциацию цепочкой слов в другом языке, слово люблю в этом другом языке может также ассоциироваться независимо в каждый из этих раз. Дополнительно, когда цепочка слов переводится отлично от другого текста, который анализируется, слово люблю может снова ассоциироваться. Это исказит анализ и выдаст слово люблю на втором языке вместо Я люблю Вас на втором языке для перевода Я люблю Вас на первом языке. Поэтому еще раз, система вычитает число появлений ассоциации с более длинной цепочкой слов из частоты всех ассоциаций поднаборов при ранжировании ассоциаций для более длинной цепочки. Эти принципы отражаются также на фиг. 1. Кроме этого, базе данных может быть дана команда игнорировать общие слова, такие как it, an,a, of, as, in и тому подобное, или любые общие слова при подсчете частот ассоциации для слов или цепочек слов. Это будет более точно отражать верное число частот ассоциации, которое иначе было бы искажено многочисленными появлениями общих слов в качестве части любого данного диапазона. Это позволяет методике создания ассоциативной базы данных по настоящему изобретению предохранять общие слова от искажения анализа без излишних вычислений вычитания. Следует отметить, что если эти или любые иные общие слова не вычитаются из ассоциативной базы данных, они, в конечном счете, не будут одобрены в качестве перевода, если только это не является уместным, потому что процесс двойного частичного совпадения, более подробно описанный здесь, не примет его. Следует отметить, что другие вычисления для согласования частот ассоциации могут выполняться,чтобы гарантировать точное отражение нескольких общих появлений слова или цепочек слов. Например,согласование, чтобы избежать двойного подсчета, может быть приемлемо, когда диапазоны анализируемых слов частично совпадают. Согласования желательны в этих случаях, чтобы построить более точные частоты ассоциации. Пример варианта осуществления способа и устройства для создания и пополнения перекрестно-понятийной базы данных согласно настоящему изобретению будет теперь описан с помощью двух документов, описанных выше в качестве примера, - таблица воссоздается следующим образом: Таблица 1 Отметим еще раз, что хотя этот вариант осуществления фокусируется на повторах слов и цепочек слов лишь в единственном документе, это главным образом для целей иллюстрации. Повторы слов и цепочек слов будут анализироваться с помощью всего доступного параллельного или сопоставимого текста в совокупности. С помощью двух перечисленных выше документов (А на первом языке и В на втором языке) выполняются следующие шаги для методики создания базы данных. Шаг 1. Сначала определяются размер и местоположение диапазона. Как указано, эти размер и местоположение могут определяться пользователем или могут аппроксимироваться множеством способов. Счет слов этих двух документов приблизительно равный (десять слов в документе А, восемь слов в документе В), поэтому поместим середину диапазона для совпадения с местоположением слова или цепочки слов в документе А. (Отметим: поскольку отношение количества слов между документами составляет 80%, местоположение диапазона может альтернативно устанавливаться с применением дроби 4/5). В этом примере размер или значение диапазона, равное трем, может обеспечивать наилучшие результаты для аппроксимации колоколообразной кривой; диапазон будет 1 в начале и в конце документа и 2 в середине. Однако, как указывалось, диапазон (или способ, использованный для определения диапазона) полностью определяется пользователем. Шаг 2. Далее, первое слово в документе А проверяется и тестируется по документу А, чтобы определить число появлений этого слова в документе. В этом примере первое слово в документе А есть X: X появляется три раза в документе А, в позиции 1, 4 и 9. Номера позиций слова или цепочки слов являются просто местоположениями этого слова или цепочки слов в документе относительно остальных слов. Таким образом, номера позиций, соответствующие числу слов в документе, пренебрегая знаками препинания, - к примеру, если в документе имеется десять слов и слово король появляется дважды, номера позиций слова король являются просто местами (из десяти слов), где это слово появляется. Раз слово X появляется более, чем однажды, в документе, процесс переходит к следующему шагу. Если X появляется лишь однажды, то это слово будет пропущено, и процесс продолжится к следующему слову, и процесс создания продолжится. Шаг 3. Выдаются возможные переводы на второй язык для слова X первого языка в позиции 1: применение диапазона к документу В дает слова в позициях 1 и 2 (11) в документе В: АА и ВВ (расположенные в позициях 1 и 2 в документе В). Все возможные сочетания выдаются в качестве потенциаль-8 006373 ных переводов или релевантных ассоциаций для X: АА, ВВ и АА ВВ (как комбинация цепочек слов). Таким образом, X1 (первое появление слова X) выдает АА, ВВ и АА ВВ как ассоциации. Шаг 4. Анализируется следующая позиция слова X. Это слово (Х 2) появляется в позиции 4. Поскольку позиция 4 ближе к центру документа, диапазон (как определено выше) будет из двух слов на любой стороне позиции 4. Возможные ассоциации выдаются путем просмотра слова 4 в документе В и применения диапазона 2, следовательно, выдаются два слова перед словом 4 и два слова после слова 4. Таким образом, выдаются слова в позициях 2, 3, 4, 5 и 6. Эти позиции соответствуют словам BB, СС, АА,ЕЕ и FF в документе В. Рассматриваются все прямые перестановки этих слов (и их объединенные цепочки слов). Так, Х 2 выдает ВВ, СС, АА, ЕЕ, FF, ВВ СС, ВВ СС АА, ВВ СС АА ЕЕ, ВВ СС АА ЕЕ FF, СС АА, СС АА ЕЕ, СС АА ЕЕ FF, АА ЕЕ, АА ЕЕ FF и ЕЕ FF в качестве возможных ассоциаций. Шаг 5. Выдачи первого появления X (позиция 1) сравниваются с выдачами второго появления X(позиция 4) и определяются совпадения. Отметим, что выдачи, которые включают в себя одно и то же слово или цепочку слов, появляющиеся при частичном совпадении двух диапазонов, должны сокращаться до единственного появления. Например, в этом примере слово в позиции 2 есть ВВ; оно выдается как для первого появления X (при оперировании посредством диапазона), так и для второго появления X(при оперировании посредством диапазона). Так как эта же самая словесная позиция выдается как дляX1, так и для Х 2, слово считается за одно появление. Если, однако, одно и то же слово выдается в частично совпадающем диапазоне, но из двух различных словесных позиций, тогда это слово считается дважды и записывается частота ассоциации. В этом случае обороты для слова X есть АА, поскольку это слово (АА) появляется в обеих выдачах ассоциации для X1 и Х 2. Отметим, что другое слово, которое появляется в обеих выдачах ассоциации, есть ВВ; однако, как описано выше, поскольку это слово находится в одной и той же позиции (и является, следовательно, тем же самым словом), достигаемой оперированием диапазоном на первом и втором появлениях X, это слово не принимается во внимание. Шаг 6. Анализируется следующая позиция слова X (позиция 9) (Х 3) . Применение диапазона 1(возле конца документа) выдает ассоциации в позициях 8, 9 и 10 документа В. Поскольку документ В имеет только 8 позиций, результаты усекаются, и только словесная позиция 8 выдается как возможные значения для X: СС. (Отметим: альтернативно, определенные пользователем параметры могут вызываться для минимум двух знаков как часть анализа, который выдаст позицию 8 и следующую ближайшую позицию (которой является GG в позиции 7. Сравнение выдач Х 3 с выдачами X1 не обнаруживает совпадений, а тем самым и ассоциаций. Шаг 7. Анализируется следующая позиция слова X; однако, больше нет появлений слова X в документе А. В этот момент частота ассоциации, равная одному (1), устанавливается для слова X на языке А к слову АА на языке В. Шаг 8. Поскольку больше нет появлений слова X, процесс инкрементируется на слово и тестируется цепочка слов. В этом случае проверяемая цепочка слов есть X Y, первые два слова в документе А. К этому выражению применяется тот же самый метод, что и описанный в шагах 2-7. Шаг 9. Путем просмотра документа А мы видим, что имеется одно появление цепочки слов X Y. В этот момент инкрементированный процесс останавливается и не происходит никакого создания базы данных. Поскольку достигнута конечная точка, проверяется следующее слово (этот процесс происходит всякий раз, когда для цепочки слов не происходит совпадения); в этом случае слово в позиции 2 документа А есть Y. Шаг 10. Применение процесса из шагов 2-7 для слова Y дает следующее. Имеются два появления слова Y (позиции 2 и 7), так что процесс создания базы данных продолжается (опять же, если Y появляется лишь однажды в документе А, то Y не будет проверяться). Размер диапазона в позиции 2 есть 1 слово. Применение диапазона к документу В (позиция 2, местоположение первого появления слова Y) выдает результаты в позициях 1, 2 и 3 в документе В. Соответствующие слова на иностранном языке в этих позициях есть АА, ВВ и СС. Применение прямых перестановок дает следующие возможности для Y1: АА, ВВ, СС, АА ВВ, АА ВВ СС и ВВ СС. Анализируется следующая позиция Y (позиция 7). Размер диапазона в позиции 7 составляет 2 слова. Применение диапазона к документу В (позиция 7) выдает результаты в позициях 5, 6, 7 и 8: ЕЕ FFGG и СС. Все перестановки дают следующие возможности для Y2: ЕЕ, FF, GG, СС, ЕЕ FF, ЕЕ FF GG, ЕЕ FFGG СС, FF GG, FF GG СС и GG СС. Нахождение соответствий результатов для Y1 дает СС как единственное соответствие. Объединение соответствий для Y1 и Y2 дает СС как частоту ассоциации для Y. Шаг 11. Конец увеличения диапазона. Поскольку единственное возможное соответствие для словаY (слово СС) появляется в конце диапазона для первого появления Y (СС, появившееся в позиции 3 в документе В), диапазон увеличивается на 1 при первом появлении, чтобы выдать позиции 1, 2, 3 и 4: АА,ВВ, СС и АА: или следующие прямые перестановки: АА, ВВ, СС, АА ВВ, АА ВВ СС, АА ВВ СС АА, ВВ-9 006373 СС, ВВ СС АА и СС АА. Применение этого результата дает все же СС как возможный перевод для Y. Отметим, что диапазон увеличивался, потому что выданное соответствие было на конце диапазона для первого появления (основное появление для слова Y); когда бы это сочетание ни появилось в конце диапазона, увеличение будет происходить на подшаге (или альтернативном шаге), чтобы обеспечить завершенность. Шаг 12. Поскольку больше не существует появлений Y в документе А, анализ инкрементируется на одно слово в документе А, и проверяется цепочка слов Y Z (следующее слово после слова Y). Инкрементирование до следующей цепочки слов (Y Z) и повторение процесса дает следующее. Цепочка слов Y Z появляется дважды в документе А: позиция 2 и 7. Возможностями для Y Z при первом появлении (Y Z1) являются АА, ВВ, СС, АА ВВ, АА ВВ СС, ВВ СС. (Отметим, альтернативно параметры диапазона могли бы быть определены так, чтобы включать в себя расширение размера диапазона по мере того, как анализируемые цепочки слов в языке А становятся длиннее). Возможностями для Y Z при втором появлении (Y Z2) являются ЕЕ, FF, GG, СС, ЕЕ FF, ЕЕ FF GG,ЕЕ FF GG СС, FF GG, FF GG СС и GG СС. Соответствия дают СС как возможную ассоциацию для цепочки слов Y Z. Расширение диапазона (конец увеличения диапазона) дает следующее для Y Z: АА, ВВ, СС, АА ВВ, АА ВВ СС, АА ВВ СС АА, ВВ СС, ВВ СС АА и СС АА. Применение результатов по-прежнему дает СС в качестве частоты ассоциации для цепочки слов YZ. Шаг 13. Поскольку больше не существует появлений Y Z в документе А, анализ инкрементируется на одно слово в документе А, и проверяется цепочка слов Y Z X (следующее слово после слова Z в позиции 3 в документе А). Инкрементирование до следующей цепочки слов (Y Z X) и повторение процесса (Y Z X появляется дважды в документе А) дает следующее. Выдачи для первого появления Y Z X находятся в позициях 2, 3, 4 и 5. Перестановками являются ВВ, СС, АА, ЕЕ, ВВ СС, ВВ СС АА, ВВ СС АА ЕЕ, СС АА, СС АА ЕЕ и АА ЕЕ. Выдачи для второго появления Y Z X находятся в позициях 5, 6, 7 и 8. Перестановками являются ЕЕ, FF, GG, СС, ЕЕ FF, ЕЕ FF GG, ЕЕ FF GG СС, FF GG, FF GG СС и GG СС. Сравнение этих двух вариантов дает СС в качестве частоты ассоциации для цепочки слов Y Z X; опять-таки, отметим, что оборот ЕЕ в качестве возможной ассоциации не принимается во внимание, потому что он появляется в обоих случаях как одно и то же слово (т.е. в одной и той же позиции). Шаг 14. Инкрементирование до следующей цепочки слов (Y Z X W) находит лишь одно появление; поэтому создание базы данных цепочек слов завершается и проверяется следующее слово: Z (позиция 3 в документе А). Шаг 15. Применение описанных выше шагов для Z, которое появляется три раза в документе А, дает следующее. Выдачами для Z1 являются: АА, ВВ, СС, АА, ЕЕ, АА ВВ, АА ВВ СС, АА ВВ СС АА, АА ВВ СС АА ЕЕ, ВВ СС, ВВ СС АА, ВВ СС АА ЕЕ, СС АА, СС АА ЕЕ и АА ЕЕ. Выдачами для Z2 являются: FF, GG, СС, FF GG, FF GG СС и GG СС. Сравнение Z1 и Z2 дает СС в качестве частоты ассоциации для Z.Z3 (позиция 10) не имеет выдач в диапазоне, как он определен. Однако если добавить к параметрам то, что должна быть по меньшей мере одна выдача для каждого слова или цепочки слов в языке А, выдачей для Z будет СС. Сравнение выдач для Z3 с Z1 дает СС в качестве частоты ассоциации для слова Z. Однако эту ассоциацию нельзя считать, потому что СС в словесной позиции 8 уже было учтено выше в ассоциации Z2. Когда частичное совпадение диапазона заставит процесс удвоить счет появлений, система может снизить частоту ассоциации, чтобы точнее отражать число правильных появлений. Шаг 16. Инкрементирование до следующей цепочки слов дает цепочку слов Z X, которая появляется дважды в документе А. Применение описанных выше шагов для Z X дает следующее. Выдачами для Z X1 являются: ВВ, СС, АА, ЕЕ, FF, ВВ СС, ВВ СС АА, ВВ СС АА ЕЕ, ВВ СС АА ЕЕ FF, СС АА, СС АА ЕЕ, СС АА ЕЕ FF, АА ЕЕ, АА ЕЕ FF и ЕЕ FF. Выдачами для Z X2 являются: FF, GG, СС, FF GG, FF GG СС и GG СС. Сравнение выдач дает ассоциацию между цепочками слов Z X и СС. Шаг 17. Инкрементирование, следующим выражением является Z X W. Оно появляется лишь однажды, так что проверяется следующее слово (X) в документе А. Шаг 18. Слово X уже проверено в первой позиции. Однако вторая позиция слова X относительно другого документа не проверялась на возможные выдачи для слова X. Таким образом, словом X (во второй позиции) оперируют теперь как при первом появлении слова X, двигаясь вперед по документу. Выдачи для X в позиции 4 дают: ВВ, СС, АА, ЕЕ, FF, ВВ СС, ВВ СС АА, ВВ СС АА ЕЕ, ВВ СС АА ЕЕ FF, СС АА, СС АА ЕЕ, СС АА ЕЕ FF, АА ЕЕ, АА ЕЕ FF и ЕЕ FF, выдачи для X в позиции 9 дают: СС.- 10006373 Сравнение результатов позиции 9 с результатами для позиции 4 дает СС как возможное соответствие для слова X и это дает частоту ассоциации. Шаг 19. Инкрементирование до следующей цепочки слов (поскольку при просмотре вперед в документе больше не появляется появлений X для сравнения со вторым появлением X) дает цепочку слов XW. Однако эта цепочка слов не появляется более одного раза в документе А, так что процесс переключается на проверку следующего слова (W). Слово W появляется только однажды в документе А, так что инкрементирование происходит не до следующей цепочки слов, поскольку слово W появляется лишь однажды, но до следующего слова в документе А - V. Слово V появляется лишь однажды в документе А, так что проверяется следующее слово (Y). Слово Y не появляется ни в какой позиции выше,чем позиция 7 в документе А, так что проверяется следующее слово (Z). Слово Z появляется опять после позиции 8 в позиции 10. Шаг 20. Применение описанного выше процесса ко второму появлению слова Z дает следующее. Выдачи для Z в позиции 8 дают: GG, СС и GG СС. Выдачи для Z в позиции 10 дают: СС. Сравнение результатов позиции 10 с позицией 8 не дает ассоциаций для слова Z. Опять же, слово СС выдается как возможная ассоциация, однако, поскольку СС представляет ту же самую словесную позицию, достигнутую анализом Z в позиции 8 и Z в позиции 10, эта ассоциация не принимается во внимание. Шаг 21. Инкрементирование на одно слово дает цепочку слов Z X; эта цепочка слов не появляется в каких-либо еще (впереди) позициях в документе А, так что процесс начинается заново со следующим словом в документе А - X. Слово X не появляется в каких-либо еще (впереди) позициях документа А,так что процесс начинается заново. Однако достигнут конец документа А, и анализ останавливается. Шаг 22. Конечная частота ассоциации табулируется объединением всех вышеприведенных результатов и вычитанием дубликатов, как пояснено. Очевидно, имеется достаточно данных для выдачи заключительных результатов для слов и цепочек слов в документе А. По мере того как проверяются все больше пар документов, содержащих слова и цепочки слов с этими проверенными выше ассоциациями, частоты ассоциаций будут становиться статистически более надежными, так что слова или цепочки слов между языками А и В будут выстраивать сильные ассоциации для возможных переводов слов и цепочек слов. Программа 1, изложенная в приложении листинга компьютерной программы, является примером программы для воплощения варианта осуществления способа создания базы данных. Программа 1 может выполняться в компьютерной системе типа, известного из уровня техники. Как демонстрируется, этот вариант осуществления представляет методику, использованную для создания ассоциаций. Методики по настоящему изобретению не нужно ограничивать языковым переводом. В широком смысле, эти методики будут применяться к любым двум выражениям одного и того же понятия, которые могут быть ассоциированы, а для его сущности перевод с иностранных языков просто существует как спаренные ассоциации одного и того же понятия, представленного разными словами или цепочками слов. Таким образом, настоящее изобретение может быть применено к ассоциированию данных, звука, музыки, видео или любого понятия широкого диапазона, которое существует в качестве понятия, включая понятия, которые могут представлять любые чувственные (звуковые, зрительные, обонятельные и т.п.) проявления. Все, что требуется, это чтобы настоящее изобретение анализировало два воплощения (в языковом переводе воплощениями являются документы; для музыки воплощениями могут быть цифровые представления музыкальной партитуры и звуковые частоты, обозначающие те же самые композиции, и т.п.). В другом варианте осуществления некоторые основанные на правилах алгоритмы, общеизвестные в уровне техники, могут встраиваться в обучение перекрестно-языковым ассоциациям для обработки некоторых классов текста, которые для целей содержания и значения взаимозаменяемы (а иногда могут иметь потенциально бесконечные производные слова), таких как имена, числа и даты. В дополнение к этому, если доступные перекрестно-языковые документы не дают статистически значимых результатов для перевода, пользователи могут проверять возможные выборы для перевода и другие ассоциации и одобрять и ранжировать подходящие выборы. Как описано, частоты ассоциации усиливаются между словами и цепочками слов по мере того, как все больше документов в переведенных парах анализируются в отношении частот ассоциации. По мере того как анализируется все больше языковых пар, способ и устройство по настоящему изобретению начнут заполнять выведенные ассоциации между языковыми парами на основании тех языков, которые имеют общую ассоциацию с третьим языком, но не напрямую друг с другом. Кроме того, когда переведенные документы существуют на множестве языков, выдачи общих ассоциаций могут анализироваться по нескольким языкам до тех пор, пока не найдется одна общая ассоциация между всеми, которая и является переводом. Программа 2, изложенная в приложении листинга компьютерной программы, является примером компьютерной программы, которая при работе совместно с компьютерной системой типа, известного в уровне техники, обеспечивает способ, где данные на этих языках используются в варианте осуществления настоящего изобретения.- 11006373 Кроме того, если выражениям в существующих состояниях искусственно приписаны конкретные ассоциации с точками данных в другом состоянии, и эти выражения каталогизированы в базе данных,возможны преобразования между этими двумя состояниями. Например, если каждому понятию, представленному в состоянии или языке, назначена ассоциация с электромагнитной волной (тоном), она будет создавать электромагнитное представление этого понятия. Когда заданное число понятий закодировано соответствующими электромагнитными представлениями, данные (в виде понятия) могут переводиться в электромагнитные волны и передаваться сразу по традиционной инфраструктуре связи. Когда электромагнитные волны достигают машины в месте назначения, эта машина будет синтезировать волны в отдельные компоненты и с учетом ассоциаций (вместе с упорядочиванием команд, использованием метода двойного частичного совпадения, как описано здесь, и иных возможных способов) представлять отдельные понятия, которые были представлены электромагнитными представлениями. Способ и устройство преобразования понятий Другой аспект настоящего изобретения направлен на обеспечение способа и устройства для создания второго документа, содержащего данные во втором состоянии, виде или на втором языке, из документа, содержащего данные в первом состоянии, виде или на первом языке, с тем конечным результатом,что первый и второй документы представляют практически одни и те же понятия или информацию, и при этом способ и устройство включают в себя использование перекрестно-понятийной базы данных. Все варианты осуществления способа перевода используют метод двойного частичного совпадения, чтобы получить точный перевод понятий из одного состояния в другое. В противоположность этому устройства перевода в уровне техники фокусируются на переводе отдельных слов или используют специальные основанные на правилах коды для облегчения перевода с первого языка на второй язык. Настоящее изобретение, используя метод частичного совпадения, дает возможность словам и цепочкам слов соединяться вместе органически и становиться точными переводами в их правильном контексте в том верном порядке, в котором эти слова и выражения были бы записаны на втором языке. В варианте осуществления настоящего изобретения способ создания базы данных и метод частичного совпадения объединяются для точного языкового перевода. Языки могут быть любого типа конверсии и не обязательно ограничиваются разговорными/письменными языками. Например, конверсия может заключать в себе компьютерные языки, специфичные коды данных, такие как ASCII, и тому подобное. База данных является динамической, т.е. база данных растет, по мере того как содержание вводится в систему перевода, с последующими итерациями системы перевода с помощью ранее введенного содержания. Предпочтительный вариант осуществления изобретения использует вычислительное устройство,такое как персональная компьютерная система вида, легко доступного в уровне техники. Однако эта система не нуждается в использовании такого вычислительного устройства и может быть легко выполнена иными средствами, в том числе созданием базы данных и способами перевода вручную. Настоящее изобретение может быть использовано в общей компьютерной системе, имеющей, по меньшей мере, средство отображения, способ ввода, способ вывода и процессор. Средство отображения может быть любым из легко доступных в уровне техники, таким как терминалы на электронно-лучевых трубках, жидкокристаллические дисплеи и т.п. Процессорное средство также может любым из легко доступных и использоваться в вычислительной среде, так что это средство предусматривается, чтобы дать компьютеру возможность работать для выполнения настоящего изобретения. Наконец, способ ввода используется, чтобы дать возможность вводить документы для целей построения перекрестноассоциативной базы данных; как описывается выше, конкретный способ ввода для преобразования в цифровую форму может меняться в зависимости от потребностей пользователя. Построение базы данных и перевод вручную посредством метода двойного частичного совпадения Теперь будет описываться пример осуществления способа и устройства для перевода документа с первого языка на второй язык согласно настоящему изобретению, где перекрестно-языковая база данных разрабатывается путем опрашивания пользователя о переводах слов и цепочек слов, а также автоматического генерирования переводов сегментов с помощью метода двойного частичного совпадения. Для целей описания предпочтительного варианта осуществления будет использован пример, в котором данные на английском языке переводятся на иврит. Эти выборы сделаны для целей описания и не подразумевают ограничивать выбор первого и второго языков. Согласно предпочтительному варианту осуществления настоящего изобретения вычислительная система работает, чтобы создавать базу данных ассоциаций между переводами с английского на иврит. Способ перевода заключает в себе, по меньшей мере, следующие шаги. Во-первых, данные на английском языке вводятся в компьютерную систему. Во-вторых, все введенные слова английского языка сначала проверяются слово за словом. База данных будет выдавать известные переводы слов на иврите. Если перевод не содержится в базе данных,компьютерная система будет работать так, чтобы запрашивать пользователя ввести подходящий перевод. Таким образом, если база данных не знает эквивалента на иврите для введенного английского слова,компьютер спросит пользователя обеспечить подходящий эквивалент на иврите. Пользователь затем выдаст этот перевод и введет упомянутый перевод в базу данных. При следующем использовании компьютерная система будет оперировать базой данных так, что этот перевод известен вследствие его ввода- 12006373 пользователем в более ранний момент времени. Таким образом, на втором шаге введенные данные проверяются в их синтаксически разобранном состоянии, например слово за словом, и подходящие переводы либо выдаются (вследствие работы базы данных), либо вводятся в базу данных. В-третьих, введенные данные проверяются так, чтобы наращивать синтаксически разобранные сегменты. Например, если данные были сначала введены слово за словом, способ перевода по настоящему изобретению затем проверяет введенные данные путем оценивания двухсловных цепочек слов. Опятьтаки, подобно описанному выше, база данных выдает переводы для двухсловных цепочек, если они известны; если же нет, система перевода работает, чтобы запросить пользователя ввести подходящий перевод для всех возможных двухсловных цепочек. Все частичные совпадения сегментов из двух слов затем сохраняются в базе данных. Например, если цепочка слов состоит из четырех слов, то база данных проверяет, имеются ли в ее памяти следующие переведенные комбинации: 1,2 2,3 и 3,4. Если нет, она запрашивает пользователя. Отметим, что только специально закодированные переводы для цепочек из двух слов будут выдаваться в качестве точных переводов, даже хотя база данных будет обязательно содержать определение каждого слова вследствие вышеуказанного второго шага. В-четвертых, если переводы на иврит двух частично совпадающих двухсловных цепочек на английском языке имеют частично совпадающее слово (или слова), система работает так, чтобы объединить частично совпадающие сегменты. Избыточные сегменты на иврите исключаются, чтобы обеспечить связный перевод трехсловной цепочки на английском языке, которая создается объединением двух частично совпадающих цепочек на английском языке (и исключения избыточностей в перекрытии на английском языке). Вышеуказанные шаги многократно повторяются с первого для бесконечного числа шагов (n), чтобы обеспечить подходящий перевод. Этот способ перевода работает автоматически путем подтверждения согласующихся цепочек, которые соединяют закодированные словесные блоки в обоих языках благодаря частичному совпадению. Эти автоматические подтверждения для частично совпадающих соединений, которые согласуются в обоих языках, обеспечивают языковую сеть, которая переводит между двумя языками с совершенной точностью, когда база данных достигает критической массы. В качестве примера, рассмотрим фразу на английском языке I want to buy a car (Я хочу купить автомобиль). При осуществлении способа по настоящему изобретению эта фраза будет вводиться в компьютер, оперирующий базой данных. Компьютер будет работать, чтобы определить, включает ли в себя база данных эквиваленты на иврите для следующих слов: I, want, to, buy, а и car. Если такие эквиваленты известны, компьютер выдаст эти эквиваленты на иврите. Если такие эквиваленты неизвестны, компьютер запросит пользователя предоставить подходящие переводы на иврит и сохранит такие переводы для использования в будущем. Затем компьютер проведет синтаксический разбор предложения на двухсловные сегменты с частичным совпадением: I want, want to, to buy, buy а, и acar. Компьютер будет работать, чтобы выдать эквиваленты на иврите этих сегментов (т.е. эквивалент на иврите I want и т.д.); если такие эквиваленты на иврите неизвестны, то компьютер запросит пользователя обеспечить подходящие переводы на иврит и сохранит такие переводы для использования в будущем. Настоящее изобретение далее будет проверять сегменты I want to, want to buy, to buy а и buya car. В этой точке процесса настоящее изобретение пытается объединить каждую пару переводов на иврит, двухсловные английские переводы которых частично совпадают, и объединить их, чтобы составить запрос каждого трехсловного английского перевода (например, объединить I want и want to,чтобы образовать I want to). Если сегменты на иврите имеют общее частичное совпадение, которое также соединяет их, способ перевода автоматически подтверждает трехсловную цепочку английских слов на иврите в качестве перевода без вмешательства пользователя. Если сегменты на иврите не имеют частичного совпадения и не объединяются, пользователь запрашивается для точного перевода. После попыток подходящего перевода для трехсловных цепочек на английском процесс переходит к четырехсловным цепочкам и т.д., пытаясь автоматически разрешить благодаря перекрестно-языковым частичным совпадениям комбинации переводов до тех пор, пока проверяемый сегмент не будет завершен (в данном случае полная фраза I want to buy a car). Способ по настоящему изобретению после прохождения через синтаксический разбор затем сравнивает выданные эквиваленты переводов, исключает избыточности в частично совпадающих сегментах и выводит переведенную фразу пользователю. Перевод документа благодаря ассоциативной базе данных и методу двойного частичного совпадения В качестве другого предпочтительного варианта осуществления настоящее изобретение может переводить документ на первом языке в документ на втором языке путем использования перекрестноязыковой базы данных, как описано выше, чтобы обеспечить переводы словесных цепочек из слов и цепочек слов в документе, а затем объединить частично совпадающие цепочки слов на втором языке, чтобы обеспечить перевод документа с помощью вышеописанного перекрестно-языкового метода с частичным совпадением. Например, рассмотрим базу данных с доступом к достаточному числу перекрестноязыковых документов, чтобы принимать решения о компонентах следующего предложения, введенного на английском языке, подлежащего переводу на иврит: In addition to my need to be loved by all the girls in(Вдобавок к моему стремлению быть любимым всеми девчонками в городе я всегда хотел быть известен как наилучший игрок, когда-либо игравший за баскетбольную команду штата Нью-Йорк). Благодаря вышеописанному процессу, способ манипулирования может определить, что фраза Inaddition to my need to be loved by all the girls является наибольшей цепочкой слов из исходного документа, начинающейся с первого слова исходного документа и имеющейся в базе данных. Она ассоциируется в базе данных с цепочкой слов на иврите benozaf ltzorech sheli lihiot ahuv al yeday kol habahurot. Процесс затем будет определять следующие переводы с помощью вышеописанного способа, т.е. самую длинную цепочку слов по-английски из текста, подлежащего переводу (и имеющегося в базе данных) с одним словом (или, альтернативно, с большим числом слов), которые частично совпадают с ранее идентифицированной цепочкой слов по-английски, и два языковых перевода на иврит для этих частично совпадающих цепочек слов на английском языке также имеют частично совпадающие сегменты: loved byhakadursal shei medinat new york. Этими выдачами из базы данных манипулирование будет оперировать таким образом, чтобы сравнить частично совпадающие слова и цепочки слов и исключить избыточности. Так, In addition to myloved by all the girls in town переводится в ahuv al yeday kol habahurot buir. Используя методику по настоящему изобретению, система возьмет английские сегменты In addition to my need to be loved by allthe girls и loved by all the girls in town и выдаст сегменты на иврите benozaf ltzorech sheli lihiot ahuv alIn addition to my need to be loved by all the girls и loved by all the girls in town. Удаление частичных совпадений даст In addition to my need to be loved by all the girls in town. На иврите фразы таковы:benozaf ltzorech sheli lihiot ahuv al yeday kol habahurot и ahuv al yeday kol habahurot buir. Удаление частичных совпадений даст benozaf ltzorech sheli lihiot ahuv al yeday kol habahurot buir. Настоящее изобретение затем оперирует со следующим синтаксически разобранным сегментом,чтобы продолжать процесс. В данном примере процесс манипулирования работает с фразой the girls intown, I always wanted to be known. Система находит английский сегмент In addition to my need to beloved by all the girls in town и новый набор английских слов the girls in town, I always wanted to beknown. Соответствующие наборы слов на иврите benozaf ltzorech sheli lihiot ahuv al yeday kol habahurotbuir и соответствующий набор слов на иврите habahurot buir, tamid ratzity lihiot yahua. Удаление частичных совпадений на английском дает следующее: In addition to my need to be loved by all the girls inin town, I always wanted to be known. На иврите процесс частичного совпадения дает следующее:benozaf ltzorech sheli lihiot ahuv al yeday kol habahurot buir и habahurot buir, tamid ratzity lihiot yahua дает benozaf ltzorech sheli lihiot ahuv al yeday kol habahurot buir, tamid ratzity lihiot yahua. Настоящее изобретение продолжает этот вид работы с оставшимися словами и цепочками слов в подлежащем переводу документе. Так, в примере настоящего варианта осуществления следующие цепочки английских слов такие: In addition to my need to be loved by all the girls in town, I always wanted tobe known и I always wanted to be known as the best player. Переводы на иврит, выданные базой данных для этих фраз, таковы: benozaf ltzorech sheli lihiot ahuv al yeday kol habahurot buir, tamid ratzity lihiot yahua и tamid ratzity lihiot yahua bettor hasahkan hachi tov. Удаление английских частичных совпадений дает In addition to my need to be loved by all the girls in town, I always wanted to be known as the bestplayer. Удаление частичных совпадений на иврите дает: benozaf ltzorech sheli lihiot ahuv al yeday kolhabahurot buir, tamid ratzity lihiot yahua bettor hasahkan hachi tov. Продолжая процесс: следующая цепочка слов такая In addition to my need to be loved by all the girlsbasketball team. Соответствующие фразы на иврите такие: benozaf ltzorech sheli lihiot ahuv al yeday kolbekvutzat hakadursal shei medinat new york. Удаление частичных совпадений на английском языке дает:ever play on the New York state basketball team. Удаление частичных совпадений на иврите дает: benozafpaam sihek bekvutzat hakadursal shei medinat new york, что и является переводом текста, который желательно перевести. По завершении этого процесса настоящее изобретение выдает переведенный конечный текст и выводит этот текст.- 14006373 Следует отметить, что эти выдачи были конечным результатом выдачи базой данных частично совпадающих ассоциаций в соответствии с вышеописанным процессом. Благодаря этому процессу система будет в конечном счете не принимать оборот на втором языке, который не имеет естественного подходящего соединения со смежными сегментами во втором языке благодаря частичному совпадению. Если какая-либо выдача на языке иврит не имеет точного частичного совпадения со смежной ассоциацией цепочки слов на иврите, она будет исключена и заменена ассоциацией цепочки слов на иврите, которая частично совпадает со смежными цепочками слов на иврите. Программа 3, изложенная в приложении листинга компьютерной программы, является примером программы для реализации варианта осуществления ручного создания базы данных и перевода с помощью метода двойного частичного совпадения. Программа 3 может выполняться в компьютерной системе типа, известного в уровне техники. Вышерассмотренный вариант осуществления, объединяющий перекрестно-языковую ассоциативную базу данных и перекрестно-языковый метод перевода с двойным частичным совпадением, имеет другие потенциальные применения для улучшения качества существующих технологий, которые пытаются приравнять информацию из одного состояния в другое, такие как программное обеспечение речевого распознавания и сканирующие устройства оптического распознавания знаков (ОРЗ, OCR), которые известны в уровне техники. Обе этих технологии могут проверять результаты своих систем на методиках перевода по настоящему изобретению. Когда не существует перевода и потому предполагается ошибка,пользователь может быть предупрежден и запрошен, или система может быть запрограммирована на просмотр близких альтернатив в базе данных для частично несовпадающего перевода, который произведет частично совпадающий перевод. Все выдачи пользователю будут, конечно же, преобразованы назад в исходный язык. Создание способа и устройства ассоциативной базы данных Другой вариант осуществления настоящего изобретения обеспечивает способ и устройство для создания ассоциативной базы данных в единственном языке и способа и системы для использования этой ассоциативной базы данных, чтобы обеспечить ответы на вопросы, поставленные пользователем. В этом варианте осуществления ассоциативная база данных может организовать и хранить информацию, которая позволяет осуществить определение и анализ ассоциаций между словами и цепочками слов. Программа ассоциаций может осуществлять некоторые из способов по настоящему изобретению и может использоваться для построения баз данных по настоящему изобретению и для анализа информации, хранящейся в этих базах данных для определения ассоциаций между словами и цепочками слов. Фиг. 3 показывает память 208 компьютерной системы 200, в которой хранятся интеллектуальное приложение 302,программа 304 ассоциаций, базы 306 данных и операционная система 308 для доступа процессором 202. Программа 304 ассоциаций может быть независимой программой или может формировать существенную часть интеллектуального приложения 302. Программа 304 ассоциаций может анализировать базы 306 данных для определения словесных ассоциаций либо в ответ на запрос от интеллектуального приложения 302, либо в ответ на запрос, непосредственно предложенный пользователем через устройство ввода. Система и способ работают посредством синтаксического разбора текста документа, введенного в систему, и создают базу данных частотных ассоциаций, в которой сегменты синтаксически разобранного текста ассоциируются друг с другом на основании, к примеру, частоты появления и позиции конкретного фрагмента по отношению к остальным фрагментам документа. Сегменты синтаксически разобранного текста могут включать в себя слова и цепочки слов. Документы, используемые в настоящем изобретении,могут храниться в базе данных документов для облегчения доступа, синтаксического разбора и анализа этих документов. Слова и цепочки слов, которые часто появляются в тесной близости друг к другу в документе, могут использоваться в приложениях искусственного интеллекта или интеллектуальных приложениях, которые позволяют пользователю спрашивать систему ответить на вопрос или выполнить действие. Цель использования ассоциативных баз данных по настоящему изобретению для интеллектуальных приложений состоит в том, чтобы определять ассоциации общего третьего слова или цепочки слов между или среди двух или более слов или цепочек слов, выбранных интеллектуальным приложением. Пользователь может задавать диапазоны в базе данных документов как любое число слов и(или) цепочек слов вблизи к каждому появлению каждого выбранного слова и(или) цепочки слов. Система затем ищет слова и(или) цепочки слов, которые являются общими для диапазонов и являются общими третьими словами и цепочками слов. Частота появления общих третьих слов или цепочек слов в диапазонах каждого выбранного слова или цепочки слов может сохраняться в базе данных частотных ассоциаций, показанной в таблицах 3 и 4. Альтернативно, местоположения и частота появления слов и цепочек слов, повторяющихся в базе данных документов, может сохраняться в базе данных повторяющихся слов и цепочек слов, называемой также базой данных повторений, пример которой показан в таблице 5. С помощью этих баз данных программа 304 ассоциаций может устанавливать соотношения третьих слов или цепочек слов с наиболее высоким рангом, совместно используемых двумя или более словами или цепочками слов, выбранными интеллектуальным приложением 302, на основании определенного пользователем взвешивания или иных критериев. Построение ассоциативной базы данных в определенном пользователем диапазоне Раскрывается способ построения одного вида ассоциативной базы данных, называемой здесь базой данных частотных ассоциаций, который может применяться к документам на единственном языке для целей построения базы данных связанных слов и цепочек слов на основании их близости друг к другу в тексте. Пример базы данных частотных ассоциаций показан в таблице 3. Этот способ включает в себя:A. Сбор массива текста на единственном языке в Базе данных документов, причем чем больше массив, тем лучше.B. Поиск каждого слова или цепочки слов на предмет множества появлений этого слова или цепочки слов в базе данных документов.C. Установление заданного пользователем числа слов или цепочек слов с любой стороны подлежащего анализу слова или цепочки слов. Это будет служить в качестве диапазона. В дополнение к тому,что он определяется как некоторое число слов, диапазон может определяться настолько широко (все слова в конкретном тексте, в котором появляется это слово или цепочка слов) или настолько узко (цепочка слов конкретного размера в точной близости от анализируемого слова или цепочки слов), насколько может определить пользователь для конкретного применения.D. Определение частоты, с которой любое и каждое слово и цепочка слов появляется в диапазонах вокруг выбранного анализируемого слова или цепочки слов и, если желательно, их близость к выбранному слову или цепочке слов. Ниже следует пример ассоциации, построенной по большому числу документов на единственном языке. Предложение 1 и предложение 2, показанные в таблице 2, являются двумя среди многих предложений в базе данных документов, т.к. весь массив может анализироваться во всей полноте со всеми из результатов, добавленных к частотному списку. Таблица 2 Система будет искать повторения слов и цепочек слов. Повторяющимися словами и цепочками слов в обоих предложениях являются только:I, to, the, doctor, and, sneezing, a, that, flu, are, rest. Как описывается в заявке США 10/024,473, для некоторых применений в системе может быть дана команда распознавать и не принимать во внимание общие слова, такие как I, a, to и т.д. Однако эти общие слова будут рассматриваться и включаться в базу данных время от времени в зависимости от цели конкретного применения системы. Если общие слова не принимаются во внимание, останутся:Doctor, sneezing, flu и rest. Если диапазон определяется как включающий в себя, например, до 30 слов с любой стороны, система будет записывать частоту появления каждого слова и цепочки слов в пределах 30 слов для каждого из этих слов. Кроме того, система может также отмечать близость каждого слова или цепочки слов к анализируемому слову или цепочке слов. Поскольку каждое из этих слов появляется в пределах диапазона в 30 слов для каждого из других слов в обоих предложениях, каждое слово будет иметь частоту, равную одному, для каждого из остальных, как следует из табл. 3, которая показывает вариант осуществле- 16006373 ния базы данных частотных ассоциаций. Таблица 3 В дополнение к указанию частоты, с которой слова и цепочки слов появляются где угодно в пределах диапазонов из анализируемых слов и цепочек слов, ассоциативная база данных может строиться на основании частот слова или цепочки слов, появляющихся точно через X слов от анализируемого слова или цепочки слов. В таких случаях диапазон будет задаваться пользователем более узко для приложения как одно слово или одна цепочка слов конкретного размера в точной близости к анализируемому слову или цепочке слов. Например, система может анализировать документы, доступные в базе данных документов, чтобы определять, что они включают в себя фразу go to the game (идти на игру) 10,000 раз, и она может найти go to the game в пределах диапазона в 20 слов для слова Jets 87 раз. Кроме того, система может определить, что go to the game появлялось точно за 7 слов перед словом Jets 8 раз (считая от первого слова gо этой цепочки слов). Любая комбинация повторяющихся сочетаний слов и цепочек слов на основании числа слов между ними также может записываться. Например, база данных может записывать число предложений в базе данных, в которых слово Jets появляется за 3 слова перед go to the game, когда tickets (билеты) появляется через 9 слов после go to the game. Это сочетание может появляться 3 раза, и частота этого сочетания слов в тексте может использоваться приложением, которое будет выводить значение понятия,чтобы либо помочь предоставить ответ на вопрос, заданный пользователем, либо помочь выполнить запрос, сделанный пользователем. На основании предложения 1 и предложения 2 в таблице 2 может генерироваться база данных частотных ассоциаций, показанная в табл. 4. Таблица 4 Как указано в табл. 4, из повторяющихся слов в диапазоне предложения 1 и предложения 2 только- 17006373 одно слово - sneezing - появляется дважды точно через четыре слова после одного из проверяемых слов. Эти таблицы, указывающие точное повторяющееся сочетание слов в тексте на основании их близости друг к другу, измеренные числом слов между ними, могут генерироваться по отдельности с помощью ряда узко заданных диапазонов. Как правило, однако, наиболее часто используемыми сочетаниями слов и цепочек слов являются те, которые соседствуют или находятся в тесной близости к левому и правому из тех слов, которые проверяются. Может потребоваться большое число вычислений, если вышеописанный способ используется для построения базы данных всех соотношений частоты и близости между всеми повторяющимися сочетаниями слов в доступном тексте, как описано выше. Многие соотношения, построенные как результат этого всеобъемлющего процесса, могут никогда не использоваться для приложения. Нижеследующая методика включает в себя индексирование повторяющихся цепочек слов, чтобы избежать обработки заранее, которая может никогда не использоваться. Кроме того, нижеследующий процесс индексирования может использоваться в качестве альтернативного процесса к вышеописанному способу для автоматического определения ассоциаций частоты и близости и для выполнения общего частотного анализа диапазона и анализа точного сочетания на основании местоположений конкретных слов или цепочек слов в пределах диапазона, как описано выше. Этот вариант осуществления изобретения представляет собой способ построения базы данных повторяющихся слов и цепочек слов (или базы данных повторяемости), которая включает в себя местоположение каждого повторяющегося слова или цепочки слов в базе данных документов следующим образом: во-первых, поиск всех слов и цепочек слов на предмет повторений в доступном тексте; во-вторых, запись в базу данных местоположений для каждого слова или цепочки слов со множеством появлений путем указания их позиции в каждом документе, в котором они появляются, например, путем идентификации номера слова первого слова в цепочке и номера документа в базе данных. Альтернативно, может сохраняться только номер документа для документа в базе данных документов, в котором располагается слово или цепочка слов. В этом случае позиция слова или цепочки слов может определяться при ответе на запрос. Табл. 5 является примером записей в базе данных повторяемости. Таблица 5 Как указано, каждое появление слова или цепочки слов, найденное больше, чем единожды в базе данных документов, будет добавляться к частотному подсчету, как и его местоположение, отмеченное назначением позиции номера слова в документе, а также номер, присвоенный, чтобы идентифицировать документ, в котором оно появилось, или путем использования иного идентификатора для местоположения слова или цепочки слов в базе данных документов.- 18006373 Если база данных повторяемости генерируется полной и завершенной (включая позиции номеров слов, а также номера документов) для всех документов в базе данных документов, информация местоположения позволяет системе подсчитывать любое генерированное общее частотное соотношение или любые генерированные частотные соотношения сочетаний слов, как описано выше. В дополнение к этому,если база данных повторяемости еще не построена, система может выполнять частотный анализ на двух или более диапазонах на ходу. Повторение любого слова или цепочки слов, еще отсутствующее в базе данных повторяемости, может быть включено, когда система отвечает на запрос, путем анализа в базе данных документов непосредственно для дополнительного анализа в базе данных повторяемости. После того как информация, полученная прямым анализом документов в базе данных документов, использована для конкретной задачи, для которой она генерировалась, эта информация может затем сохраняться в базе данных повторяемости для любого использования в будущем. Выстраивает ли система частотный анализ с помощью базы данных повторяемости, создаются ли эти соотношения на ходу, результатом является база данных ассоциаций слов или цепочек слов, к которой могут применяться интеллектуальные приложения. На фиг. 3 в процессе общего частотного анализа интеллектуальное приложение 302 может запрашивать базу данных частотного анализа или базу данных повторяемости посредством программы 304 ассоциаций с двумя или более словами или цепочками слов, чтобы установить, какие другие третьи слова или цепочки слов часто ассоциируются с некоторыми или всеми из представленных цепочек слов. Система может применять два разных способа при выполнении общего частотного анализа (ОЧА, CFA): либо 1) независимый общий частотный анализ, либо 2) связанный общий частотный анализ. Кроме того,система может проводить дальнейший статистический анализ после применения любого из этих двух процессов путем расширения их дополнительным поколением или поколениями либо комбинированием результатов и(или) сегментов любого ОЧА для дополнительных ОЧА. Независимый общий частотный анализ (НОЧА, ICFA) Когда интеллектуальное приложение 302 представляет программу 304 ассоциаций с двумя или более словами и(или) цепочками слов для ОЧА, система может идентифицировать все слова и цепочки слов, частотно связанные с представленными словами, с помощью ассоциативной базы данных по настоящему изобретению. Система может затем идентифицировать те слова и(или) цепочки слов, которые часто ассоциируются с некоторыми или всеми из представленных слов и цепочек слов. Система может затем использовать общие ассоциации среди представленных слов и(или) цепочек слов разнообразными определенными пользователем путями. К примеру, система может идентифицировать общую ассоциацию с наивысшим рангом путем добавления (или умножения любого иного заданного пользователем взвешивания) частот для общей ассоциации или ассоциации слова или цепочки слов представленных слов и(или) цепочек слов в базе данных частотных ассоциаций. В качестве другого примера для определенного пользователем параметра может быть запрошена минимальная частота (как измеряется полным рангом, необработанным числом или любой иной мерой) во всех таблицах представленных слов и(или) цепочек слов. При использовании записей в примере базы данных повторяемости система может определять частоту, с которой ice cream (мороженое) и kids love (дети любят) находятся в пределах определенного пользователем диапазона во всех доступных документах как один анализ, и система может затем записать частоту, с которой ice cream и before going to bed появляются вместе. Частота каждого из независимых соотношений может затем использоваться приложением, которое будет давать относительные значения для каждого. Это будет основано на том, насколько высоко (по определению пользователя либо абсолютно, либо относительно) частота ice cream ранжируется и в частотной таблице kids love,и в частотной таблице before going to bed, либо на процентной доле раз, когда ассоциация (к примеруice cream) появляется со словом или цепочкой слов (например, kids love) по отношению к полному числу раз, когда появляется эта цепочка слов (например, kids love). Еще раз, частотные таблицы kidslove и before going to bed являются табулированными рангами появления третьих слов или цепочек слов в определенных диапазонах на основании их близости к выбранным цепочкам слов kids love иbefore going to bed. На основании определенных пользователем значений данный способ после анализа ice cream может затем анализировать а warm hug путем обнаружения его в частотной таблице kids love (на основании определенного пользователем диапазона или требований близости приложения) для относительной частоты, а затем обнаруживать a warm hug в частотной таблице before going to bed. Все другие частотные ассоциации (которые могут определяться пользователем) в обеих частотных таблицах будут сравниваться, к примеру, staying up later и оцениваться на основании определенных пользователем значений объединенных относительных частот из обеих таблиц. Системой будет вырабатываться цепочка слов наивысшего ранга на основании определенного пользователем взвешивания каждой частотной ассоциации. Результатом этого анализа может быть то, что система будет идентифицировать, что в то время как kids love ice cream больше, чем warm hug, kids love warm hug больше, чем kids loveice cream before going to bed. В качестве другого примера, если в системе было представлено слово kangaroos (кенгуру) и- 19006373 слово и цепочка слов where can I find и in America, для независимого общего частотного анализа таблица 6 показывает частотную таблицу, которую можно собирать на основании документов в базе данных документов. Ассоциации Таблица 6Australia ранжируется выше всех на основании общего числа необработанных кумулятивных ассоциаций. Однако определенные пользователем параметры могут взвешивать относительные частоты. Примером возможного способа может быть оценивание наименее редко найденной ассоциации как один,а затем оценивание более высоко ассоциированных частот как кратное этого числа. В этом случае theZoo будет иметь наивысший ранг, как показано, например, в табл. 7. Таблица 7 Относительные веса среди ассоциаций показывают, как the Zoo будет результатом на основании вышеуказанного заданного пользователем параметра. Аналогичных результатов можно достичь умножением числа раз, когда конкретное слово или цепочка слов ассоциируется с каждым из запросов, чтобы задать вес для относительного баланса между общими ассоциациями. В примере, показанном в таблице 6, результаты выдадут the Zoo: 1. the Zoo 7,000x2,000x5,000=70,000,000,000 2. Australia 21,000x1,000x300=6,300,000,000 3. New Zealand 1,000x500x100=50,000,000. Другие заданные пользователем критерии могут применяться для ранжирования и выбора ассоциаций, общих среди двух или более представленных слов и (или) цепочек слов. Это может включать в себя взвешивание некоторых ассоциаций в некоторых категориях больше, чем остальных. Например, приложение может назначить более высокое значение ассоциации location (местоположение) (к примеру,in America), чем вопросу where (где) (например, where can you find kangaroos in America (где ты можешь найти кенгуру в Америке). Связанный общий частотный анализ (СОЧА, RCFA) В дополнение к нахождению общих независимых ассоциаций среди двух или более представленных слов и(или) цепочек слов другой вариант осуществления может заботиться о том, чтобы идентифицировать частые появления слов или цепочек слов, которые находятся в заданных пользователем диапазонах только в тех документах, которые содержат два или более анализируемых слов или цепочек слов. Связанный общий частотный анализ отличается от независимого общего частотного анализа в том, что связанные слова появляются вместе в противоположность независимому появлению для анализа. Вариант осуществления СОЧА согласно настоящему изобретению применяет следующие шаги. Во-первых, установить местоположение всех номеров документов из базы данных, общих для двух или более представленных слов и(или) цепочек слов, т.е. установить местоположение всех документов(путем, к примеру, назначения и выдачи номеров конкретных документов) из базы данных, которые содержат оба из представленных слов и(или) цепочек слов. Номера документов представляют собой номера, назначенные схемой индексирования, известной в технике или описанной в настоящей заявке. Затем идентифицировать и сравнить каждое слово и цепочку слов в заданном пользователем диапазоне вблизи представленных слов и(или) цепочек слов и записать частоту для каждого слова и цепочки слов в диапазонах. Опять-таки, заданный пользователем диапазон может быть узким и включать в себя только повторяющиеся слова или цепочки слов в конкретной близости к представленным словам или цепочкам слов.- 20006373 В качестве примера предположим, что система представлена двумя цепочками слов kids love иbefore going to bed для анализа в СОЧА. Далее предположим, что база данных содержит следующие записи в пределах заданного пользователем диапазона для представленных фраз в документах в базе данных документов:kids love a warm hug 20 раз,kids love ice cream 873 раза,kids love a warm hug before going to bed 12 раз,kids love ice cream before going to bed 10 раз,kids love staying up late before going to bed 17 раз,before going to bed 684 раза. Поскольку в СОЧА для анализа представлены два слова и(или) цепочки слов, база данных повторяемости может направить систему на документы в базе данных документов, которые имеют как kidslove, так и before going to bed, т.к. они будут иметь один и тот же номер документа, ассоциированный с ними. Кроме того, если желательно, система может установить местоположение только тех документов, где цепочки слов находятся в пределах определенного пользователем числа слов друг к другу или любой другой определенной пользователем близости друг к другу. После того как система идентифицировала все документы в базе данных документов, которые содержат kids love в назначенной близости к before going to bed, система может строить частотную карту всех повторяющихся слов и цепочек слов в пределах заданного пользователем диапазона из двух представленных цепочек слов. В вышеприведенном примере только те слова и цепочки слов, которые появляются с обеими представленными фразами (с заданным пользователем описанием того, сколько слов разрешается иметь между этими двумя представленными фразами), анализируются (таким образом,существующая цепочка слов kids love a warm hug, kids love ice cream и before going to bed (сами по себе) не анализируются). Однако из этого примера и на основании ограниченной выборки базы данных слов и цепочек слов ice cream появляется по меньшей мере десять раз между двумя представленными фразами и, таким образом, имеет, по меньшей мере, частоту, равную 10, staying up late появляется по меньшей мере семнадцать раз между двумя представленными фразами и, таким образом, имеет, по меньшей мере, частоту, равную 17, a warm hug появляется по меньшей мере двенадцать раз между двумя предложениями и, таким образом, имеет, по меньшей мере, частоту, равную 12, в зависимости от заданного пользователем диапазона цепочек слов. Эти частоты могут быть намного больше, т.к. они могут появиться в том же самом тексте возле kids love и before going to bed, но только не непосредственно рядом с ними (например, kids love ice cream and other sweets before going to bed (малыши любят мороженое и прочие сладости перед тем, как лечь спать) или before going to bed, kids love ice cream(перед тем, как лечь спать, малыши любят мороженое. Ответ на запрос what do kids love before going to bed (что любят малыши перед тем, как лечь спать) имеет много потенциальных правильных ответов. Тем не менее, при критической массе документов, отражающих различные репрезентативные мнения, различные более высокие частоты будут отражать согласованный взгляд на этот вопрос, а более низкие частоты будут отражать существующие альтернативные взгляды. К примеру, hot shower (горячий душ) может быть в пределах диапазона сkids love и before going to bed три раза, что указывает сочетание предпочтения, которое не настолько близко в качестве популярного мнения, как некоторые иные. Альтернативно, определенные пользователем параметры могут устанавливаться, чтобы потребовать квалифицировать минимальную общую частоту в качестве приемлемого оборота. Для НОЧА или СОЧА тезаурус или любые иные известные или определенные эквиваленты цепочек слов могут использоваться вместо отысканных слов и цепочек слов, чтобы найти повторяющиеся слова и цепочки слов вокруг этих диапазонов словесных эквивалентов как альтернативные варианты осуществления изобретения. К примеру, система может также искать kids like (малышам нравится), kids(дети наслаждаются), children love (дети любят) вместо kids love (малыши любят). Тот же самый метод можно использовать, чтобы заменить before going to bed (перед тем, как лечь спать) известными системе эквивалентами вроде before bed, before going to sleep, before bedtime. Таким образом, комбинация словарного тезауруса, известного из уровня техники, и(или) общих частотных методов по настоящему изобретению даст большое число семантически эквивалентных слов и цепочек слов,которые можно использовать для расширения анализа со многими более релевантными семантическими поисковыми терминами. Частотный анализ второго уровня В другом варианте осуществления система может выполнять частотный анализ с помощью общей ассоциации между либо первым, либо вторым словом или цепочкой слов, которые составляют запрос, и выбранным третьим словом или цепочкой слов из общего частотного анализа, что будет добавлять новую информацию к анализу, выполненному для приложения. Например, если выбранной общей ассоциацией между частотой всех слов и цепочек слов в пределах общего диапазона before going to bed (перед тем, как лечь спать) (первая) и kids love (малыши любят) (вторая) является ice cream (моро- 21006373 женое) (третья), этот вариант осуществления генерирует либо независимый, либо связанный частотный анализ между либо before going to bed (первая) и ice cream (третья), либо kids love (вторая) и icecream (третья), и выбирает ассоциации на основании этих двух частотных анализов. К примеру, icecream и before going to bed могут иметь высокую общую частотную ассоциацию с stomach ache(боль в животе), которая может быть полезна в анализе для приложения, подлежащего использованию согласно настоящему изобретению. Кроме того, любые два или более слов или цепочек слов могут анализироваться с помощью тех же самых методов в стольких комбинациях стольких поколений, сколько определит пользователь. Конкретные приложения будут вызывать автоматический анализ, идентифицирующий, какой выполнить общий частотный анализ на каждом поколении ассоциативного частотного анализа. Более сложные приложения будут идентифицировать два или более частотных анализов, которые нужно выполнить перед тем, как два или более независимых результатов будут использованы в комбинации. Использование общего частотного анализа для определения функции или значения слов Как описывается в заявке США 10/024,473, высокочастотные ассоциации, построенные между анализируемым словом и цепочкой слов и словом и цепочкой слов в пределах их диапазонов, которые не являются переводами, но представляют собой тесно связанные понятия, могут использоваться для приложений искусственного интеллекта. Приложение искусственного интеллекта или интеллектуальное приложение является приложением,которое может ответить на вопрос или выполнить задачу, которую его не обязательно запрашивали ответить или выполнить в прошлом. Настоящее изобретение может использовать ассоциативные базы данных, чтобы идентифицировать структуры и сочетания слов и цепочек слов, которые могут использоваться в качестве категориальных индикаторов для идентификации функции или назначения других слов или цепочек слов, ассоциированных с этими категориальными индикаторами. Например, конкретное сочетание слов может обычно ассоциироваться со словом, которое является личным именем, видом пищи или действием. С помощью ОЧА настоящее изобретение может анализировать документы, чтобы обнаруживать существование этих сочетаний и их ассоциацию с другими словами или цепочками слов. На основании этой ассоциации система может классифицировать другие слова, которые аналогично ассоциируются с этими сочетаниями, потому что другие слова, которые ассоциируются аналогичным образом, вероятно попадают в аналогичные категории. Таким образом, система может идентифицировать наличие категориальных индикаторов и может использовать их. Кроме того, слова и(или) цепочки слов, которые совместно используют высоко ассоциированные сочетания слов и цепочек слов, зачастую являются семантическими эквивалентами или почти семантически эквивалентными друг для друга. Одним примером функционирования такого приложения является содействие способу перевода по настоящему изобретению в выполнении переводов, которые система не может иначе разрешить с помощью ранее описанных процессов. Например, представим систему, принявшую запрос на английском языке I love Moshe (Я люблю Моше), подлежащий переводу на язык А. Предположим, что система имеет перевод цепочки слов I love, но не имеет переводов I love Moshe или love Moshe. Ассоциативная база данных имеет слово Moshe в цепочках слов наподобие my name is Moshe(меня зовут Моше), Mr. Moshe Fein (г-н Моше Фейн), his name is Moshe (его зовут Моше). ОЧА может быть использован для идентификации соотношения между этими цепочками слов и именем Моше. Пользователь может затем идентифицировать эти фразы для системы как высоко коррелированные с именами и являющиеся поэтому именными индикаторами - частным видом категориального индикатора. Когда Моше появляется в заданном пользователем числе (или доле) фраз именных индикаторов, система будет определять со статистической уверенностью, что Moshe является потенциальным именем, потому что оно появляется в тексте, который является именными индикаторами. Хотя другие системы, известные в технике, также включают в себя эти именные индикаторы и иные категориальные индикаторы, к примеру для дат, чисел и других специфических классов, настоящее изобретение может использовать вручную закодированные индикаторы, такие как фразы, указывающие имена, чтобы идентифицировать все другие фразы, в которых появляются имена, подобные Моше, и другие известные имена. Например, пользователь может не думать добавить в качестве именного индикатора the guy's name is (имя парня - это), но настоящее изобретение с помощью этого варианта осуществления представит его и многие иные, которые пользователь не хотел включать. Каждое слово и цепочка слов имеет ограниченную совокупность возможных альтернативных слов или цепочек слов, которые можно найти среди окружающих слов и цепочек слов. Эта совокупность будет включать в себя слова и цепочки слов, точно выражающих понятия, которые заменяются и будут удаляться от исходно выраженного понятия до мыслей, которые являются прямо противоположными. Например, если проверяется фраза I love chocolate (Я люблю шоколад), система может генерировать все возможные замены для слова love (люблю). Система будет генерировать эквиваленты и близкие эквиваленты наподобие I really love chocolate (я действительно люблю шоколад), I adore chocolate (я обожаю шоколад), I really enjoy chocolate (я действительно наслаждаюсь шоколадом), а также и не эквиваленты и противоположности, наподобие I tolerate chocolate (я допускаю шоколад) и I hate chocolate (я ненавижу шоколад). Система не будет находить частоты повторений слов, которые не заполняют все ме- 22006373 сто слева от слова люблю, с помощью независимого (или, альтернативно, вариант осуществления зависимого) общего ассоциативного частотного анализа. Например, базы данных в анализе не будут выдавать I fish chocolate (я ужу шоколад), I you chocolate (я ты шоколад), I who chocolate (я кто шоколад). Когда система устанавливает, что Моше является именем и, если I love является именным индикатором (но не тем, в котором мы когда-либо видели Моше), то, если машина перевода имеет перевод для Moshe на языке В, оно может присоединить его к переводу I love на языке В без частичного совпадения. Если перевод для Moshe на языке В неизвестен, может использоваться функция транслитерации с английского на язык В, чтобы генерировать представление на языке В имени Moshe и присоединить его к переводу на язык В для I love без частичного совпадения. Имена, которые явно связаны с другими словами и(или) цепочками слов как имена, являются простым примером того, как идентифицируемые пользователем общие статистические соотношения между цепочками слов, представляющими понятия, могут классифицироваться посредством общего значения,помогающего интеллектуальному приложению. Кроме того, все цепочки слов будут иметь свои динамические соотношения ко всем другим концепциям и понятиям, иллюстрируемым базами данных внутриязыковых ассоциаций, которые перечисляют понятия на основании их частоты тесной близости друг к другу, когда они выражаются на языке. Каждая цепочка слов, составляющих связное понятие, будет иметь совокупность связанных понятий в часто повторяющихся сочетаниях в тексте в пределах некоторой близости друг к другу, чтобы система выделяла вероятности значений для этих понятий в любом заданном контексте. Если, к примеру, запрос перевода включает в себя слово, которое не является явно именем, частота среди связанных понятий может проверяться на следующем уровне соседствующих слов и цепочек слов,чтобы обеспечить дальнейший контекст. Например, если запросом на английском языке, подлежащим переводу на язык В, является I love Faith (я люблю Фейс), это несколько двусмысленно, потому чтоFaith может быть либо именем, либо а feeling of belief without proof (чувство веры без доказательства). Если другими соседствующими словами рядом с фразой I love Faith в полном запросе перевода являются her (ее) и she (она), но не god (бог), religion (религия), church (церковь) и т.п., система будет применять формулы, которые взвешивают частоту, близость, а также другие категориальные индикаторы для ассоциаций, существующих в ее базе данных, и знать выбор перевода имени Фейс, но не вера без доказательства. Другие соседствующие слова и цепочки слов со своим набором частых соотношений к другим понятиям будут давать дальнейшую очевидность намерения говорящего до тех пор, пока статистическая значимость не зафиксирует ответ либо система запросит у пользователя пояснения на основании отсутствия информации. Это случится, к примеру, если весь запрос былI love Faith. Поскольку он несколько двусмыслен, даже человек-переводчик может спросить: имеете ли вы в виду, что слово Faith относится к лицу. В случае английского языка большинство заглавных первых букв будут указывать, что имеется в виду имя Фейс. Это другой атрибут, с которым система может работать для определения того, что Фейс является, вероятно, именем. Многие языки, базирующиеся на не латинских буквах, не имеют заглавных/строчных знаков и поэтому этот сорт результата будет зависеть от чистого соотношения уровень-к-уровню между цепочками слов, связанных частотной близостью друг с другом в тексте, и любым другим представлением языка (речь, символы, знаки и т.п.). Использование общего частотного анализа для определения местоположения семантически подобных слов Слова и цепочки слов в языке, которые представляют конкретное понятие, часто появляются в сочетании. Эти сочетания можно представить частотой, с которой конкретные слова и цепочки слов находятся непосредственно перед конкретным словом (в английском языке слева от конкретного слова). Таким образом, слова и цепочки слов, представляющие понятия, которые похожи, будут иметь общность в виде и порядке слов и цепочек слов, ведущих к ним и от них. Другим примером использования сочетаний слов для генерирования информации является создание исчерпывающих тезаурусов эквивалентов слов и цепочек слов. Если систему просят идентифицировать слова и(или) цепочки слов, которые имеют одно и то же или почти одно и то же значение, что и другое слово или цепочка слов, т.е. слова и цепочки слов семантически сходны, система может найти частоты слов и цепочек слов, ассоциированные с этим словом или цепочкой слов, и искать слова и цепочки слов в этом языке, частоты ассоциаций которых наиболее близко совпадают с ними. Как правило, чем более подобны структуры между двумя словами и(или) цепочками слов, тем более подобными они являются по значению. Иногда противоположности будут иметь общие ассоциации с более высокой частотой, но будут сильно расходиться по некоторым важным качественным ассоциациям, которые создают сочетание противоположной сигнатуры, которое система может также предоставить приложению. Характер ассоциации между понятием, представленным словом или цепочкой слов, и любым другим понятием, представленным словом или цепочкой слов, ассоциативная сигнатура будет определяться системой. Система использует ассоциативные базы данных, чтобы обнаруживать конкретные сло- 23006373 весные структуры в пределах заданных пользователем диапазонов, приспособленных для обнаружения сочетаний слов, окружающих понятие, которое определяет соотношение между понятием и другими понятиями в относительной близости к нему. Программа 4, изложенная в приложении листинга компьютерной программы, является примером программы, которая использует общий частотный анализ, чтобы устанавливать местоположение семантических эквивалентов или сходных слов. Будет описываться общее пояснение того, как с помощью ассоциативных баз данных и интеллектуального приложения 302 система устанавливает местоположение эквивалентных цепочек слов благодаря общему частотному анализу. Система может также запускать НОЧА или СОЧА в отношении представленных слов и цепочек слов и объединять результаты с помощью определенного пользователем процесса взвешивания. Один вариант осуществления с помощью конкретной словесной структуры вокруг слова или цепочки слов с помощью НОЧА состоит в том, чтобы идентифицировать слова и(или) цепочки слов, которые являются эквивалентами в семантическом значении (т.е. по смыслу) для любого слова или цепочки слов. Этот вариант осуществления включает в себя шаг 1, на котором принимают запрос, запрашивающий слово или цепочку слов (запрошенную фразу), подлежащие анализу на предмет эквивалентов, и выдают заданное пользователем число слов и(или) цепочек слов (выданные фразы) заданного пользователем минимального и(или) максимального размера, которые появляются с наивысшей частотой, а также частоту появлений каждой выданной фразы, где выданная фраза располагается непосредственно слева от запрошенной фразы, во всех доступных документах. Чем больше повторяющаяся заданная пользователем цепочка слов, тем более точным будет конечный результат. На шаге 2 делают частотный анализ в отношении каждого заданного пользователем числа результатов с высшим рангом из шага 1 с помощью диапазона в одно слово или цепочку слов справа от анализируемого слова или цепочки слов (диапазон в одно слово или цепочку слов означает, что система будет ранжировать чаще всего повторяющиеся слова и цепочки слов справа от каждого из анализируемых на шаге 2 слов или цепочек слов). Затем суммируют частоты всех общих слов и цепочек слов, полученных на шаге 2. На шаге 3 делают частотный анализ по запросу с помощью заданного пользователем числа слов непосредственно справа от запроса (опять же,по меньшей мере два или более слов, как правило, желательны для точности). На шаге 4 делают частотный анализ в отношении каждого заданного пользователем числа слов и цепочек слов с наивысшим рангом, выданных на шаге 3, с помощью диапазона в одно слово или цепочку слов непосредственно слева от каждого из анализируемых слов и цепочек слов (опять же, результаты диапазона в одно анализируемое слово или цепочку слов будут ранжировать по частоте слов и цепочек слов, наиболее часто ведущих к каждому слову и цепочке слов, анализируемых на шаге 4). Затем суммируют частоты всех результатов общих слов и цепочек слов на шаге 4. На шаге 5 проводят НОЧА путем идентификации каждого слова или цепочки слов, которые получены обоими шагами 2 и 4. Число частот каждого из выданных общих слов и цепочек слов на шаге 2 умножается на число частот общих слов и цепочек слов, полученных на шаге 4. Слово или цепочка слов с наивысшим рангом на основании произведения их частот из результатов шага 2 и шага 4 будут, как правило, наиболее семантически эквивалентными или сходными словами и цепочками слов для запроса. Нижеследующий пример иллюстрирует вышеприведенный вариант осуществления с помощью гипотетической базы данных для создания ассоциаций всех эквивалентов слов и цепочек слов в системной базе данных документов, а затем создает ассоциации, имеющие семантические эквиваленты, с помощью НОЧА. Предположим, что слово detained (задержанный) вводится пользователем, чтобы определить все эквиваленты слов и цепочек слов, известные системе для этого слова. На шаге 1, беря только три верхних результата для простоты иллюстрации (хотя число результатов,анализируемых настоящим изобретением, может определяться пользователем), система сначала определяет наиболее частые трехсловные цепочки непосредственно слева от detained. Длина цепочки слов непосредственно слева от анализируемого слова (detained) определяется пользователем, в данном примере равна трехсловным цепочкам. Результаты этого анализа - список цепочек слов определенной пользователем длины слева от представленного слова - называется Список левой сигнатуры. Предположим,что система в вышеприведенном примере выдает следующее: 1. the suspect was (подозреваемый был); 2. was arrested and (был арестован и); 3. continued to be (продолжал быть). На шаге 2 система работает на выданном списке левой сигнатуры. Система устанавливает местоположения слов и(или) цепочек слов, которые наиболее часто следуют за вышеприведенными тремя выданными трехсловными цепочками, т.е. слов и(или) цепочки слов справа от выданных трехсловных цепочек. Длина цепочек слов, которые система выдает в этой операции, задается пользователем. Результаты этого анализа - каждый список слов и(или) цепочек слов справа от каждой записи в списке левой сигнатуры - называется Список левой привязки. Предположим, что система в вышеприведенном примере выдает следующие списки левой привязки: 1. the suspect was a. arrested (арестован) (240);c. optimistic (оптимистичным) (120). Также на шаге 2 суммируются частоты общих выдач в каждом из списков левой привязки. Только общими выдачами в списке левой привязки являются:b. released 90+100=190. На шаге 3 система определяет три наиболее часто появляющиеся двухсловные цепочки непосредственно справа от выбранного запроса detained в документах в базе данных. Опять-таки, число часто появляющихся анализируемых цепочек слов задается пользователем (здесь, как на шаге 1, система выдает три верхние появляющиеся цепочки слов). И длина цепочек слов непосредственно справа от анализируемого слова (detained) задается пользователем, в данном примере это двухсловные цепочки (потому что цепочки слов любой длины могут использоваться на шаге 1 и шаге 3). Результаты этого анализа список цепочек слов заданной пользователем длины справа от представленного слова - называется Списком правой сигнатуры. Предположим, что система в вышеприведенном примере выдает следующее: 1. for questioning (для допроса); 2. on charges (под арестом); 3. during the (в течение). На шаге 4 система работает на выданном списке правой сигнатуры. Система устанавливает местоположение слов и(или) цепочек слов, которые наиболее часто появляются перед вышеприведенными выданными двухсловными цепочками, т.е. слова и(или) цепочки слов слева от выданных двухсловных цепочек. Длина цепочек слов, которые система выдает в этой операции, могут определяться пользователем. Результаты этого анализа - каждый список слов и(или) цепочек слов слева от каждой записи в списке правой сигнатуры - называется Списком правой привязки. Предположим, что система в вышеприведенном примере выдает следующие списки правой привязки: 1. for questioning a. held (сидел в тюрьме) (300);c. people (люди) (250). Аналогично шагу 2 суммируются частоты общих выдач списков правой привязки. Только общими выдачами в списке правой привязки являются:b. brought in (задержан) 100+150=250. На шаге 5 проводится НОЧА, и система выдает ранжирование. В настоящем изобретении взвешенная частота получается умножением частот общих выдач шагов 2 и 4 (т.е. выдачи в обоих списках левой привязки и правой привязки) следующим образом: 1. held 650x270=175,500; 2. arrested 200x240=48,000. Альтернативный вариант осуществления для ранжирования не рассматривает конкретную взвешенную частоту. Вместо этого все результаты, полученные в по меньшей мере одном списке левой привязки и в по меньшей мере одном списке правой привязки, ранжируются согласно полному числу списков привязки, в которых появляется результат. В вышеприведенном примере ранжирование с помощью этого варианта осуществления было бы таким: Хотя оба released и brought in были каждый получены дважды в анализе, ни один не был получен как в списках левой привязки, так и в списках правой привязки (released был получен дважды в списках левой привязки, a brought in был получен дважды в списках правой привязки). Могут быть использованы и другие схемы взвешивания, объединяющие число списков с фиксацией и общую частоту. Вышеприведенная иллюстрация основана на относительно малом числе документов в базе данных документов. Эта база данных документов может быть больше и может включать в себя документы, дос- 25006373 тупные удаленно для системы по сетям, таким как Интернет. В одном варианте осуществления изобретения пользователь не только определяет число результатов, подлежащих включению в список сигнатуры,но также может остановить анализ, когда все из назначенного числа результатов найдены с заданной пользователем минимальной частотой. Это действует как отсечка и будет сохранять мощности обработки при использовании большой базы данных. Другие примеры определенных пользователем параметров для НОЧА для получения семантически эквивалентных слов и цепочек слов на запрошенное слово или цепочку слов могут рассматривать часто повторяющиеся слова и цепочки слов слева и справа от запроса в различных длинах. Таким образом,вместо того, чтобы иметь фиксированную длину до цепочек слов, выданных в списках левой и правой сигнатуры, вариант осуществления может иметь переменную определенную пользователем длину до цепочек слов, выданных в этих списках сигнатуры, с минимальной и максимальной длиной до цепочек слов. Более часто появляющиеся цепочки слов различных размеров, используемые в анализе как слева,так и справа от запроса, обеспечивают больше контекста для идентификации более точно семантических эквивалентов. Кроме того, этот вариант осуществления может включать в себя минимальное число появлений выдачи из списка сигнатуры для выданного слова или цепочки слов, чтобы квалифицировать для списка сигнатуры для большей точности. В этом анализе переменных цепочек слов в варианте осуществления по настоящему изобретению запрос из предыдущего примера (detained) может анализироваться следующим образом. На шаге 1 из доступной базы данных генерируют список левой сигнатуры заданного пользователем числа наиболее частых цепочек слов слева от запроса определенной пользователем минимальной и максимальной длины. Это тот же самый процесс на шаге 1 предыдущего примера за исключением того, что здесь используются цепочки слов переменной длины, а не цепочки слов фиксированной длины. Если заданные пользователем параметры (1) выдают шесть наиболее частых цепочек слов (2) с цепочками слов, имеющими минимальную длину в два слова, а максимальную длину в четыре слова, и (3) с минимальным появлением из по меньшей мере 500 появлений, результаты в предыдущем примере могут выглядеть (опять-таки, используя гипотетический пример) следующим образом: На шаге 2 генерируют списки левой призязки из результатов в списке левой сигнатуры, как и в предыдущем примере. На шаге 3 генерируют список правой сигнатуры с помощью тех же самых параметров, описанных на шаге 1 данного примера, со следующими результатами: Цепочка слов Частота 1. for questioning (для допроса) 1750 2. on charges (под арестом) 1520 3. during the (в течение) 1350 4. because of (из-за) 1000 5. due to (вследствие) 750 6. in connection (в связи) 600 7. without charge or (без ареста или) 575 8. for questioning after (для допроса после). На шаге 4 генерируют списки правой привязки из результатов списка правой сигнатуры, как и в предыдущем примере. На шаге 5 ранжируют все результаты, полученные в по меньшей мере одном списке левой привязки и по меньшей мере в одном списке правой привязки согласно полному числу списков, в которых появляются результаты. Альтернативно, ранги могут определяться умножением полного числа списков левой привязки, в которых появляется результат, на полное число списков правой привязки, в которых появляется результат. В дополнение к этому полная частота может суммироваться для взвешивания рангов. Следует отметить, что хотя запрос вышеприведенного примера был словом (detained), система может производить семантические эквиваленты для цепочек слов любого размера, где цепочка слов представляет семантически идентифицируемое понятие. К примеру, если систему запросили с цепочкой слов car race (автомобильные гонки), она выработает потенциальные семантические эквиваленты- 26006373 для автомобильных гонок. Выполняя те же самые шаги, описанные в вышеприведенных вариантах осуществления, которые используют НОЧА для определения семантических эквивалентов, система может выработать stock car race (гонки запасных автомобилей), auto race (автогонки), drag race(гонки экипажей), NASCAR race, Indianapolis 500, race (гонки) среди других семантических эквивалентов. Система принимает запросы и вырабатывает семантические эквиваленты с помощью в точности того же процесса, не обращая внимания на размер цепочки слов в запросе или на результат. Другой вариант осуществления создания семантически эквивалентных ассоциаций основан на использовании связанного общего частотного анализа (СОЧА), а не на примерах независимого общего частотного анализа (НОЧА), показанных выше. Этот семантически эквивалентный анализ СОЧА включает в себя следующие шаги. Шаг 1. Принимают запрос слова или цепочки слов, чтобы найти семантически эквивалентное слово или цепочку слов СОЧА и произвести поиск в базе данных документов, чтобы идентифицировать части документов, содержащие это слово или цепочку слов. В примере слово initial public offering (начальное публичное предложение) вводится в качестве запроса для идентификации его семантических эквивалентов СОЧА. Система затем осуществляет поиск в базе данных документов, идентифицирует части документов с цепочкой слов начальное публичное предложение и выдает эти части документов пользователю. Пользователь может определить и ограничить число выдаваемых частей. Шаг 2. Для каждого появления запрошенной цепочки слов, найденной на шаге 1, анализируют выданные части путем записи частоты появления (i) слова и (или) цепочки слов заданного пользователем размера слева от запроса в комбинации со (ii) словом и(или) цепочкой(-ами) слов заданного пользователем размера справа от запроса. Этот шаг создает связанные левую и правую сигнатуры, которые обеспечивают каркас для запроса; результат создает каркас левой/правой сигнатуры. В нашем примере определенная пользователем левая цепочка слов может быть установлена на два и определенная пользователем правая цепочка слов может быть установлена на два. С определенным пользователем пределом каркасов, подлежащих выдаче (к примеру, сотня), появляющихся определенное пользователем число раз (например пять), вычисления могут эффективно анализироваться. Этот процесс может привести к следующим гипотетическим выдачам для запроса initial public offering: 1. for anof its (дляего) 2. at anprice of (прицене) 3. announced theof its (объявленего) 4. at theof its (приего) 5. as theof its (т.к.его) 6. announced itsof the (объявлен его ) 7. the proposedfor its (предложенныйдля его) 8. announced anof stock (объявленбиржи) 9. completed itsof its (завершен егоего) 10. for theof its (дляего) Шаг 3. Осуществляют поиск в базе данных документов на предмет наиболее частых слов и цепочек слов (до заданного пользователем максимального размера), которые проявляются между левой и правой цепочками слов каждого каркаса левой/правой сигнатуры, полученного на шаге 2. Идентификация других часто повторяющихся слов и(или) цепочек слов, которые появляются между цепочками слов каркаса левой/правой сигнатуры, вырабатывает потенциальные семантические эквиваленты. Определенное пользователем минимальное число или доля каркаса левой/правой сигнатуры в необязательном порядке может требоваться для квалификации. Шаг 4. Результирующие слова и(или) цепочки слов, которые появляются между цепочками слов каркаса левой/правой сигнатуры, можно ранжировать на основании полной частоты, числа заполнений каркаса левой/правой сигнатуры или некоторого иного способа или комбинации способов. В этом примере высшие результаты на шаге 3 могут быть словами и(или) цепочками слов IPO, ipo(эти результаты могут быть чувствительными к регистру), Initial Offering (начальное предложение), offering (предложение), Public Offering (публичное предложение) и stock offering (биржевое предложение),которые все попадают в неразрешенную часть некоторых из каркасов левой/правой сигнатуры. Использование НОЧА и СОЧА для определения семантических эквивалентов будет включать в себя некоторые результаты, которые попадают в каркас левой/правой сигнатуры, но не являются семантическими эквивалентами. Например, многие слова или цепочки слов, которые имеют противоположное значение к запрошенному слову или цепочке слов, будут попадать во множество из того же самого каркаса левой/правой сигнатуры, что и запрос, т.к. будут связанными, но семантически неэквивалентными,словами и цепочками слов. Если приложение требует, чтобы только семантические эквиваленты были включены в список для запроса, можно использовать известные в технике методы фильтрации благодаря работе отдельного общего частотного анализа семантических эквивалентов для каждого результата в списке, произведенном запросом. Методы фильтрации, такие как включающие в себя только результаты из списка запроса, которые также появляются в пределах заданного пользователем порогового ранжирования в заданном пользователем числе списков семантических эквивалентов, могут использоваться для- 27006373 определения того, что останется в списке исходного запроса. Все другие результаты будут фильтроваться для приложений, которые вызывают только семантические эквиваленты. Вышерассмотренные варианты осуществления для генерирования семантических эквивалентов являются одним из путей, в котором настоящее изобретение может использовать НОЧА (или, альтернативно, СОЧА), чтобы идентифицировать характеристики понятий, представленных словами и цепочками слов и характером соотношения между словом или цепочкой слов и любым иным словом или цепочкой слов. Могут использоваться другие способы, основанные на той же самой базовой идее использования в качестве рычага соотношений между понятиями, определенными их частотой и близостью друг к другу в языке, вместе с другими категориальными индикаторами для решения более сложных проблем. Это может включать в себя проведение общего частотного анализа в отношении двух или более разных наборов сегментов и использование объединенных результатов заданным пользователем образом. Один пример более сложного соотношения, которое может быть идентифицировано, представляет собой сочетание, сформированное сравнением сигнатур слов или цепочек слов, которые противоположны друг другу. Для идентификации этого сочетания пользователь будет вводить слово в систему (например, hot (горячий. Система будет затем идентифицировать все частоты повторяющихся слов и цепочек слов вокруг этого слова (это генерирует словесную сигнатуру). Далее пользователь будет вызывать систему для идентификации всех частот повторяющихся слов и цепочек слов вокруг слова или цепочки слов, представляющих противоположное понятие (например, cold (холодный. Система будет затем просматривать общее сочетание частично совпадающих понятий между словом слева от hot и словом справа от cold и между словом слева от cold и словом справа от hot. Результатами являются сочетания, образованные сравнением двух сигнатур, которые система может использовать, чтобы идентифицировать другое слово или пару цепочек слов с таким же сочетанием,образованным сравнением этих сигнатур. Таким образом, если систему запрашивают со словом или цепочкой слов так, чтобы искать противоположность, система будет (1) идентифицировать все слова и цепочки слов, окружающие этот запрос, (2) идентифицировать список слов и цепочек слов, которые имеют сигнатуры, аналогичные с запросом, но не на уровне сходства, который бы идентифицировал их в качестве синонимов, (3) затем сравнивать сигнатуры этих связанных (но не синонимичных) слов и цепочек слов с запросом и (4) сравнивать результат сравнения, идентифицированный на шаге 3, с результатами сравнения сигнатур ранее идентифицированных противоположных пар слов или цепочек слов. Если любое из сравнений, генерируемых на шаге 3, имеет сочетание, которое достаточно сходно (по определению пользователя) с сочетанием, образованным сравнением сигнатур между известными противоположностями, система будет идентифицировать слово или цепочку слов из шага 2, которые контрастируют с запросом, чтобы формировать это сочетание и идентифицировать его в качестве противоположного запросу. Следует также отметить, что заданные пользователем параметры для того, чтобы система выработала эквиваленты цепочек слов (или любое иное соотношение), могут включать в себя цепочки слов в любой тесной близости к запросу и только не непосредственно соседствующие с запросом слева или справа. Согласование заданных пользователем параметров будет желательным в приложениях, где выражение семантического значения, как правило, менее эффективно или менее структурно традиционно(например, разговор, зафиксированный на носителе чат-комнаты в Интернет и другие виды разговоров). Построитель базы данных перевода с помощью генератора семантических эквивалентов Дополнительные варианты осуществления настоящего изобретения используют систему и способ для генерирования списка семантических эквивалентов, чтобы помочь в переводе. Он может использоваться в качестве альтернативы или совместно с построителем базы данных перевода цепочек слов с помощью метода параллельного текста и двойного частичного совпадения, как ранее описывалось здесь и в заявке США 10/024,473. Один пример того, как система и способ для генерирования списка семантических эквивалентов может использоваться в базе данных перевода, состоит в следующем. Во-первых, генерируют две конкретных сигнатуры определенного пользователем размера слева и справа от подлежащей переводу части, которая еще не разрешена. Например, предположим, что система переводит предложение I went to the ball park to watch the baseball game (Я ходил на спортплощадку наблюдать игру в бейсбол). Кроме того, предположим, что известны все сегменты перевода для этого предложения за исключением фразы the ball park (спортплощадка) (это известно как неразрешенная фраза или часть). Если определенные пользователем параметры определяются как трехсловная цепочка непосредственно слева от неразрешенной фразы и четырехсловная цепочка непосредственно справа от неразрешенной фразы, настоящее изобретение выдает две цепочки слов: специфичная для левой сигнатуры цепочка слов и специфичная для правой сигнатуры цепочка слов. Таким образом, специфичной для левой сигнатуры цепочкой слов была бы: I went to (Я ходил на). Специфичной для правой сигнатуры цепочкой слов была бы: to watch the game (наблюдать игру). Во-вторых, с помощью любых ранее описанных вариантов осуществления для создания семантических ассоциаций генерируют списки сигнатур на исходном языке для неразрешенной фразы из базы дан- 28006373 ных документов. Эти списки, созданные с помощью вышеописанных системы и способа семантических эквивалентов в отношении неразрешенной фразы, называются списком левой сигнатуры и списком правой сигнатуры, соответственно. В-третьих, переводят как специфичную для левой сигнатуры цепочку слов, так и специфичную для правой сигнатуры цепочку слов на целевой язык. Эти переводы могут быть получены с помощью либо построителя базы данных параллельных текстов по настоящему изобретению, либо других известных в уровне техники устройств. Результаты, использующие известные в уровне техники системы перевода,могут быть улучшены использованием описанного выше многоязыкового вспомогательного варианта осуществления по настоящему изобретению. Результатом этого процесса является список левой целевой сигнатуры. Проводят аналогичный процесс перевода в отношении списка специфичных для правой сигнатуры цепочек слов и списка правой сигнатуры для создания списка правой целевой сигнатуры. В-четвертых, создают с помощью шагов 2 и 4 вышеописанного процесса семантических эквивалентов списки привязки целевого языка из списков левой и правой целевых сигнатур и любой базы данных документов на целевом языке. Результирующие списки из этого процесса являются, соответственно,списками левой целевой привязки и списками правой целевой привязки. Наконец, сравнивают выдачи списков левой целевой привязки с выдачами списков правой целевой привязки. Результаты, которые появляются в по меньшей мере одном из списков левой целевой привязки и одном из списков правой целевой привязки, являются потенциальными переводами запроса и ранжируются согласно полному числу списков привязки, в которых они появляются. Дополнительное взвешивание может быть придано для появлений в списках привязки, извлеченных из списков контекстно специфичных цепочек слов, для большей точности. Ранжирование может быть также определено умножением числа списков левой привязки на число списков правой привязки, в которых появляется результат. Дополнительно, некоторый вес для полной частоты выдач может быть включен в качестве фактора в результаты ранжирования. Другой вариант осуществления с помощью семантических эквивалентов для построения базы данных потенциальных переводов для запроса с учетом неразрешенной фразы состоит в следующем. Во-первых, анализируют неразрешенную фразу запроса согласно анализу семантических эквивалентов с помощью только специфичных для левой и правой сигнатур цепочек слов, как описано выше. Затем анализируют неразрешенную фразузапроса согласно анализу семантических эквивалентов с помощью только списков левой и правой сигнатур, как описано выше. Результаты, которые появляются в любом из по меньшей мере одного из списков левой привязки и(или) специфичных для левой и правой сигнатур цепочек слов и в любом, по меньшей мере, из списков правой привязки и(или) специфичных для правой сигнатуры цепочек слов, ранжируются затем согласно полному числу списков привязки, в которых они появляются. Дополнительное взвешивание для ранжирования может задаваться для появлений в списках привязки, выделенных из специфичных для сигнатуры цепочек слов. Далее неразрешенная часть запроса и список семантических эквивалентов, генерируемый описанным выше ранжированием,затем переводятся на целевой язык. Переводы могут быть получены с помощью либо построителя базы данных параллельных текстов по настоящему изобретению, либо других известных из уровня техники устройств перевода. Результаты, использующие известные из уровня техники устройства перевода, могут быть улучшены использованием описанного ранее многоязыкового вспомогательного варианта осуществления по настоящему изобретению. Для каждого из результатов перевода система генерирует список семантических эквивалентов с помощью базы данных текстов на целевом языке. Любой перевод на целевой язык, который появляется в заданном пользователем числе списков (но по меньшей мере в двух из списков), назначается в качестве потенциального перевода неразрешенной части запроса. С учетом потенциальной неточности известных устройств перевода полученные для неразрешенной части запроса переводы и их семантические эквиваленты с помощью этих устройств могут проверяться также на порог частичной точности. К примеру, если переводить пятисловные цепочки слов с помощью основанной на правилах машины, выдающей переводы пятисловных цепочек слов на целевом языке, эти цепочки слов на целевом языке могут тестироваться на семантические эквиваленты любых цепочек слов между заданным пользователем числом длины слов, которая включает в себя заданный пользователем минимум слов в переводе. Другой вариант осуществления для перевода документов с одного языка на другой с помощью НОЧА или СОЧА включает в себя семантические эквиваленты запроса, а также присоединенные их цепочки слов левой и правой сигнатур. С помощью этих списков как на исходном, так и на целевом языках, слова для словаря между двумя языками и метода двойного частичного совпадения, может быть осуществлен перевод между языками. По своей сути методика построения ассоциативной базы данных включает в себя (i) взятие блока сгруппированных данных, организованных линейно или по порядку, (ii) разбиение этой группы данных на все возможные смежные ее поднаборы и (iii) построение соотношений между всеми поднаборами данных на основании часто повторяющейся (в общем случае тесной) близости друг к другу во всех доступных блоках группированных данных. В соответствии с ОЧА система обеспечивает соотношения часто повторяющейся близости между сегментами данных поднаборов пользователю, чтобы помочь иден- 29006373 тифицировать некоторые повторяющиеся сочетания, которые определяют сигнатуру данных, обеспечивающую обобщенную информацию о любых данных, связанных с этой общей сигнатурой данных. Поэтому те же самые методы, использованные при создании базы данных, и общий частотный анализ могут быть применены для распознавания сочетаний для многих типов разработки данных, разработки текста, целевого распознавания и любого иного приложения, которое требует распознавания сочетаний. Как будет понятно специалистам в технике, многие изменения в вышеописанных устройствах и способах могут быть сделаны специалистами-практиками без отхода от сущности и объема изобретения.

МПК / Метки

МПК: G06F 17/28

Метки: слов, ассоциирования, способ, устройство

Код ссылки

<a href="https://eas.patents.su/30-6373-sposob-i-ustrojjstvo-associirovaniya-slov.html" rel="bookmark" title="База патентов Евразийского Союза">Способ и устройство ассоциирования слов</a>

Похожие патенты