Создание базы данных связей между понятиями
Формула / Реферат
1. Способ установления связей для содержимого, содержащий следующие этапы:
принимают содержимое, выраженное в первом состоянии;
принимают содержимое, выраженное во втором состоянии;
анализируют указанное содержимое, выраженное в указанном первом состоянии с указанным содержимым, выраженным в упомянутом втором состоянии, при этом в указанном анализе используют разделение указанного содержимого, выраженного в первом состоянии, на по меньшей мере первый сегмент и второй сегмент, причем указанный первый сегмент имеет части, перекрывающиеся с указанным вторым сегментом, и в указанном анализе используют разделение указанного содержимого, выраженного во втором состоянии, на по меньшей мере третий сегмент и четвертый сегмент, причем указанный третий сегмент имеет части, перекрывающиеся с указанным четвертым сегментом; и
создают базу данных связей указанного содержимого, находящегося в указанном первом состоянии, с указанным содержимым, находящимся в указанном втором состоянии, причем указанное создание содержит сравнение указанного первого и указанного второго сегментов с указанным третьим и указанным четвертым сегментами, для связывания частоты встречаемости между первым, вторым, третьим и четвертым сегментами.
2. Компьютерная система, служащая для установления связей для содержимого, содержащая вычислительное устройство, осуществляющее прием содержимого, выраженного в виде первого состояния, и осуществляющее прием содержимого, выраженного в виде второго состояния; в которой указанное вычислительное устройство выполнено с возможностью анализа указанного содержимого, выраженного в виде упомянутого первого состояния, с упомянутым содержимым, выраженным в виде упомянутого второго состояния, при этом в указанном анализе используют разделение указанного содержимого, выраженного в первом состоянии, на по меньшей мере первый сегмент и второй сегмент, причем указанный первый сегмент имеет части, перекрывающиеся с указанным вторым сегментом, и в указанном анализе используют разделение указанного содержимого, выраженного во втором состоянии, на по меньшей мере третий сегмент и четвертый сегмент, причем указанный третий сегмент имеет части, перекрывающиеся с указанным четвертым сегментом; и в которой указанное вычислительное устройство создает базу данных связей указанного содержимого, находящегося в указанном первом состоянии, с указанным содержимым, находящимся в указанном втором состоянии, причем указанное создание содержит сравнение указанного первого и указанного второго сегментов с указанным третьим и указанным четвертым сегментами, для связывания частоты встречаемости между первым, вторым, третьим и четвертым сегментами.
Текст
006182 Изложение сущности изобретения Настоящее изобретение относится к способу и к устройству создания базы данных связей между понятиями, служащей для преобразования, управления и/или перевода информации из одного состояния во второе состояние. В одном из вариантов осуществления настоящего изобретения эти два состояния представляют собой языки, выражаемые словами (например, английский язык, иврит, китайский язык и т.д.), поэтому настоящее изобретение обеспечивает создание базы данных связей между языками, сопоставляющей слова и фразы на одном языке с эквивалентами их перевода на другом языке. В данном примере настоящее изобретение обеспечивает создание базы данных путем изучения документов на этих двух языках и создания базы данных переводов для каждого слова или фразы на обоих языках. Однако настоящее изобретение не следует ограничивать переводом с одного языка на другой. Настоящее изобретение позволяет пользователю создавать базу данных понятий и сопоставлять эти понятия другим понятиям, отличающимся от них, иерархическим способом. Таким образом, понятия ставятся в соответствие другим понятиям и классифицируются в соответствии с частотой их повторяемости. Удельный весовой коэффициент, присвоенный в зависимости от частоты повторяемости, и область применения созданной таким способом базы данных могут быть изменены в зависимости от потребностей пользователя. Например, применительно к преобразованию текста с одного языка на другой, настоящее изобретение функционирует таким образом, что создает переводы слов с иностранного языка и цепочки слов на английском языке. Настоящее изобретение отражает сведения о ранжировании связей с этими словами(или с цепочками слов); например, наиболее часто встречающееся слово на иностранном языке представляет собой эквивалент слова (на английском языке) при достаточно большом объеме выборки. Однако настоящее изобретение также отражает сведения и о других связях слов на иностранном языке с английским словом, и пользователь может управлять этими связями по своему усмотрению. Например, слово "mountain" (гора) при действиях согласно настоящему изобретению может отражать сведения о перечне иностранных слов на рассматриваемом языке. Наиболее вероятно, что эквиваленту слова "mountain" на иностранном языке будет присвоен самый высокий ранг; однако, настоящее изобретение обеспечивает предоставление сведений и о других словах на иностранном языке, связанных со словом "mountain" (гора), например, "snow" (снег) или "ski" (лыжи). Пользователь может производить манипуляции с этими словами, которым может быть присвоен или может быть не присвоен более низкий ранг, чем переводу слова "mountain" (гора), по своему усмотрению. Таким образом, настоящее изобретение обеспечивает автоматическое создание базы данных связей. Наиболее сильные связи отображают одно из смысловых значений "переводов", а другие часто встречающиеся (но более слабые) связи представляют понятия, тесно связанные с рассматриваемым понятием. Целью настоящего изобретения является создание базы данных связей слов и фраз (цепочек слов) между первым языком и вторым языком. В общем случае, предложенный способ содержит операции анализа и обработки двух документов, каждый из которых содержит текст, представляющий одно и то же понятие или содержание, но на двух различных языках. Способ и устройство из настоящего изобретения используются для создания базы данных связей между этими двумя языками - переводами, или, в частности, возможных связей между словами и фразами. Перевод и иные соответствующие связи слов и фраз между этими двумя языками становятся более сильными, т.е. чаще встречающимися, по мере увеличения количества рассмотренных и обработанных в настоящем изобретении документов, поэтому путем обработки достаточно большой "выборочной совокупности" (выборки) документов обеспечивают выявление наиболее часто встречающихся (и в определенном смысле, правильных) связей, а способ и устройство могут быть использованы для переводческих целей. В предпочтительном варианте осуществления настоящего изобретения используют вычислительное устройство, например, систему персонального компьютера согласно известному уровню техники. Однако в способе и в устройстве по настоящему изобретению использование подобного вычислительного устройства не является обязательным условием, и они могут быть легко реализованы с использованием другого средства, включая создание перекрестных связей вручную. Способ, посредством которого документы последовательно подвергают анализу для увеличения объема "выборочной совокупности" документов и создания базы данных связей, может быть реализован различными способами: анализ и манипуляции с документами могут быть выполнены вручную, посредством автоматической подачи (например, посредством автоматических устройств для загрузки бумаги из известного уровня техники), или с использованием способов поиска в сети Интернет, обеспечивающих автоматический поиск соответствующих документов. Следует отметить, что в приведенном ниже описании термин "документы" используют взаимозаменяемо, при этом он обычно относится к паре объектов (книги, статьи, письма и т.п.), представляющих одинаковое понятие или содержание, но с учетом того обстоятельства, что один из них написан на одном языке, и другой написан на другом языке. Кроме того, всякий раз, когда в настоящем изобретении считают, что операцию выполняют со словом, понятно, что тот же самый способ применим для фраз или иных цепочек слов, и что он не ограничен только лишь одним словом.-1 006182 В состав данной предварительной заявки на изобретение путем ссылки включена предварительная заявка на изобретение 60/276107 от 16 марта 2001 г., имеющая название "Способ и устройство манипуляций с информационным содержимым" (являющаяся приложением к настоящей заявке). Подробное описание предпочтительного варианта осуществления изобретения Ниже приведено описание предпочтительного варианта осуществления настоящего изобретения. Настоящее изобретение может быть использовано в обычной компьютерной системе, содержащей,по меньшей мере, средство визуального отображения, способ ввода данных и способ вывода данных, а также процессор. Средство визуального отображения может представлять собой любое из легко доступных средств из известного уровня техники, например, терминалов на основе электронно-лучевых трубок,дисплеев на жидких кристаллах, индикаторных панелей и т.п. Средство, представляющее собой процессор, также может представлять собой любое из легко доступных и используемых в вычислительной среде средств, при этом данное средство позволяет компьютеру функционировать таким образом, чтобы обеспечить реализацию настоящего изобретения. Наконец, используют такой способ ввода данных, который позволяет осуществлять ввод документов для формирования базы данных связей; как описано выше, конкретный способ ввода данных может быть изменен в зависимости от потребностей пользователя. Согласно настоящему изобретению для формирования базы данных документы подвергают анализу. После ввода документа (опять таки, пары документов, представляющих одинаковый текст на двух различных языках) начинают процесс создания с использованием описанных здесь способов и/или устройств. В иллюстративных целях сделано предположение, что документы содержат одинаковые слова (или,в общем смысле - понятия) на двух различных языках. Документ А написан на языке А. Документ Б написан на языке Б. Документы содержат следующий текст: Первым этапом в настоящем изобретении является вычисление длины последовательности слов для определения приблизительных связей для любого заданного слова или фразы. Поскольку перевод "слово в слово" является неприемлемым (т.е. наиболее вероятно, что первое слово в документе А не является дословным переводом первого слова в документе Б), то в способе создания базы данных согласно настоящему изобретению осуществляют сверку каждого слова на первом языке с последовательностью слов на втором языке. Таким образом, эту последовательность создают путем анализа этих двух документов, и используют ее для сравнения слов, фраз или иных цепочек слов, содержащихся во втором документе, со словами, фразами или иными цепочками слов, содержащимися в первом документе. То есть последовательность слов (или фраз, или цепочек слов), содержащихся во втором документе, используют в качестве возможного объекта, сопоставляемого с любым словом (или фразой, или последовательностью слов), содержащемся в первом документе. Путем выполнения сверки с последовательностью, в способе создания базы данных определяют несколько слов на втором языке, которые можно считать эквивалентными словам на первом языке и их переводами. Длину последовательности, в конечном счете, задает пользователь. Для определения длины последовательности могут быть использованы различные способы, в том числе обычные статистические способы, например, способ получения кривой нормального распределения, исходя из количества слов в документе. При использовании статистического способа, например, кривой нормального распределения,длина последовательности в начале и в конце документа будет меньшей, чем длина последовательности в середине документа. Колоколообразное распределение частоты повторяемости слов, содержащихся в последовательности, позволяет осуществлять приемлемую экстраполяцию возможных переводов слова вне зависимости от того, осуществлена ли она в соответствии с количеством слов в документе или в соответствии с процентом охвата некоторых желательных слов. Существуют и другие способы вычисления длины последовательности, например, способ "ступеньки", в котором для некоторого процента слов существует длина последовательности на одном уровне, для другого процента слов существует вторая последовательность большего уровня, а для последнего процента слов существует последовательность третьего уровня, равная по уровню первой последовательности. И опять, последовательность задает пользователь или же ее определяют согласно другим возможным параметрам. Длина последовательности может зависеть от количества слов в этих двух документах. Если количество слов в этих двух документах равно, то она может иметь любую длину. Применение статистических способов позволяет создать такую кривую нормального распределения, что последовательность содержит меньшее количество слов в начале документа, наибольшее количество слов в середине документа и меньшее количество слов в конце документа. Если количество слов в этих двух документах является неодинаковым, то для правильного размещения последовательности может быть использовано соотношение. Например, если документ А содержит 75 слов, а документ Б содержит 100 слов, то соотношение для этих двух документов равно 3:4. Серединой документа А является слово, расположенное в 37 (или в 38) позиции; однако, использование-2 006182 этой середины (37 или 38 позиции слова) в качестве места расположения последовательности наибольшей длины (если она определена согласно способу на основе кривой нормального распределения) в документе Б является неэффективным, поскольку эта позиция (37 или 38 позиция слова) не является серединой документа Б. Вместо этого, точка максимально вероятного расположения длины последовательности в документе Б может быть определена соотношением количества слов между этими двумя документами, путем ее размещения в середине документа Б вручную или иными способами. В основе настоящего изобретения лежит создание частот повторяемости связей для каждого возможного перевода. Путем анализа положения слова в документе и использования вышеописанной последовательности, способ создания базы данных согласно настоящему изобретению обеспечивает выдачу возможного набора слов из документа на втором языке, являющихся переводом слова из первого документа. Использование способа создания базы данных по настоящему изобретению обеспечивает сужение возможного набора слов и получение частоты повторяемости связей, что помогает определять возможный перевод. Таким образом, после анализа двух документов настоящее изобретение обеспечивает создание частот повторяемости связей слова (или для фразы, или для цепочки слов) на одном языке с тем же самым словом (или фразой, или цепочкой слов) на втором языке. После анализа нескольких пар документов согласно настоящему изобретению (и, следовательно, создания большой выборки), способ создания базы данных связей между языками отражает сведения о все более и более высоких частотах повторяемости связей для любого слова, фразы или цепочки слов. В результате, перевод соответствует наиболее высокой частоте повторяемости связей после просмотра достаточно большой выборки; окончательную точку, в которой считают, что частота повторяемости связей соответствует точному переводу,конечно же, определяет пользователь, и к ней применяют другие способы интерпретирующего перевода(например, описанные в предварительной заявке на изобретение 60/276107 от 16 марта 2001 г., имеющей название "Способ и устройство манипуляций с информационным содержимым", которая включена сюда путем ссылки). Например, после анализа нескольких документов приведенные ниже частоты повторяемости связей могут привести к получению следующих эквивалентов английского слова "friend"(друг) на испанском языке: "gato" - 25%; "burro" - 15% и "amigo" - 60%. По мере анализа большего количества пар документов действия согласно настоящему изобретению приведут к увеличению частоты повторяемости связей для слова "amigo" и к уменьшению частоты повторяемости связей для слов "gato" и"burro". В заданной пользователем точке частота повторяемости связей достигнет такого уровня, при котором считают, что перевод произошел, при этом слово "friend" (друг) на английском языке будет переведено на испанский язык как "amigo". Как указано выше, изобретение обеспечивает проверку не только слов, но и фраз или цепочки слов(нескольких слов). В способе создания базы данных согласно настоящему изобретению после анализа одиночного слова выполняют анализ цепочки слов, состоящей из двух слов, затем цепочки слов, состоящей из трех слов, и так далее, способом постепенного увеличения их количества. Этот способ позволяет осуществлять перевод фраз или цепочек слов на одном языке одним словом на другом языке, что часто имеет место. В том случае, если количество слов (или цепочек слов) превышает одно, анализ прекращают после того, как все позиции слов или цепочки слов были подвергнуты анализу. Если слово встречается в документе только один раз, то в процессе немедленно увеличивают количество слов и получают цепочку слов. В том случае, когда цепочка слов встречается только один раз, процесс возвращается назад ко второму слову в документе, и цикл анализа выполняют снова так, как описано выше. Следует отметить, что могут иметь место видоизменения этого процесса для обеспечения его пригодности для тех ситуаций, в которых слово встречается в двух анализируемых документах только один раз. Например, если слово встречается в документе только один раз, видоизмененный вариант настоящего изобретения позволяет производить анализ других документов для поиска соответствующих слов или цепочек слов. В некотором смысле, для обеспечения функционирования настоящего изобретения любое количество документов может быть объединено и подвергнуто обработке в качестве одного единого документа. Кроме того, в другом варианте осуществления настоящего изобретения имеется возможность работы со всем документом целиком, что обеспечивает его пригодность для тех ситуаций, в которых слово встречается только один раз. Для цепочек слов операции увеличения количества слов, сверки и выдачи результата выполняют аналогичным способом. Таким образом, для любой фразы осуществляют анализ количества ее появлений, получают сведения о фразах, исходя из длины последовательности, и создают базу данных возможных переводов этой фразы. Кроме того, настоящее изобретение может функционировать таким образом, что осуществляет анализ цепочек слов, зависящих от корректного места расположения или самих слов (содержащихся в этой цепочке слов), и может функционировать таким образом, что обеспечивает учет грамматических особенностей, например, особенностей составления фраз, стиля или сокращений. Настоящее изобретение может охватывать собой различные изменения, встречающиеся в документах, в которых имеются подмножества слов, находящиеся внутри больших цепочек слов. Например,имена собственные иногда представлены в полной форме (например, "John Doe" (Джон Доу, путем сокращений в виде имени или фамилии ("John" (Джон) или "Doe" (Доу или в виде сокращений, выпол-3 006182 ненных иным способом ("Mr. Doe" (мистер Доу. Настоящее изобретение обеспечивает учет этих шаблонов путем распознавания посредством анализа наличия этих шаблонов в базе данных связей и управления выдачей (получением) сведений о частоте повторяемости. Поскольку наиболее вероятно то, что настоящее изобретение обеспечивает больше сведений об отдельных словах, чем сведений о цепочках слов (т.е. больше сведений об именах или фамилиях, а не о цепочке слов полного имени "John Doe"(Джон Доу , так как слова, образующие цепочку слов, будут обязательно подсчитаны как отдельно, так и в качестве части фразы, то может быть использовано изменение ранга. Например, в любом документе имя "John Doe" (Джон Доу) может встречаться сто раз, в то время как само имя "John" (Джон) может встречаться сто двадцать раз, а сама фамилия "Doe" (Доу) может встречаться сто десять раз. При попытке анализа цепочки слов "John Doe" (Джон Доу) в случае обычного отражения сведений о переводе (согласно настоящему изобретению) имя "John" (Джон) имеет более высокий ранг, чем фамилия "Doe"(Доу), а оба эти слова имеют более высокий ранг, чем цепочка слов "John Doe" (Джон Доу) . Надлежащее упорядочение может быть получено путем выполнения операции вычитания количества повторений больших цепочек слов из сведений о подмножестве слов (или из сведений об отдельных словах) (хотя для получения аналогичного результата, конечно же, могут быть использованы и другие способы). Таким образом, путем вычитания числа сто (количество повторений "John Doe" (Джон Доу из ста двадцати (количество повторений слова "John" (Джон, получают правильный результат для слова "John"(Джон), равный двадцати. В результате применения этого способа анализа получают значение "сто" в качестве количества повторений цепочки слов "John Doe" (Джон Доу) (при анализе и попытке перевода этой цепочки слов), значение "двадцать" - для слова "John" (Джон) и значение "десять" - для слова "Doe"(Доу), обеспечивая таким способом создание надлежащих связей (ассоциаций). Ниже в качестве примера приведено описание варианта осуществления настоящего изобретения с использованием двух вышеописанных документов, при этом вновь создают следующую таблицу: В способе создания базы данных выполняют перечисленные ниже этапы с использованием двух вышеупомянутых документов (А - первый язык, а Б - второй язык). Этап 1. Сначала определяют длину последовательности. Как указано выше, длина последовательности может быть задана пользователем или может быть аппроксимирована множеством способов. Количество слов в этих двух документах является приблизительно одинаковым (десять слов в документе А,восемь слов в документе Б); длина последовательности, равная трем (тридцать процентов слов в документе А), может обеспечить получение наилучших результатов. В этом примере для аппроксимации кривой нормального распределения длина последовательности равна единице в начале и в конце документа,и двум в его середине. Однако, как указано выше, длина последовательности (или способ, используемый для определения последовательности) может быть полностью задана пользователем. Таким образом, когда в этом примере используют способ создания базы данных согласно настоящему изобретению, то длина последовательности изменяется от одного слова до двух слов и от двух слов до одного слова. Этап 2. Затем осуществляют анализ первого слова в документе А и его проверку по документу А для определения количества повторений этого слова в документе. В этом примере первым словом в документе А является X: слово X повторяется в документе А три раза, в позициях 1, 4 и 9. Количество и номера позиций слова, фразы или иной цепочки слов представляют собой просто обозначение того количества раз, которое это слово, фраза или цепочка слов встречается в документе, и местоположения этого слова, фразы или цепочки слов в документе относительно других слов. Таким образом, количество позиций соответствуют количеству слов в документе без учета знаков пунктуации, например, в том случае,если документ содержит десять слов, а слово "king" (король) встречается дважды, то номерами позиций слова "король" являются просто те места (из десяти слов), в которых встречается это слово. Поскольку в документе слово X встречается более одного раза, то в данной процедуре переходят к выполнению следующего этапа. Если бы слово X встречалось только один раз, то это слово было бы пропущено и было бы выполнено расширение процедуры на следующую цепочку слов (или фразу), а процесс создания был бы продолжен. Этап 3. Осуществляют выдачу (получение) сведений о возможных переводах слова X на первом языке, расположенного в позиции 1, на второй язык: в результате применения этой последовательности к документу Б получают слова, расположенные в документе Б в позициях 1 и 2(1 +/- 1): АА и ВВ (расположенные в документе Б в позициях 1 и 2). Осуществляют выдачу сведений обо всех возможных комбинациях этого слова как о потенциально возможном переводе X: АА, ВВ и АА ВВ (в качестве комбинации цепочек слов). Получают сведения о комбинации цепочек слов как о возможном соответствии для учета того обстоятельства, что одно слово на одном языке может быть эквивалентно фразе на втором языке. Таким образом, X1 (первое появление слова X) дает сведения о связях с АА, ВВ и АА ВВ. Этап 4. Производят анализ следующей позиции слова X. Это слово (Х 2) встречается в позиции 4. Поскольку позиция 4 находится вблизи середины документа, длина последовательности (как определено-4 006182 выше) равна двум словам. Осуществляют выдачу сведений о возможных переводах, рассматривая четвертое слово в документе Б и используя последовательность длиной (2); следовательно, получают два слова перед четвертым словом и два слова после четвертого слова. Таким образом, получают слова, расположенные в позициях 4 +/- 2 или, иными словами, в позициях 2, 3, 4, 5 и 6. Эти позиции соответствуют словам ВВ, СС, АА, ЕЕ и FF из документа Б. В качестве связей рассматривают все перестановки этих слов (и их объединенные цепочки слов) в прямом направлении: ВВ, СС, АА, ЕЕ, FF, ВВ СС, ВВ СС АА,ВВ СС АА ЕЕ, ВВ СС АА ЕЕ FF, СС АА, СС АА ЕЕ, СС АА ЕЕ FF, АА ЕЕ, АА ЕЕ FF и ЕЕ FF. Таким образом, для Х 2 получают ВВ, СС, АА, ЕЕ, FF, ВВ СС, ВВ СС АА, ВВ СС АА ЕЕ, ВВ СС АА ЕЕ FF, СС АА, СС АА ЕЕ, СС АА ЕЕ FF, АА ЕЕ, АА ЕЕ FF и ЕЕ FF в качестве связей. Этап 5. Сведения о первом появлении слова X (позиция 1) сравнивают со сведениями о втором появлении слова X (позиция 4) и определяют соответствия. В этом случае производят сравнение связей дляX1 и Х 2 и определяют соответствия в двух документах. Следует отметить, что идентичные сведения (или количество появлений слова или цепочки слов) в области перекрытия между двумя последовательностями могут быть уменьшены до одного случая. Например, в этом примере словом, расположенным в позиции 2, является ВВ; это является результатом как для первого появления X (при его обработке посредством последовательности), так и для второго появления X (при его обработке посредством последовательности). Поскольку сведения об одной и той же позиции слова выдаются как для X1, так и для Х 2, это слово считают встречающимся один раз. Однако если получены сведения об одном и том же слове, но расположенном вне области перекрытия (т.е. данные о позиции одного и того же слова не выданы для обеих позиций X1 и для Х 2, но выдаются результаты об одном и том же слове), то это слово подсчитывают дважды. В этом случае сведениями о слове X являются АА, поскольку это слово (АА) встречается в сведениях о связях как для X1, так и для Х 2. Следует отметить, что другим словом, встречающимся в обоих сведениях о связях, является ВВ; однако, как описано выше, поскольку это слово расположено в одной и той же позиции, которая (и, следовательно, является одним и тем же словом) устанавливается при выполнении операции обработки посредством последовательности первого и второго мест появления X, то это слово можно не учитывать. Этап 6. Осуществляют анализ следующей позиции слова X (Х 3) (позиция 9). Применение последовательности длиной 1 (вблизи конца документа) дает сведения о значениях в следующих позициях документа Б: 8, 9, и 10. Поскольку документ Б содержит только 8 позиций, то результаты усекают, и в качестве возможных значений для X получают сведения только о слове, расположенном в позиции 8: СС. Сравнение с первыми сведениями для X (X1) не дает никаких соответствий. Таким образом, поскольку какое-либо соответствие отсутствует, сведения о значении, соответствующем Х 3, которым в этом случае является СС, не учитывают, и соответствие связей не создают. Этап 7. Осуществляют анализ следующей позиции слова X; однако, в документе А слово X больше не встречается. В этот момент, поскольку для слова X частота повторяемости связей уже определена, то в качестве возможных вариантов перевода слова X создана следующая база данных: АА. Следовательно,в этот момент установлена связь X с АА. Этап 8. Поскольку слово X больше не встречается, в данной процедуре производят приращение количества слов на одно и осуществляют проверку цепочки слов (или фразы). В данном случае анализируемой цепочкой слов является "X Y", т.е. первые два слова из документа А. Для этой фразы применяют тот же самый способ, который был описан на этапах 2-7. Этап 9. Рассматривая документ А, видно, что цепочка слов "X Y" встречается в нем только один раз. В этот момент процедуру приращения прекращают и базу данных не создают. Поскольку была достигнута конечная точка, то производят анализ следующего слова (эту операцию выполняют всякий раз при отсутствии соответствий для цепочки слов); в этом случае словом, расположенным в позиции 2 документа А, является "Y". Этап 10. Для слова "Y" применяют процедуру, состоящую из этапов 2-7, что дает следующие результаты:- слово Y встречается два раза (в позициях 2 и 7), поэтому процедуру создания базы данных продолжают (и опять, если бы слово Y встречалось в документе А только один раз, то слово Y не подвергалось бы анализу);- применение последовательности к документу Б (позиция 2, место первого появления слова Y) дает в качестве результата позиции 1, 2, и 3 документа Б;- соответствующими словами на иностранном языке в этих полученных позициях являются: АА, ВВ и СС;- применение перестановок в прямом направлении дает следующие возможные варианты для Y1: АА, ВВ, СС, АА ВВ, АА ВВ СС и ВВ СС;- выполняют анализ для следующей позиции Y (позиция 7);- длина последовательности для позиции 7 равна двум словам;- применение этой последовательности к документу Б (позиция 7) дает в результате позиции 5, 6, 7,и 8: ЕЕ FF GG и СС;- все перестановки дают следующие возможные варианты для Y2: ЕЕ, FF, GG, СС, ЕЕ FF, ЕЕ FF- сопоставление результатов для Y1 дает СС в качестве единственного соответствия;- в результате объединения сопоставлений для Y1 и Y2 получают, что наиболее часто повторяющейся связью для Y является одно значение СС. Этап 11. Завершение приращения последовательности: поскольку единственное возможное соответствие для слова Y (слово СС) встречается в конце последовательности для первого появления Y (СС встречается в документе Б в позиции 3), то для первого появления длину последовательности увеличивают на 1, получая сведения о позициях 1, 2, 3 и 4: АА, ВВ, СС и АА или о следующих перестановках в прямом направлении: АА, ВВ, СС, АА ВВ, АА ВВ СС, АА ВВ СС АА, ВВ СС, ВВ СС АА и СС АА. Применение этого результата, тем не менее, дает СС в качестве возможного перевода слова Y. Следует отметить, что длина последовательности была увеличена потому, что полученное соответствие имело место в конце последовательности (основное место появления слова "Y"); всякий раз, когда этот шаблон встречается в конце последовательности, выполняют приращение в качестве подэтапа (или альтернативного этапа), обеспечивая завершенность. Этап 12. Поскольку слово "Y" в документе А больше не встречается, то при выполнении анализа документа А осуществляют приращение на одно слово и исследуют цепочку слов "Y Z" (следующее слово после слова Y). Приращение до следующей цепочки (Y Z) и повторение процедуры дает следующие результаты:- возможными вариантами для Y Z при первом появлении (Y Z1) являются АА, ВВ, СС, АА ВВ, АА ВВ СС, ВВ СС;- возможными вариантами для Y Z при втором появлении (Y Z2) являются ЕЕ, FF, GG, СС, ЕЕ FF,ЕЕ FF GG, ЕЕ FF GG СС, FF GG, FF GG СС и GG СС;- сопоставления и объединение дают СС в качестве возможного перевода цепочки слов Y Z;- расширение последовательности (окончание приращения длины последовательности) дает следующие значения для Y Z: АА, ВВ, СС, АА ВВ, АА ВВ СС, АА ВВ СС АА, ВВ СС, ВВ СС АА и СС АА.- применение этих результатов дает то, что наиболее часто повторяющейся связью для цепочки слов Y Z по-прежнему является СС. Этап 13. Поскольку "Y Z" в документе А больше не встречается, то при выполнении анализа документа А осуществляют приращение на одно слово и анализируют цепочку слов "Y Z X" (следующее слово после слова Z, расположенного в документе А в позиции 3). Приращение до следующей фразы (Y Z- здесь длина последовательность равна 2, поскольку середина встретившейся фразы расположена ближе к середине документа;- результатом для первого появления Y Z X являются позиции 2, 3, 4 и 5;- имеются следующие перестановки: ВВ, СС, АА, ЕЕ, ВВ СС, ВВ СС АА, ВВ СС АА ЕЕ, СС АА СС АА ЕЕ и АА ЕЕ;- сведениями (результатом) для второго появления Y Z X являются позиции 5, 6, 7 и 8;- осуществляют сравнение двух полученных результатов СС в качестве частоты повторяемости связей для цепочки слов Y Z X; снова следует отметить, что учет сведений о ЕЕ как о возможной связи не осуществляют, поскольку это слово встречается в обоих случаях как одно и то же слово (т.е. расположенное в одной и той же позиции). Этап 14. Осуществляют приращение до следующей цепочки слов (Y Z X W) и обнаруживают, что она встречается только один раз; поэтому создание базы данных этой цепочки слов завершают и анализируют следующее слово Z (позиция 3 в документе А). Этап 15. Применяют вышеописанные этапы для слова Z, встречающегося в документе А 3 раза, при этом получают следующие результаты:- сведениями для Z1 являются: АА, ВВ, СС, АА, ЕЕ, АА ВВ, АА ВВ СС, АА ВВ СС АА, АА ВВ СС АА ЕЕ, ВВ СС, ВВ СС АА, ВВ СС АА ЕЕ, СС АА, СС АА ЕЕ и АА ЕЕ;- в результате сравнения Z1 и Z2 получают, что возможным соответствием является СС;- сведения для Z3 и сравнение с Z1 дают то, что наиболее часто повторяющейся связью для слова Z является СС. Этап 16. Осуществляя приращение до следующей цепочки слов, получают цепочку слов Z X, которая встречается в документе А дважды. Применяя вышеописанные этапы для Z X получают следующие результаты:- выданными сведениями для Z X1 являются: ВВ, СС, АА, ЕЕ, FF, ВВ СС, ВВ СС АА, ВВ СС АА ЕЕ, ВВ СС АА ЕЕ FF, СС АА, СС АА ЕЕ, СС АА ЕЕ, СС АА ЕЕ FF, АА ЕЕ, АА ЕЕ FF и ЕЕ FF;- выданными сведениями для Z X2 являются: FF, GG, СС, FF GG, FF GG СС и GG СС;- сравнение дает связь цепочки слов "Z X" с СС;- сведения для Z X и сравнение дают СС в качестве наиболее часто повторяющейся связи для цепочки слов Z X. Этап 17. Осуществляют приращение до следующей фразы Z X А, но она встречается только один раз, поэтому анализируют следующее слово (X) в документе А. Этап 18. Слово X уже было подвергнуто анализу в том случае, когда оно было расположено в первой позиции. Однако вторая позиция слова X не подвергалась анализу относительно другого документа на наличие возможных сведений для слова X. Таким образом, теперь операции со словом X (расположенным во второй позиции) выполняют таким же самым образом, как и в первом появлении слова X,продвигаясь вперед по документу:- выданными сведениями для X, расположенного в позиции 4, являются: ВВ, СС, АА, ЕЕ, FF, ВВ СС, ВВ СС АА, ВВ СС АА ЕЕ, ВВ СС АА ЕЕ FF, СС АА, СС АА ЕЕ, СС АА ЕЕ, СС АА ЕЕ FF, АА ЕЕ,АА ЕЕ FF и ЕЕ FF;- выданными сведениями для X, расположенного в позиции 9, являются: GG, СС и GG СС.- в результате сравнения результатов для позиции 9 с результатами для позиции 4 получают СС в качестве возможного соответствия для слова X.- сведения для X и результаты сравнения дают СС в качестве наиболее часто повторяющейся связи для слова X. Этап 19. Осуществляют приращение до следующей цепочки слов (поскольку слово X больше не встречается для его сравнения со вторым случаем появления X), получая цепочку слов X W; однако, эта цепочка слов больше не встречается в документе А, поэтому в процедуре переходят к анализу следующего слова (W). Слово "W" встречается в документе А только один раз, поэтому приращение выполняют не до следующей цепочки слов, так как слово "W" встречается только один раз, а до следующего слова в документе А, которым является слово "V". Слово "V" встречается в документе А только один раз, поэтому анализируют следующее слово (Y). Слово "Y" не встречается в документе А ни в каких других более старших позициях, чем позиция 7, поэтому анализируют следующее слово (Z). Слово "Z" встречается в документе А еще в двух местах, в позициях 8 и 10. Этап 20. Применение вышеописанной процедуры для второго появления слова Z, дает следующие результаты:- при сравнении результатов для позиции 10 с результатами для позиции 8 получают, что какиелибо соответствия для слова Z отсутствуют;- и вновь сведениями о возможном соответствии является слово СС; однако, поскольку СС представляет собой слово, расположенное в той же самой позиции, которая получена путем анализа слова Z,расположенного в позиции 8, и слова Z, расположенного в позиции 10, то это соответствие не учитывают. Этап 21. Осуществляют приращение на одно слово, получая цепочку слов Z X; эта цепочка слов в документе А больше не встречается (в направлении вперед), поэтому процедуру начинаются заново для следующего слова в документе А, которым является "X". Слово X больше не встречается в документе А(в направлении вперед), поэтому процедуру начинаются заново. Однако, был достигнут конец документа А, и анализ прекращают. Этап 22. Окончательные значения частоты повторяемости связей сводят в таблицу, объединяя все приведенные выше результаты. Объем данных является недостаточным для отражения сведений о результатах для других слов и фраз из документа А. Следует отметить, что в документе А встречается много возможных связей для слова СС из документа Б, как для отдельного слова, так и для цепочки слов. Чем больше количество пар документов, содержащих слово СС на языке Б, будет проанализировано, тем частоты повторяемости связей станут статистически более достоверными, так что будет существовать слово (или, возможно, цепочка слов), являющееся переводом слова СС. В другом варианте осуществления способ создания базы данных из настоящего изобретения может быть использован множеством способов для создания связей между языками. Например, база данных может быть создана просто путем сопоставления каждого слова и цепочки слов (или фразы), встречающегося (встречающейся) в документе А, с последовательностью слов в документе Б (с использованием вышеописанных способов применения последовательности) без сравнения с многократным появлением слов и без применения способов приращения длины последовательности. В этом способе для создания базы данных принцип связей между языками используют иным образом, чем описано выше. В качестве примера этого варианта осуществления изобретения рассмотрен приведенный ниже пример двух документов, представляющих одно и то же понятие или содержание, но на различных языках: В качестве первого этапа, выполняемого в этом варианте осуществления изобретения, подсчитывают количество слов в каждом документе для создания соответствующего соотношения. Это соотношение используют для выбора положения сравнительной последовательности, как описано ниже. В этом примере документ А содержит двадцать слов, а документ Б содержит пятнадцать слов, поэтому соотношение равно 4:3. Таким образом, каждые четыре слова документа А приравнены к трем словам документа Б. На следующем этапе задают фрагмент, состоящий из слов, для анализируемых цепочек слов или фраз. Этот фрагмент может быть определен в соответствии с общими правилами языка; например, фрагментом может являться предложение или абзац. Однако длину фрагмента задает пользователь, и им может являться любой требуемый фрагмент из цепочек слов. В этом примере фрагменты соответствуют предложениям в каждом соответствующем документе, хотя при создании связей согласно настоящему изобретению фрагменты большей длины обычно дают лучший результат, чем одиночные предложения,поскольку в них имеется более обширная база потенциально возможных связей для заполнения базы данных. При выполнении следующего этапа анализируют первое слово из первого фрагмента; здесь первым словом из первого фрагмента ("the sky is blue") является слово "the". При выполнении следующего этапа определяют все появления этого первого слова в документе А. В любом документе позиции слов определяют по соответствующему им порядковому номеру местоположения слова. В данном примере позициями слова "the" являются первая, пятая, девятая и пятнадцатая(первое, пятое, девятое и пятнадцатое слова в документе). На следующем этапе определяют искомые слова, имеющие отношение к первому анализируемому слову. Искомые слова определяют с использованием соотношения, слов для определения соответствующей точки в документе Б, и к этой соответствующей позиции слова в документе Б применяют последовательность (как указано в описании первого варианта осуществления изобретения, последовательность задает пользователь). Относительную позицию слова в документе Б определяют с использованием вычисленного выше соотношения. В данном примере слово "the" встречается в первой, пятой, девятой и в пятнадцатой позициях документа А. Эти позиции соответствуют позициям 1, 4, 7 и 11 в документе Б. Это вычисление выполняют следующим образом: берут позицию в документе А, определяют соотношение(путем простого математического умножения на отношение количества слов в документе Б к количеству слов в документе А, или на 3/4) и применяют это соотношение: 1 (документ А)3/4 = 1 (с округлением в большую сторону); 5 (документ А)3/4 = 3 3/4, что соответствует 4 (с округлением в большую сторону)(документ Б); 9 (документ А)3/4 = 7 (документ Б, с округлением в большую сторону); 15 (документ А)3/4 = 11 (документ Б, с округлением в меньшую сторону). Применение вышеуказанных операций к первому анализируемому слову ("the") дает следующие результаты:- последовательность с учетом частоты повторяемости, примененная к предыдущим и к последующим словам в документе Б, соответствует позициям 1-3 слов в документе Б. Эту операцию определения выполняют следующим образом: выбирают некоторую позицию +/- длина последовательности с учетом частоты повторяемости или, иными словами, 1 +/- 2, или от -1 до 3. Отрицательные и нулевые позиции не учитывают, поэтому получают сведения о позициях 1-3 в документе Б;- в результате применения этой последовательности с учетом частоты повторяемости к документу Б получают слова, расположенные в документе Б в позициях 1, 2 и 3, или следующие: ААА, ВВ и ССС. Таким образом, первое появление слова "the" в документе А дает слова ААА, ВВ и ССС из документа Б. На следующем этапе переходят к следующему появлению слова "the" в документе А и применяют вышеупомянутые процедуры:- применение последовательности (+/- 2) с учетом частоты повторяемости к соответствующей позиции 3 дает слова, расположенные в позициях 1, 2, 3, 4 и 5 документа Б: ААА ВВ ССС ААА ЕЕЕ. Затем определяют, совпадают ли искомые слова для второй позиции с искомыми словами для первой позиции:- результатами первого поиска являются: ААА ВВ ССС;- результатами второго поиска являются: ААА ВВ ССС ААА ЕЕЕ;- совпадающими являются: ААА (дважды), ВВ и ССС. Эти соответствия запоминают в запоминающем устройстве в качестве возможных связей со словом"the". Процедуру продолжают и повторяют до следующего появления слова "the": результатами, полученными для третьего появления слова "the", являются ССС ААА ЕЕЕ DDDD ААА; совпадающими являются ААА (дважды) и ССС; эти соответствия запоминают в запоминающем устройстве в качестве возможных связей. Процедуру повторяют для всех других появлений слова "the". Результаты этого анализа дают ААА ВВ FFF GGGG ННН и о ААА и ВВ в качестве возможных связей. На следующем этапе в настоящем изобретении осуществляет приращение количества анализируемых слов на одно. В первом примере анализируемым словом являлось слово "the" (первое слово в документе А). После операции приращения следующей анализируемой цепочкой слов являются слова "thesky". Вышеописанные этапы повторяют для цепочки слов "the sky", которая встречается в позициях 1 и 9(первое слово фразы используют как указатель позиций). Соответствующими позициями в документе В являются позиции 1 и 6. Применение последовательности с учетом частоты повторяемости по отношению к нескольким соответствующим позициям дает следующие результаты: ААА, ВВ и ССС для первой позиции; и ААА ЕЕЕ DDDD ААА ВВ для второй позиции. Сравнение двух результатов для двух фраз,состоящих из слов дает ААА ВВ в качестве возможных связей, предназначенных для запоминания в базе данных. Затем в данной процедуре осуществляют приращение на одно слово и процедуру повторяют для фразы "the sky is". В этой процедуре в качестве потенциально возможного соответствия получают только первое появление ААА ССС ВВ, поскольку больше она не встречается. Процедуру повторяют для фразы "the sky is blue", она встречается только один раз, в результате чего получают, что ААА ССС ВВ является возможной связью, которую следует запомнить в базе данных. На следующем этапе определяют, что достигнут конец первого заданного пользователем фрагмента, указанного в документе А знаком пунктуации. Выполняют следующий этап, на котором берут второе слово из первого фрагмента и продолжают вышеописанную итерационную процедуру, в данном примере операция анализа содержала бы анализ слов "sky," "sky is," и "sky is blue", в результате чего были бы получены следующие соответствия: слово "sky" встречается в документе А в позициях 2 и 10; в результате чего получают, что соответствующими позициями в документе Б являются позиции 2 и 7; исходя из чего получают, что первым соответствием является ААА ВВ ССС ААА, а вторым соответствием является ЕЕЕ DDDD ААА ВВ и FFF; поэтому получают, что возможными связями, предназначенными для запоминания в базе данных, являются ААА и ВВ. Повторение процедуры для фразы "sky is" дает только один результат: ААА ВВ ССС ААА; повторение процедуры для фразы "sky is blue" дает результат ААА ВВВ ССС ААА. Следующими выдаваемыми сведениями о словах из первого фрагмента, полученных в результате приращения, являются сведения о словах "is" и "is blue": повторение процедуры для слов "is" и "is blue" дает следующие соответствия: ААА ВВ ССС и ААА, а также ССС ААА ЕЕЕ DDDD и ААА; при этом возможными связями, предназначенными для запоминания в базе данных, являются ААА и ССС. Следующим словом в первом фрагменте, полученным в результате приращения, является слово"blue", которое дает следующие возможные связи, предназначенные для сохранения в базе данных: ААА ВВ ССС ААА и ЕЕЕ. Теперь анализ первого фрагмента подошел к концу. Следующим фрагментом является предложение"the grass is green". Поскольку слово "the" уже было подвергнуто анализу, то следующей анализируемой порцией слов является "the grass", после которой следуют "the grass is", "the grass is green", "grass", "grassis", "grass is green" и "green". Процедуру продолжают для следующего фрагмента ("the sky includes clouds and stars"), при этом анализ фраз выполняют в следующем порядке: "the sky includes", "the sky includes clouds", "the sky includes clouds and", "the sky includes clouds and stars", "sky includes", "sky includes clouds", "sky includesclouds and stars", "clouds", "clouds and", "clouds and stars", "and", "and stars", "stars". Наконец, процедуру продолжают для следующего фрагмента ("the grass dies in the winter"), при этом анализируют следующие фразы "the grass dies", "the grass dies in", "the grass dies in the", "the grass dies inthe" "dies in the winter" "in" "in the" "in the winter" "the winter" и "winter". Следует отметить, что, как описано выше, можно расширять фрагменты, подвергаемые анализу,при этом фрагменты не обязательно ограничены предложениями или абзацами. В том случае, когда настоящее изобретение применяется для перевода с одного языка на другой, анализ предложений из фрагмента ("Went to school today. She walked to the school on the street.") может быть выполнен путем продления фрагмента таким образом, чтобы в состав первого предложения входило понятие, характеризующее субъекта ("she") (она).-9 006182 Как продемонстрировано выше, эти два варианта осуществления изобретения представляют собой способ, используемый для создания связей. Способы из настоящего изобретения не следует ограничивать переводом с одного языка на другой; в расширительном толковании эти способы применимы для любых двух вариантов воплощения одного и того же понятия, которые могут быть связаны, поскольку по своей сущности перевод с иностранного языка просто существует как парная связь с одним понятием(словом или фразой). Таким образом, настоящее изобретение может быть применено для связи данных,звуковой, музыкальной и видеоинформации или для любого широкого представления, существующего в качестве понятия, включая понятия, посредством которых могут быть представлены любые объекты,воспринимаемые органами чувств (звук, зрительные образы, запах и т.д.). Требуется всего лишь, чтобы настоящее изобретение обеспечивало анализ двух вариантов воплощения (при переводе с одного языка на другой вариантами воплощения являются документы; для музыкального произведения вариантами воплощения могут являться цифровые представления музыкальных нот и звуковые частоты, посредством которых представлено то же самое музыкальное произведение и т.п.). Кроме того, следует отметить, что также возможен такой вариант осуществления настоящего изобретения, который обеспечивает загрузку в базу данных некоторых связей механическим, электрическим или иным средством. Например, для создания базы данных связей, имеющей более высокую точность,более высокую эффективность, и обеспечивающую более быстрое принятие решений, можно осуществить загрузку в базу данных эквивалентов английских слов "it", "his", "her", "an", "a", "of" на иностранном языке или любых общеупотребительных слов. Таким образом, в этом варианте осуществления настоящее изобретение автоматически обеспечивает выдачу сведений об эквивалентах некоторых слов, загруженных в базу данных, на иностранном языке. Этот вариант осуществления позволяет приспособить предложенный в настоящем изобретении способ создания базы данных связей для общеупотребительных слов, которые могут привести к искажениям результатов анализа. Кроме этого, в одном из вариантов осуществления изобретения могут быть использованы общие связи для создания и распознавания шаблонов слов. Например, в базу данных можно осуществить загрузку таких связей (например, слова "President" (президент) для слова "Clinton" (Клинтон , чтобы база данных связей была приспособлена для тех ситуаций, в которых по тексту подразумевается "PresidentClinton" (президент Клинтон), но в качестве сокращения использовано только слово "president" (президент). С учетом того, что связь между языками в ее широком толковании существует как способ связи между понятиями для создания базы данных возможных связей, можно осуществлять манипулирование результатами в том случае, когда эта связь установлена. Таким образом, например, если каждому "понятию" присвоена связь с электромагнитной волной (звуковым тоном), то для понятия можно создать"электромагнитную связь". После того, как заданное количество понятий закодировано посредством соответствующих электромагнитных связей, могут быть произведены манипуляции с данными (в виде понятия) с преобразованием их в электромагнитные волны и осуществлена их незамедлительная передача по обычной инфраструктуре средств связи. Когда электромагнитные волны достигают вычислительной машины-адресата, эта вычислительная машина осуществляет синтез волн в отдельные компоненты и с учетом связей представляет отдельные понятия, которые были представлены электромагнитными связями. Специалистам в данной области техники понятно, что квалифицированный специалист может реализовать множество видоизменений вышеописанного устройства и вышеописанных способов, не выходя за пределы сущности и объема настоящего изобретения. ФОРМУЛА ИЗОБРЕТЕНИЯ 1. Способ установления связей для содержимого, содержащий следующие этапы: принимают содержимое, выраженное в первом состоянии; принимают содержимое, выраженное во втором состоянии; анализируют указанное содержимое, выраженное в указанном первом состоянии с указанным содержимым, выраженным в упомянутом втором состоянии, при этом в указанном анализе используют разделение указанного содержимого, выраженного в первом состоянии, на по меньшей мере первый сегмент и второй сегмент, причем указанный первый сегмент имеет части, перекрывающиеся с указанным вторым сегментом, и в указанном анализе используют разделение указанного содержимого, выраженного во втором состоянии, на по меньшей мере третий сегмент и четвертый сегмент, причем указанный третий сегмент имеет части, перекрывающиеся с указанным четвертым сегментом; и создают базу данных связей указанного содержимого, находящегося в указанном первом состоянии,с указанным содержимым, находящимся в указанном втором состоянии, причем указанное создание содержит сравнение указанного первого и указанного второго сегментов с указанным третьим и указанным четвертым сегментами, для связывания частоты встречаемости между первым, вторым, третьим и четвертым сегментами.- 10006182 2. Компьютерная система, служащая для установления связей для содержимого, содержащая вычислительное устройство, осуществляющее прием содержимого, выраженного в виде первого состояния,и осуществляющее прием содержимого, выраженного в виде второго состояния; в которой указанное вычислительное устройство выполнено с возможностью анализа указанного содержимого, выраженного в виде упомянутого первого состояния, с упомянутым содержимым, выраженным в виде упомянутого второго состояния, при этом в указанном анализе используют разделение указанного содержимого, выраженного в первом состоянии, на по меньшей мере первый сегмент и второй сегмент, причем указанный первый сегмент имеет части, перекрывающиеся с указанным вторым сегментом, и в указанном анализе используют разделение указанного содержимого, выраженного во втором состоянии, на по меньшей мере третий сегмент и четвертый сегмент, причем указанный третий сегмент имеет части, перекрывающиеся с указанным четвертым сегментом; и в которой указанное вычислительное устройство создает базу данных связей указанного содержимого, находящегося в указанном первом состоянии, с указанным содержимым, находящимся в указанном втором состоянии, причем указанное создание содержит сравнение указанного первого и указанного второго сегментов с указанным третьим и указанным четвертым сегментами, для связывания частоты встречаемости между первым, вторым, третьим и четвертым сегментами.
МПК / Метки
МПК: G06F 17/28
Метки: между, данных, связей, понятиями, создание, базы
Код ссылки
<a href="https://eas.patents.su/12-6182-sozdanie-bazy-dannyh-svyazejj-mezhdu-ponyatiyami.html" rel="bookmark" title="База патентов Евразийского Союза">Создание базы данных связей между понятиями</a>