БиблиОтека

БИБЛИОТЕКА / МЕЖДУНАРОДНЫЕ ДОКУМЕНТЫ / СТАНДАРТЫ ВОИС

СТАНДАРТ ST.32


РЕКОМЕНДАЦИИ ПО РАЗМЕТКЕ ПАТЕНТНЫХ ДОКУМЕНТОВ С ИСПОЛЬЗОВАНИЕМ SGML
(СТАНДАРТНОГО ЯЗЫКА ОБОБЩЕННОЙ РАЗМЕТКИ)

Редакция, принятая Исполнительным Координационным Комитетом
ПКИПС на семнадцатой сессии 24 ноября 1995 года


ВВЕДЕНИЕ

1. Данные рекомендации основаны на применении Международного Стандарта ISO 8879:1986, Обработка
информации - Текстовые и офисные системы - Стандартный язык обобщенной разметки (SGML),
находящегося в стадии пересмотра.

2. Данные рекомендации предназначены для обмена патентными документами в машиночитаемой форме
на любом обменном носителе в аппаратно-, программно- и макетно- независимом формате. Такая
независимость представления содержания документа от его предполагаемого применения достигается
использованием Международного Стандарта ISO 8879:1986, Обработка информации - Текстовые и офисные
системы - Стандартный язык обобщенной разметки (SGML), для определения общих идентификаторов, которые,
в свою очередь, используются для разметки логической структуры каждого патентного документа.

3. Международный стандарт ISO 8879:1986 не может использоваться в чистом виде в качестве основы для
обработки информации. Это не является назначением стандарта. Вместо этого, ISO 8879 «стандартизует
применение концепций общего кодирования и обобщенной разметки. Он обеспечивает ясный и однозначный
синтаксис для описания любого элемента внутри документа по выбору пользователя » (ISO 8879:1986 стр. 2).
Выбор меток, т.е. семантика, к которой применяется синтаксис, остается за пользователем.

4. Таким образом, данные Рекомендации определяют общие идентификаторы или «метки» для разметки
логических элементов патентного документа. Существует два типа логических элементов патентного документа:
текст общего характера и специфическое для патента содержание.

5. В соответствии с Международным стандартом ISO 8879:1986 в конкретном документе может
использоваться любая метка, если семантика определена в сопровождающем документ описании типа
документа (DTD). Возможна ситуация, когда орган, издающий патенты, может выбрать метки, отличные от
описанных в данных Рекомендациях. При условии, что такие метки определены в сопровождающем DTD,
документ может быть представлен пользователю системы, рассчитанной на восприятие документов SGML. Тем
не менее, документы, использующие DTD, отличное от описанного ниже, не могут считаться соответствующими
данным Рекомендациям, даже если они находятся в соответствии с ISO 8879:1986.

6. Разметка в соответствии с данными Рекомендациями является независимой от макета документа и
форматирования. Решения в отношении макета и форматирования должны приниматься при выдаче документа
для чтения на экран дисплея либо на бумагу. Например, именно при выдаче документа текст, который был
помечен выделительным шрифтом ( жирный, курсив и т.д.) воспроизводится имеющимся в наличии шрифтом
более или менее желаемого вида. Именно при выдаче определяется размер воспроизводимой (на экране или
бумаге) страницы. Многие из таких решений при привязке общих идентификаторов документа к возможностям
конкретного воспроизводящего устройства (экрана или бумаги) определяют, например, количество знаков в
строке или количество текста на воспроизводимой странице. В результате, при выдаче на другом
воспроизводящем устройстве физический вид документа может получиться несколько иным. Данные
Рекомендации не предназначены для решения вопросов привязки общих идентификаторов к конкретным
воспроизводящим устройствам. Можно ожидать, что в будущем в этой области будет возможно применение
двух стандартов: Стандартного языка описания страницы (SPDL) ISO/ITC DIS 10180 и Семантики стиля документа
и языка описания (DSSSL) ISO/IEC DIS 10179.

7. Разметка в соответствии с данными Рекомендациями должна способствовать импортированию больших
групп документов в базу данных. Фактически, обширный перечень меток для патентных библиографических
данных предоставит коммерческим провайдерам баз данных возможность более легкого распознавания
различных элементов информации с большей точностью, чем это было возможно в прошлом. Данные
Рекомендации не предназначены для решения вопросов привязки общих идентификаторов к полям баз данных.

8. Данная редакция ST.32 должна упоминаться как версия 3 (1995). Это необходимо, чтобы отличать ее от
предыдущих редакций, которые все еще могут использоваться для обмена данными, однако, в этом случае,
последние должны упоминаться как версия 1 (октябрь 1987) или версия 2 (сентябрь 1990). Тогда для обработки,
синтаксического анализа и т.д. к конкретным версиям могут применяться соответствующие DTD. По умолчанию
принимается последняя версия ST.32, в качестве атрибута патентного документа возможна ссылка на
конкретное DTD, которое следует использовать. Разумеется, для обмена данными рекомендуется привести
файлы в соответствие с последней версией ST.32.


ОПРЕДЕЛЕНИЯ

9. Выражение патентный документ включает патенты на изобретения, растения, образцы, свидетельства
о полезности, полезные модели, относящиеся к ним дополнительные свидетельства и опубликованные заявки.
(Обращаться также к стандарту ВОИС ST.16: Рекомендуемые стандартные коды для идентификации
различных видов патентных документов)

10. Текст общего характера относится к логическим элементам, которые могут присутствовать в любом
типе информации о промышленной собственности или в любом виде документа, например, параграфы, сноски,
индексы, специальные знаки, перечни, встроенные изображения, таблицы, химические формулы,
математические формулы и т.д. Метки для произвольного текста определены и описаны в Части 1 (DTD
приведено в Приложении В)

11. Специфическое для патента содержание относится к логическим элементам, которые обычно
присутствуют только в патентных документах, например, имя изобретателя, номер патента, издающий орган,
данные приоритета, индексы классификации и т.д. Короче говоря, любые элементы информации, которые могут
быть идентифицированы посредством стандарта ВОИС ST.9, Рекомендации по библиографическим данным в
патентных документах и свидетельствах дополнительной охраны (SPC) и относящимся к ним, а также
некоторые другие. Метки для патентных библиографических данных определены и описаны в части 2 (DTD
приведены в Приложении В).

12. Разметка определяется как текст, который добавлен к содержанию документа и который описывает
структуру и другие атрибуты документа не системно-специфическим образом, вне зависимости от способа
обработки, которая может быть применена к документу. Разметка включает описание типа документа (DTD),
ссылки на объект и дискрипторную разметку (метки).

13. Описание типа документа (DTD) формально определяет:

. имена всех логических элементов, которые допустимы в документах определенного типа;

. частоту, с которой каждый логический элемент может появляться;

. допустимое содержание каждого логического элемента;

. атрибуты (параметры), которые могут быть использованы для каждого логического элемента;

. правильную последовательность логических элементов;

. имена внешних и встроенных объектов, которые могут упоминаться в документе;

. иерархическую структуру документа;

. использованные детали стандарта SGML.

DTD определяет словарь разметки, для которого SGML определяет синтаксис. Полный набор меток,
которые могут быть найдены в конкретном документе перечислен и формально определен в DTD, которое
должно сопровождать документ. В большой группе документов, описываемых одним и тем же DTD, т.е.
документов одного и того же типа, каждый документ обычно включает DTD посредством ссылки.

14. Объект это содержимое, которое не является частью непрерывного текста в документе, а включается в
непрерывный текст посредством ссылки на свое имя. Например, изображения в патентных документах являются
внешними объектами. Ссылки на объекты могут также использоваться для кодирования экземпляров знаков, не
найденных в .заявленных. наборах знаков (см. Наборы знаков ниже).

15. Метки определяют логическую структуру документа путем маркировки элементов содержимого документа
с использованием обобщенных идентификаторов, заявленных в DTD.

16. Иерархия меток SGML, использованная в данных Рекомендациях следует общей структуре патентного
документа. Уровень иерархии указан соответствующей меткой SGML, описывающей общий логический элемент.
Общий логический элемент является компонентом текста, таким как полный документ, специфический суб-
документ, параграф, перечень и т.д. Каждый общий логический элемент описан начальной и конечной меткой.

Уровень метка SGML (пример)
Документ
. Суб-документ
. . Компонент текста (параграф)


. . . Элемент текста (нижний индекс)
. . . . Знак
. . . Конец

. . Конец


. Конец

Конец


17. Международный стандарт ISO 8879:1986 определяет абстрактный синтаксис и конкретный синтаксис
ссылки. Конкретный синтаксис ссылки для меток SGML представляет собой следующее:
Начало Конец
Метка Метка

Это текст которые появятся, выделенные жирным шрифтом ...
Где
< открывающий разделитель для метки Начало (1 знак)
> закрывающий разделитель для обеих меток Начало и Конец (1 знак)

B общий идентификатор данной индивидуальной метки, определенной в DTD
Общий идентификатор является именем, которое идентифицирует общий логический элемент. Текст
между начальной и конечной метками является конкретным экземпляром общего логического элемента. В
зависимости от общего идентификатора, могут потребоваться параметры. В описании различных меток в
данных Рекомендациях параметры упоминаются как .атрибуты. в соответствии с практикой ISO. Для
разъяснения взаимоотношения между конкретным синтаксисом ссылки и абстрактным синтаксисом см.
Стандарт ISO 8879:1986.

18. Далее следует краткий пример разметки SGML


СОСТАВ СМЯГЧИТЕЛЯ ТКАНИ
ТЕХНИЧЕСКАЯ ОБЛАСТЬ
...
РЕФЕРАТ ИЗОБРЕТЕНИЯ

Данное изобретение относится к составу водного раствора смягчителя ткани, состоящего:

  • (A) от 1% до 50% веса из ... циклических амидов по формуле

    где n от 2 до 3, R1 и
    ...
  • (B) от 3% до 20% веса от (А)
    ...
    В приведенном выше примере относится к 
    химической структуре, которая была отсканирована как изображение и которая будет встроена в текст в данном
    месте во время воспроизведения. and отмечают соответственно начало и конец патента.
    Остальные метки в примере поясняются ниже, более обширные примеры содержатся в Приложении D.

    НАБОРЫ СИМВОЛОВ 

  • 19. Состав информации в большинстве документов, включая патенты, состоит из символьных данных.
    Символьные данные в любом языке могут состоять из разнообразных типов символов (.символ. используется
    здесь в самом широком смысле, включая графические символы). В данных рекомендациях упоминается только
    один кодированный набор символов: ISO 646. Это, возможно, наиболее общий системно независимый набор
    символов, используемый в настоящее время. Символы, не присутствующие в данном наборе кодов, должны
    быть представлены в общедоступных рекомендациях - предпочтительно, содержащихся в ISO 8879 - они
    упоминаются в DTD В Приложении В. Заметим, что возможны иные наборы символов и ссылки на прочие
    символьные объекты. Не рекомендуется использовать кодовые страницы, содержащиеся в Стандарте ВОИС
    ST.31, так как это может привести к проблемам в обмене данными, они не так легко поддерживаются и не так
    часто используются и принимаются как кодовые страницы ISO 649.

    ССЫЛКИ

    20. Следующие документы являются особо важными для данных Рекомендаций:

    • Международный стандарт ISO 8879:1986, Обработка информации - Текстовые и офисные системы-
    Стандартный язык обобщенной разметки (SGML);

    • Технический отчет ISO/IEC/TR 9573:1988(E) Обработка информации - Средства поддержки SGML -
    Техника использования SGML;

    • Международный стандарт ISO 639:1988, Коды для представления наименований языков.

    • Международный стандарт ISO 646:1991, Обработка информации - Набор 7-битовых кодов символов
    ISO для обмена информацией.

    • Стандарт ВОИС ST.3, Рекомендуемые стандартные двубуквенные коды для представления
    государств, иных административных единиц и межправительственных организаций;

    • Стандарт ВОИС ST.9, Рекомендации по библиографическим данным в патентных документах и
    свидетельствах дополнительной охраны (SPC) и относящихся к ним;

    • Стандарт ВОИС ST.16, Рекомендуемые стандартные коды для идентификации различных видов
    патентных документов.

    21. В качестве дополнительной информации, относящейся к SGML, могут представлять интерес следующие
    публикации (следует отметить, что, в настоящее время, имеется значительное количество литературы, книг и
    периодики по SGML, так же, как и большое количество пользовательских групп, приведенный ниже перечень
    является лишь малой подборкой):

    Американский национальный институт стандартов. Электронная подготовка и разметка
    манускрипта.(Z39.59). Трансэкшин Паблишес: Нью Брунсвик (США) и Лондон, 1991. ISBN 0887389457.

    Ассоциация американских издателей. Серия Электронный манускрипт: Авторское руководство по
    электронной подготовке и разметке манускрипта; Справочное пособие по электронной подготовке и
    разметке манускрипта; Разметка математических формул; Разметка табличного материала.
    Дублин, Огайо: Электроник Паблишн Спешиал Интерест Груп (EPSIG), 1989.

    Брайан, Мартин. SGML: авторское пособие по Стандартному языку обобщенной разметки (SGML).
    Вокингам: Эддисон-Веслей, 1988. ISBN 0201175355.

    Голдфаб, Чарлз Ф. Руководство по SGML. Оксфорд: Оксфорд Юниверсити Прес, 1990.
    ISBN 0 19 853737 9.

    Ван Невинен, Эрик. Практический SGML. 2-ое изд. Додрехт: Клуэ Академик Паблишес, 1994.
    ISBN 0792394348


    ТРЕБОВАНИЯ РЕКОМЕНДАЦИЙ

    22. Документы, соответствующие данным Рекомендациям, должны размечаться в соответствии с:

    - Международным стандартом ISO 8879:1986, Обработка информации -
    Текстовые и офисные системы- Стандартный язык обобщенной разметки (SGML);

    - DTD, содержащимся в Приложении В.

    23. Документы, соответствующие данным Рекомендациям, должны использовать конкретный синтаксис
    ссылок , определенный в Международном стандарте ISO 8879:1986. См. Также Приложение А: Описание SGML
    для патентных документов.

    24. DTD, содержащееся в Приложении В, должно быть представлено отдельно от индивидуального
    документа, принадлежащего к коллекции документов.

    25. Каждый документ, к которому применимо DTD из Приложения В, будет включать DTD посредством
    ссылки.

    26. Ссылка на DTD, содержащееся в Приложении В должна делаться с использованием его «официального
    имени», которое было [будет] зарегистрировано соответствующим международным органом и описано ниже в
    Приложении В.

    27. Ни один из документов, соответствующий данным Рекомендациям, не должен указывать или включать
    посредством ссылки DTD 1) для которого официальное имя не зарегистрировано соответствующим
    международным органом; 2) которое не появляется в данных Рекомендациях.

  • 28. Может случиться, что некий конкретный необычный документ содержит некоторый текст или часть(и)
    изображения, которая, по мнению издающего органа, не может быть представлена конечному пользователю с
    достаточной точностью без введения одного или более логических элементов, не содержащихся в Приложении
    В. В этом случае:

    28.1. Издающий орган должен обеспечить конечных пользователей содержательным уведомлением о
    том, что некоторые документы содержат необычные элементы. По возможности, должна быть
    предоставлена точная идентификация таких документов, либо в виде перечня номеров
    документов, либо в виде непрерывного диапазона номеров документов.

    28.2. Издающий орган должен всемерно стремиться к тому, чтобы требуемый логический(ие)
    элемент(ы) был представлен в соответствующем DTD, содержащемся в соответствующем
    разделе данных Рекомендаций, так, чтобы другие издающие органы могли воспользоваться ими, и
    так, чтобы коммерческие провайдеры, представляющие системы, могли учитывать их при
    подготовке соответствующего программного обеспечения и аппаратных средств.

    28.3. До тех пор, пока элементы не включены в данные Рекомендации, издающий орган может по
    своему усмотрению включить требуемый(е) логический(е) элемент(ы) в дополнительное DTD,
    которое включается посредством ссылки в DTD (или несколько таковых) , относящееся к
    рассматриваемому(ым) документу(ам).

    28.3.1. Дополнительное DTD не должно включаться непосредственно в документ(ы), к
    которому(ым) относится.

    28.3.2. Дополнительное DTD не должно содержать дубликатов логических элементов, включенных
    в DTD, содержащееся в ST.32, Приложение В.

    28.3.3. Если приводится дополнительное DTD, конечным пользователям должно быть дано в
    отношении этого содержательное уведомление.

    (Часть 1, Часть 2 и приложения смотрите во вложенном файле)