СТАНДАРТ ST.35
|
РЕКОМЕНДУЕМЫЙ СТАНДАРТНЫЙ ФОРМАТ ДЛЯ ОБМЕНА ДАННЫМИ ОБ ИНФОРМАЦИИ ОПУБЛИКОВАННЫХ ПАТЕНТНЫХ ДОКУМЕНТОВ В СМЕШАННОЙ МОДЕ НА МАГНИТНЫХ ЛЕНТАХ В ВИДЕ КАТУШЕК ИЛИ КАРТРИДЖЕЙ ТИПА IBM 3480/90 (MMMT)
Редакция , принятая Постоянным Комитетом по информационным технологиям
на четвертой Пленарной сессии 10 декабря 1999 года
ВВЕДЕНИЕ
1. Настоящий стандарт определяет форматы, подлежащие использованию для обмена данными и
обработки информации об опубликованных патентных документах в смешанной моде ( mixed mode (MM) на
магнитной ленте в виде катушек шириной 1/2 дюйма и картриджей типа IBM 3480/90 (Mixed -Mode Magnetic Tape
- MMMT). Данный стандарт основан на международных стандартах и рекомендациях (ISO, WIPO, ITU-T
(CCITT)), в необходимых случаях на них делаются ссылки. Данный стандарт обеспечивает представление
патентных документов, независящее от используемых аппаратных и программных средств, с особой ссылкой на
обмен, осуществляемый на магнитной ленте.
2. Поэтому целью данного стандарта является обеспечение логически независимой структуры обработки
патентных документов и обмена всеми данными, относящимися к одному или более патентам, представляющим
собой текстовые данные и/или изображения. Это означает, что данный стандарт может использоваться вместо
следующих стандартов ВОИС: ST.30. Рекомендация по стандартному формату магнитной ленты для
обмена в машиночитаемой форме библиографическими данными,, рефератами и полными текстами
патентных документов ., а также ST.33 .Рекомендуемый стандартный формат для обмена данными в виде
факсимильной информации патентных документов..
В целом обмениваемая информация может быть использована для создания и пополнения
библиографических баз данных о патентах, но может также использоваться для полнотекстовых и
факсимильных баз данных , содержащих патенты, на любых носителях: ленте, твердом диске , дисках CD-ROM
и так далее. В особенности данный стандарт позволяет производить обработку следующих данных:
(a) полные тексты или части патентных документов, включая библиографические данные, записанные
в символьно-кодированном виде. При этом настоятельно рекомендуется, чтобы соответствующие данные были бы размечены с помощью меток (tags) SGML в соответствии со стандартом ВОИС ST.32 (см. ниже).
(b) целые страницы документов, представленные как одно изображение независимо от их
содержания (библиографические данные, текст или факсимильные изображения).
(c) Данные в пределах полнотекстовых документах, которые не могут быть записаны как
символьнокодированные данные, такие как : чертежи, химические формулы, сложные таблицы и т.д. могут
обрабатываться в качестве так называемых встроенных изображений (embedded images -EMI.s) и определяются как кадры (фреймы).
Примечания:
(i) Информация в отношении текстовых данных и факсимильных (изобразительных) данных должна
представляться в соответствии с идентификацией и набором префиксов в Приложении 2;
(ii) Для факсимильных (изобразительных) данных (по пункту 2 b, c выше) рекомендуемым форматом
сжатия является ITU-T (CCITT) T.6: Группа 4 (обычно известная как .факсимильная группа 4.),
возможно использование также других факсимильных форматов;
(iii) Альтернативный способ хранения факсимильных данных приводится в .Приложении 4. : Формат
TIFF (Tagged Image File Format, то есть , формат для файлов с изображениями, имеющих метки).
Аналогично, рекомендуемым форматом сжатия в пределах записи в формате TIFF является
рекомендация Группы 4 ITU-T-(CCITT) T.6.
ССЫЛКИ
3. Следующие стандарты имеют принципиальное значение для данной рекомендации:
(a) Стандарт ВОИС ST.32 - Рекомендация для разметки патентных документов с использованием
SGML (Standard Generalized Markup Langauge , то есть Стандартный язык обобщенной разметки).
(b) Cтандарт ВОИС ST.33 - Рекомендуемый стандартный формат для обмена данными в виде
факсимильной информации о патентных документах.
(Примечание: информация относительно префиксов в Приложении 2 аналогична, но не идентична
информации в стандарте ST.33, которая была использована в качестве основы индексации в данном стандарте Ст.33).
(c) ISO 1001 Обработка информации - идентификация магнитной ленты с помощью меток и структура
файлов для обмена информацией.
(d) ISO 8879 -1986 Обработка информации - Текстовые и офисные системы - Стандартный язык
обобщенной разметки (SGML).
(e) ITU-T (CCITT), Blue Book, Том VII- Раздел VII.3 Периферийное оборудование и Протоколы записи
для телематических служб (дистанционная связь с компьютером) - Рекомендации Т.0-Т.63 -Рекомендация Т.6 -
Схемы кодирования факсимильных изображений и функции контроля за кодированием для факсимильных
аппаратов Группы 4 (1984, дополнено в 1988).
(f) Формат TIFF (Формат файлов с изображениями, имеющими метки) , поддерживаемый фирмой
Microsoft Corp. от имени Aldus ( Детальная информация о структуре формата Tiff может быть найдена в издании Microsoft Windows Software Development Kit, версия 2.0: . Расширения для Виндоуз. (Windows Extensions), главы с 1 по7., представленные с согласия фирмы Hewlett-Packard Company, отделение Greely Division).
ПРИЛОЖЕНИЯ
4. Приложения к данной Рекомендации содержат:
Приложение 1 Набор символов для кодирования меток и префиксов для записей (IBM EBCDIC)
Приложение 2 Определение элементов префиксов
Приложение 3 Соглашение о кодировании факсимильных изображений
Приложение 4 Формат TIFF (формат для файлов с изображениями , имеющих метки)
Приложение 5 Примеры кодирования патентных документов в формате смешанной моды
ОПРЕДЕЛЕНИЯ
5. Для целей данной рекомендации применяются следующие специальные определения:
(a) МЕТКА ЗАПИСИ: короткий файл на магнитной ленте, содержащий имя и характеристики всей
ленты. Метка ленты начинается с метки тома , а каждый файл данных на ленте имеет предшествующую метку заголовка и последующую метку- маркер конца В этом отношении данный стандарт следует положениям Стандарта ИСО 1001.
(b) ПАТЕНТНЫЙ ДОКУМЕНТ: выражение .патентный документ. включает патенты на изобретения,
патенты на растения, авторские свидетельства, патенты на образцы. свидетельства о полезности, полезные модели, дополнительные документы к ним и опубликованные заявки на выдачу этих документов. ( Патентный документ может содержать субдокументы, см. ниже).
(c) ЛОГИЧЕСКАЯ ЗАПИСЬ: совокупность всех полей и данных, относящихся к одному и тому же
патентному документу и рассматриваемому как одно целое. Логическая запись может содержать различные компоненты документа.
(d) КОМПОНЕНТ ДОКУМЕНТА: совокупность полей и данных в пределах логической записи
(патентного документа), которая может рассматриваться как одно целое, например: полный текст патентного документа, одно изображение.
(e) СУБДОКУМЕНТ ПАТЕНТА: в пределах варьируемой части текстового компонента патентный
документ может содержать такие субдокументы, как: библиографические данные, реферат, описание, формулу, чертежи, отчет о поиске.
(f) КОМПОНЕНТ С ИЗОБРАЖЕНИЕМ: компонент с изображением содержит одно изображение:
встроенное изображение, чертеж, полную страницу факсимильного изображения (которая может включать
несколько изображений).
(g) БЛОК: совокупность записей, которая может размещаться в 20 000 байтах.
(h) ФИЗИЧЕСКАЯ ЗАПИСЬ: совокупность всех полей и данных в пределах документного компонента,
которая может рассматриваться как одно целое. Если объем документного компонента превосходит объем
блока в 20 000 байтов, то данные должны быть записаны ( перенесены) в более, чем одну физическую запись.
(i) СПЭННИНГ (ПЕРЕНОС): техника записи, используемая для разбиения логической записи на
более чем одну физическую запись, поскольку размер логической записи может быть больше максимального размера физической записи.
ЧАСТЬ 1: СПЕЦИФИКАЦИИ ПРЕДСТАВЛЕНИЯ ИНФОРМАЦИИ В СМЕШАННОЙ МОДЕ (ЛОГИЧЕСКАЯ ЗАПИСЬ
И СОСТАВЛЯЮЩИЕ ЭЛЕМЕНТЫ)
6. Эта часть стандарта описывает рекомендуемый общую логическую структуру расположения и
форматирование опубликованных патентных документов, включаемых в обмен на магнитной ленте в виде
катушечного носителя шириной 1/2 дюйма или картриджа типа IBM 3480/90, описанных в части 2.
7. Логическая запись не может содержать более одного патентного документа.
8. Набор данных (файл) с патентными документами в электронном виде может содержать
последовательность логических записей, организованных, например, в возрастающем порядке
идентификационных обозначений документов.
9. Каждая логическая запись в отношении определенного патентного документа может содержать
информацию как в символьнокодированной ( текстовой) форме, так и факсимильной, а также сочетания
символьнокодированной и факсимильной форм.
10. Следующий рисунок иллюстрирует общую структуру:
11. Префиксы могут содержать код страны, номер документа, его вид и т.д., а также любую другую общую
информацию, которая является полезной для обработки переменной части документа. (См. Приложение 2).
12. Переменная часть может содержать два основных компонента:
(a) в отношении символьнокодированной части соответствующий компонент может состоять из всех
текстовых данных, относящихся к данному документу, то есть, таких субдокументов, как: библиографические данные, реферат, описание, формула, чертежи, отчет о поиске и т.д. Настоятельно рекомендуется, чтобы эти данные кодировались в соответствии со стандартом ВОИС ST.32, который определяет метки SGML, позволяющие структурирование данных таким образом, которое облегчает дальнейшую обработку. В частности,
данные метки включают ссылки на факсимильные элементы внутри текста - так называемые встроенные
изображения-, кодируемые согласно меткам < EMI>. Это обеспечивает связь с самим факсимильным
изображением . (Рекомендуемые наборы символов, а также ссылки на единичные символы для этих данных также определены в ST.32 ВОИС).
[В отношении символьнокодированной части возможно также рассматривать одну страницу патентного
документа в качестве одного компонента, за которым следуют все относящиеся факсимильные элементы (если
они имеются). В данном случае определения отдельных префиксов, например, 18 (см . Приложение 2)
приобретают большую значимость.]
(b) В отношении изображений для каждого кодированного изображения ( полной страницы или
встроенного изображения) создается соответствующий компонент, кодированный с помощью EMI или RTI (см. ниже). Таким образом, каждое изображение( либо полная страница, либо встроенное изображение)
рассматривается в качестве компонента. Изображения записываются в последовательности их появления в логической записи документа, о чем делается отсылка в соответствующей позиции символьнокодированой части документа. Их соответствие должно быть точным.
13. Изображения могут храниться в переменной части записи различными способами:
(a) битовое (растровое) представление согласно рекомендации Группа 4;
(b) битовое (растровое) представление в формате TIFF согласно рекомендации группы 4.
Данный стандарт позволяет использовать дальнейшие расширения (CGM, JPEG и т.д.), при этом в
префиксе указывается, каким образом записано данное изображение.
Последовательность изображений может быть идентифицирована с помощью порядковых номеров из 8
байтов. Обычно он состоит из четырех знаков для номера страницы, за которыми следуют четыре знака для
указания номера кадра. Альтернативно, могут использоваться последовательные номера, начинающиеся с
единицы для каждого документа ( например, в случаях, когда используются электронные методы публикации
без отсылок к бумажным документам). Таким образом, в выше приведенном примере мы имеем один патентный документ (логическая запись), содержащий три документных компонента: текстовые данные и два изображения. Один компонент -текстовые
данные- содержит шесть субдокументов. Связь между документами обеспечивается с помощью меток в
рамках текстовой информации и с помощью префиксов в рамках факсимильной информации. Имя файла для
логической записи, совпадающее обычно с номером патентной заявки или номером публикации, может
связывать все компоненты в одно целое. Другие примеры можно найти в Приложении 5.
Следующий раздел стандарта иллюстрирует, как эти данные могут быть записаны на магнитную ленту
(катушечный носитель или картридж) для обмена информацией . Использование других носителей, отличных от
магнитной ленты, остается открытым для дальнейшего изучения.
ЧАСТЬ 2: ФИЗИЧЕСКИЕ ХАРАКТЕРИСТИКИ КОМПОНЕНТОВ ДЛЯ ЗАПИСИ НА МАГНИТНУЮ ЛЕНТУ
Стандартные характеристики магнитной ленты
14. Стандартные характеристики магнитной ленты должны быть следующими:
(a) магнитная лента на катушке шириной 1/2 дюйма, 9-ти дорожечная или 18/36 дорожечная лента в
картридже типа IBM 3480/90;
(b) плотность записи 6250 бит на дюйм для катушечных лент, 48 КВ/ дюйм для картриджей;
(c) стандартные метки для тома: заголовок 1 и заголовок 2 способом, как это предусмотрено в
стандарте ИСО 1001, который в отношении меток совместим с метками IBM, метки пользователя могут также добавляться;
(d) кодирование метки и префикса записи должно производиться с помощью букв латинского
алфавита и арабских цифр, полностью совместимо с кодированием в соответствии с EBCDIC IBM и
кодировочным набором символов, представленным в Приложении1 ;
(e) один файл может быть распространен на несколько ленточных томов согласно стандарту ИСО
1001.
Структура файла
15. Следует применять стандарт ИСО 1001, который определяет идентификацию магнитной ленты, формат
метки и ее использование.
16. Каждый набор данных (файл) может содержать совокупность логических записей, каждая из которых
представляет патентный документ.
17. Следующая фигура иллюстрирует общую структуру файла:
18. Максимальное число физических записей в пределах одной логической записи составляет
Поэтому теоретическая длина логической записи должна быть менее чем позиций
(максимальная длина блока 20 000 минус 4 байта для указателя длины блока).
19. Общая максимальная длина физической записи составляет 19 996 включая 4 байта для указателя длины
записи.
Физические характеристики записи
20. Физическая запись должна иметь следующие характеристики:
(a) способ записи с переменным блокированием, то есть блок может содержать разное число
физических записей;
(b) максимальная длина блока составляет 20 000, включая 4 байта для указателя длины блока;
(c) максимальная длина физической записи составляет 19996 , включая 4 байта для указателя длины
записи;
(d) структура физической записи может быть схематически представлена следующим образом:
21. Каждая физическая запись начинается с префикса из 256 байтов. Это включает дескриптор записи
(указатель длины бинарной записи из 4 байтов), однако в зависимости от системной среды данное поле не
может быть непосредственно доступным для некоторых прикладных программ, например, IBM OS/VS COBOL.
Префикс определяется в Приложении 2.
22. Для каждого компонента создается, по крайней мере, одна физическая запись. Когда длина компонента
превышает максимальную физическую длину, допустимую при использовании метода переноса (спэннинга),
описываемого ниже , обычно создаются несколько физических записей.
23. Физические записи создаются на магнитной ленте с использованием переменной структуры записи.
Метод переноса (спэннинга)
24. Метод переноса (спэннинга) записи необходим для компонентов вследствие невозможности
магнитоленточных устройств обрабатывать в обычных условиях физические записи, превосходящие 20000
символов. Префикс записи содержит два элемента , касающиеся метода переноса, а именно: элемент 9 и 19
(номер последовательности записи компонента и наибольший номер последовательности записи компонента
документа, оба занимающие 2-байтовые поля, см. Приложение 2, рекомендуемое для использования в
прикладных программах).
25. Для иллюстрации примера структуры расположения данных на ленте и связанные с этим префиксы могут
оказаться полезными следующие примеры:
(Схемы и приложения смотрите во вложенных файлах: 1 часть и 2 часть)
|
|