Индексация и имиджинг

В древности люди учились для того, чтобы совершенствовать себя. Ныне учатся для того, чтобы удивить других. © Конфуций в раздел...

Версия для печатиВерсия для печати

Содержание

  1. Индексация и имиджинг
  2. Организация обработки отсканированных документов
  3. Ручная и автоматическая обработка
  4. Автоматизация ручного ввода
  5. Верификация
  6. Специфика обработки архивов
  7. Выводы
  8. Имиджинг
  9. Выводы

Электронный архив: Индексация

Индексация и имиджинг Индексация и имиджинг

Организация обработки отсканированных документов Индексация и имиджинг

Процесс ретроконверсии, как было указано в лекции «Наполнение ЭА и ретроконверсия", разбит на отдельные этапы, собственно технологическая часть обработки документов в процессе ретроконверсии включает в себя сканирование (было рассмотрено в указанной лекции), индексацию, верификацию и формирование выходных массивов.

В настоящей лекции будут рассмотрены следующие за сканированием этапы ретроконверсии и базовые аспекты их прохождения, а именно:

  1. Ручная и автоматическая обработка образов документов в ходе их индексации
  2. Автоматизация ручного ввода информации
  3. Верификация
  4. Специфика обработки архивных документов в процессе ретроконверсии
  5. Имиджинг как вариант частичной ретроконверсии

Итак, после сканирования дальнейшая обработка документов производится следующим образом:

1. Загрузка образов документов в систему поточной обработки информации:

  1. очистка и распознавание образов документов
  2. подготовка справочников и классификаторов
  3. разработка и настройка форм

2. Распределение и организация работ операторов ввода и верификации:

  1. составление сменных заданий и норм
  2. группировка однотипных работ - цифры, буквы или ввод, верификация, проверка и т.п.

3. Проверка качества ввода, мониторинг работ:

  1. двойной ввод
  2. подробные протоколы работ
  3. персонификация каждого нажатия клавиатуры

4. Выгрузка информации в требуемом формате

Далее перечисленные операции будут описаны более подробно.

Ручная и автоматическая обработка Индексация и имиджинг

Обработка отсканированных материалов построена на комбинировании ручных и автоматических методов. Практика показывает, что использование методов автоматического распознавания применимо только к небольшому количеству типов документов, поэтому основное внимание будет уделено о технологии ручной обработки с элементами автоматизации.

Основной принцип обработки информации заключается в том, что сначала происходит сканирование документов, а потом отсканированный материал подается на рабочие места операторов, где осуществляется извлечение информации из электронного образа и занесение ее в структуру хранения данных в электронном виде (то есть осуществляется безбумажная обработка).

Распределенная обработка.

Распределенная обработка - один из важнейших технологических принципов ретроспективной конверсии. При такой обработке каждый конкретный оператор отвечает за свой набор полей, которые он может хорошо изучить и знать все нюансы обработки именно этой части документа. Таким образом, весь документ разбивается на группы полей, которые надо ввести, и эти группы распределяются между различными операторами. Получается, что каждый документ обрабатывают одновременно несколько человек, и каждый отвечает за собственную часть.

Из вышесказанного следует, что до начала собственно обработки документов должна быть построена технология такой обработки. Документы должны быть исследованы на предмет того, какая именно информация подлежит переводу в электронный вид, в какой части документа расположена эта информация, и каким правилам ее форма и расположение подчиняются.

После этого все те поля, которые надо заполнить, делятся на группы и распределяются между операторами. При этом при построении технологии можно максимально автоматизировать процесс. Допустим, если нам надо заполнить двадцать полей, это не означает, что операторы должны видеть именно двадцать полей, потому что выходную информацию для нескольких полей вполне можно вводить в одном поле по каким-то правилам. Например, ставя специальные разделители и затем уже программным образом находя эти символы, по заданным правилам формировать выходной массив. То есть алгоритм обработки строится так, чтобы операторы как можно более быстро и как можно более просто обрабатывали информацию, а все, что можно, в дальнейшем обрабатывалось автоматически.

Автоматизация ручного ввода Индексация и имиджинг

Обработка ведется ручным вводом, но с применением максимально возможных приемов автоматизации. Такими приемами могут быть:

  1. Задание полей по умолчанию (это применимо, когда какие-либо поля имеют часто встречающееся конкретное значение)
  2. Использование словарей (когда стандартное значение из некоторого списка можно вводить не текстом, имеющимся в документе, а мнемоническим обозначением, которое автоматически будет заменяться на нужное значение)
  3. Повторяющиеся (наследуемые) поля (в случае, если в последовательно идущих документах повторяется некоторая информация). Например, в алфавитном каталоге одна и та же фамилия может повторяться несколько раз подряд.

Могут быть применены и другие разнообразные элементы «мелкой" автоматизации, облегчающие и упрощающие работу оператора, осуществляющего ввод.

Кроме того, для особо важных полей, точность ввода которых должна быть практически стопроцентной, можно ввести процедуру двойного ввода (или ввода «в две руки"). В этом случае одну и ту же информацию дважды вводят два оператора. В случае несовпадения введенной ими информации такая ситуация автоматически отслеживается, и производится проверка, какое именно из двух введенных значений соответствует имеющемуся в исходном документе. Это действие входит в состав процедуры верификации, о которой будет рассказано далее.

Как правило, двойной ввод применяется для числовых данных, поскольку для них, в отличие от текста, трудно произвести визуальный семантический контроль (неправильно написанное слово сразу бросается в глаза).

На уровне управления действиями оператора при вводе информации можно манипулировать составом и порядком полей, с которыми работает оператор. Этот порядок может изменяться в зависимости от вводимой информации, то есть для разных документов последовательность ввода в них данных, как и состав этих данных, может различаться.

Также в зависимости от значений уже введенных полей другие поля могут заполняться по умолчанию, наследоваться из предыдущего документа и т.п.

Каждый оператор должен получить собственную подробную инструкцию по вводу информации, в которой все перечисленные аспекты должны быть отражены. В инструкции оператора указывается:

  1. Правила заполнения полей в различных ситуациях
  2. Местонахождение полей в образах исходных документов
  3. Возможные варианты исходных документов (то есть различные формы исходных документов и особенности их обработки).

Несмотря на многочисленные элементы автоматизации, в основе ретроконверсии лежит ручной ввод. Причины этого заключаются в том, что для большинства обрабатываемых документов автоматическое распознавание малоприменимо.

Опыт обработки архива диссертаций РГАФК (Российской государственной академии физической культуры), информация в котором была жестко оформлена по фиксированным синтаксическим правилам и напечатана на пишущей машинке - казалось бы, оптимальный вариант для автоматического распознавания - показал, что при малейшем снижении качества печати наблюдается неприемлемый рост числа ошибок. Оценка стоимости исправления этих ошибок показала, что дешевле вводить текст силами операторов.

Автоматическое распознавание, таким образом, целесообразно использовать только при очень хорошем качестве печати. Но такого в архивах зачастую не бывает.

Верификация Индексация и имиджинг

Опыт ввода информации различными организациями без применения верификации показывает, что количество ошибок при этом становится неприемлемым, и практическая ценность полученного электронного массива невелика. Введение верификации, особенно нескольких ее уровней, позволяет поднять качество ввода на очень высокий уровень - уровень европейских стандартов (существующих де-факто и применяемых в ходе постановки тендерных задач по ретроконверсии европейскими организациями).

Стандартный допустимый уровень качества по условиям европейских тендеров - один ошибочный символ на тысячу и/или одно неверное поле на десять записей, и этот уровень достижим при применении верификации.

Каким образом осуществляется верификация и достигается высокий уровень качества?

Первый этап верификации - ручная проверка.

После ввода данных операторами в формы ввода осуществляется ручная проверка. Другие, более квалифицированные операторы, обладающие навыками корректоров и знаниями редакторов, проверяют всю введенную информацию уже в целом, при этом проверяется не только правильность ввода, но и целостность введенной информации (согласована ли информация между различными полями).

Когда оператор первичного ввода вводит свою группу полей, он не может видеть, что ввели в рамках того же документа другие операторы. Проверяющий видит все целиком. Например, он может отследить ситуацию, когда два оператора ввели одну и ту же информацию в разные поля, решив, что она относится к ним, или, наоборот, когда какую-то информацию не ввел никто.

Оператор первичного ввода имеет возможность заполнить в своей форме ввода специальное контрольное поле, в котором указать, что он не уверен в правильности ввода какой-либо информации, испытал затруднения при ее вводе и т.п. Такие проблемы могут быть связаны

  1. С качеством бумажных оригиналов документов (кляксы, плохой почерк, дырки для сшивки в каталожных карточках прямо на месте информации и т.п.)
  2. С качеством сканирования документов
  3. С нарушением последовательности сканирования нескольких идущих подряд частей (страниц, карточек и т.п.) одного документа

Проверяющий использует информацию из этого поля при верификации и разрешает проблемную ситуацию.

Итак, первый уровень верификации - ручная или полуавтоматическая верификация. Проверяющий оператор осуществляет проверку вручную под управлением программы, которая может произвести предварительную проверку введенной информации по некоторым правилам и подсветить проблемные, по ее мнению, поля.

Второй этап верификации - проверка средствами СУБД.

На следующем этапе верификации проверенная вручную информация помещается в промежуточную базу данных, и начинается проверка средствами СУБД (системы управления БД), а именно:

  1. По текстовым полям - проверка орфографии средствами СУБД
  2. По граничным значениям (производится сортировка записей по конкретному полю, и проверяются границы значений поля - типичные места ошибок)

Преобразование и выгрузка информации.

На этом же этапе может производиться автоматическое преобразование информации, когда введенную информацию надо продублировать в другом поле, изменить формат и т.п.

Эта работа также выполняется операторами соответствующей квалификации.

После завершения верификации информация преобразовывается в тот вид, в каком она должна использоваться в целевой системе управления ЭА, это преобразование осуществляет специальная программа - конвертор. На уровне конвертирования также могут быть добавлены алгоритмы, производящие дополнительный контроль правильности информационного массива.

Специфика обработки архивов Индексация и имиджинг

При обработке архивных документов необходимо учитывать следующие существенные моменты.

Необходимо определить, чем является в данном конкретном случае единица хранения.

Должно быть принято решение, как обрабатывать одно- и двусторонние листы. У этой проблемы две стороны.

Первая: если считать все документы двусторонними, то возникает множество пустых листов.

Вторая: как показала практика, огромное количество документов оформлено на оборотной стороне ранее использованных для других целей листов. В этом случае бывает трудно определить, что за информация находится на оборотной стороне: продолжение лицевой стороны или нечто постороннее.

В ряде архивов, отличающихся повышенной аккуратностью ведения, на оборотной стороне листа ставят номер листа с буквой «А", но и при этом возможны ошибки: не проставленный номер листа там, где он должен быть, и, наоборот, проставленный там, где его быть не должно.

Порядок следования документов в деле.

Допустим, есть дело, в котором имеется внутренняя опись. В этой внутренней описи выделены отдельные документы (с какой по какую страницы). Но в реальном деле страницы могут быть пропущены, могут быть вставлены «литерные" листы, могут быть листы без нумерации. В принципе, в заверительном листе в конце описи это должно быть отражено, но на практике так бывает далеко не всегда. Если пытаться механически сначала обработать опись, а потом документы в указанном в описи порядке листов, то в случае любого сбоя в этом порядке сбиваются границы всех следующих далее документов.

Поэтому при ретроконверсии архивных документов необходима технология проверки соответствия комплектности и порядка листов документа указанным в описи.

Специфика обработки учетных книг.

Особенности обработки учетных книг (применяемых в музейном деле). Информация в таких книгах обычно представлена в виде таблицы. Размер одной записи в такой таблице переменный и зависит от количества информации в различных колонках (числа строк). Запись может переходить на следующий разворот. Существует технология, позволяющая автоматически позиционировать отсканированный образ разворота на начало записи.

Выводы Индексация и имиджинг

  1. Обработка отсканированных материалов построена на комбинировании ручных и автоматических методов
  2. Использование методов автоматического распознавания применимо только к небольшому количеству типов документов
  3. Основной принцип обработки информации заключается в том, что сначала происходит сканирование документов, а потом отсканированный материал подается на рабочие места операторов, где осуществляется извлечение информации
  4. Распределенная обработка - один из важнейших технологических принципов ретроспективной конверсии
  5. Обработка документов, как правило, ведется ручным вводом, но с применением максимально возможных приемов автоматизации
  6. Введение верификации, особенно нескольких ее уровней, позволяет поднять качество ввода на очень высокий уровень

Имиджинг Индексация и имиджинг

До данного момента описывался полный вариант ретроконверсии, когда содержащаяся в образе исходного бумажного документа информация вводится полностью, и после завершения этого процесса образ документа фактически становится не нужным.

Существуют варианты частичной обработки (называемые имиджингом), когда вводится только часть содержащейся на образе информации. По этой введенной информации может производиться поиск образов документов, а остальная информация может при необходимости зрительно извлекаться из найденного образа документа. При этом должно быть учтено, что одной группе значений поисковых признаков может соответствовать сразу несколько документов.

Указанные функции реализуются специальным видом программного обеспечения - имиджинговыми системами. Системы ретроконверсии обычно ориентированы на изготовление массива данных, предназначенного для работы в составе готовой специализированной системы, например, системы управления ЭА. Имиджинговые системы работают собственно с образами, полученными в результате сканирования.

Существуют различные типы имиджинговых систем. На конкретных примерах мы рассмотрим следующие из них:

  1. ИПС (информационно-поисковая система) на основе текстового рубрикатора (индексы для группы документов) - «Имидж- Картотека"
  2. ИПС (информационно-поисковая система) на основе текстово-графического рубрикатора (индексы для группы документов) «Имидж-Каталог"
  3. ИПС на основе БД индексов заметок, статей, записей (частей документа) - «Имидж-запись"

Имидж-Картотека. Краеведческий каталог научной библиотеки крупного города.

Для создания системы были произведены сканирование каталога и ввод в БД текстовых разделителей рубрикатора с учетом дерева иерархии.

В созданной ИПС реализованы следующие функции:

  1. иерархический поиск требуемого раздела по созданной БД рубрик и подрубрик
  2. контекстный поиск требуемого раздела по созданной БД рубрик и подрубрик
  3. просмотр карточек каталога в подрубрике перелистыванием образов

Подобное решение рекомендуется для каталогов карточек или архивов простых одностраничных документов с вводом архивных описей.

Примеры интерфейса системы приведены в раздаточном материале.

Имидж-Каталог. Главный систематический каталог библиотеки государственного масштаба.

Для создания системы были произведены сканирование каталога и ввод в БД самой верхней части рубрикатора рубрик, а также первого уровня подрубрик. В отличие от имиджинговых систем типа «Имидж-Картотека", в системах «Имидж-Каталог" полного индексирования каталога не производится, в БД вводится только его верхняя часть.

В созданной ИПС реализованы следующие функции:

  1. иерархический поиск требуемого раздела по созданной части БД рубрик и подрубрик
  2. контекстный поиск требуемого раздела по созданной части БД рубрик и подрубрик
  3. просмотр графических образов подрубрик нижнего уровня для сокращения объема поиска/просмотра карточек
  4. просмотр карточек каталога в подрубрике перелистыванием образов

Подобное решение рекомендуется для больших (> 500 000 документов) каталогов карточек или архивов простых одностраничных документов с вводом архивных описей.

Примеры интерфейса системы приведены в раздаточном материале.

Имидж-Запись. Инвентарные книги крупного музея.

Для создания системы были произведены сканирование книг/документов и ввод индексов отдельных записей, статей, документов.

В созданной ИПС реализованы следующие функции:

  1. быстрый поиск записи/статьи или документа (или группы связанных записей) по введенным реквизитам.
  2. позиционирование образа страницы так, чтобы на экране была требуемая
  3. запись
  4. просмотр всех связанных записей или всех записей, отвечающих запросу

Подобное решение рекомендуется для книг инвентарного учета, сборников и собраний документов/статей.

Примеры интерфейса системы приведены в раздаточном материале.

Выводы Индексация и имиджинг

  1. Наряду с полной ретроконверсией существуют варианты частичной обработки (называемые имиджингом), когда вводится только часть содержащейся на образе информации
  2. Существуют различные типы имиджинговых систем, отличающиеся соотношением индексированной и графической части информации, то есть полнотой произведенной ретроконверсии

Вы можете копировать контент, представленный на этой странице, повторно публиковать его, вносить изменения, изменять оформление (и пр.), при условии размещения в любом месте скопированной страницы любого цвета, размера и стиля шрифта индексируемой ссылки вида:

Версия для печатиВерсия для печати

Индекс цитирования Яндекс
Аттестат участника WebMoney
Этот сайт разрабатывается в соответствии с рекомендациями W3C XHTML 1.0 Transitional
Этот сайт разрабатывается в соответствии с рекомендациями W3C CSS

Сайт "Территория Дмитрия Новоженова" © 2017 год. Программирование на ASP.NET, написание программ на C#, самописные утилиты. Разборки с компьютерами, сетевым оборудованием и другим железом. Коллекции изображений, библиотеки иконок, которые можно скачать и сохранить локально, рисунков и других картинок. Личный фотоальбом, ссылки на фотогаллереи на других сайтах и другие ресурсы посвященные фотографии. Каталог игр на PlayStation 2, тактика прохождения игр, обзоры игр на PlayStation 2. Тематические сборники статей, новости сайта.