Некто спросил: "Правильно ли говорят, что за зло нужно платить добром?" Учитель сказал: "А чем же тогда платить за добро? За зло надо платить по справедливости, а за добро - добром". © Конфуций в раздел...
Процесс ретроконверсии, как было указано в лекции «Наполнение ЭА и ретроконверсия", разбит на отдельные этапы, собственно технологическая часть обработки документов в процессе ретроконверсии включает в себя сканирование (было рассмотрено в указанной лекции), индексацию, верификацию и формирование выходных массивов.
В настоящей лекции будут рассмотрены следующие за сканированием этапы ретроконверсии и базовые аспекты их прохождения, а именно:
Итак, после сканирования дальнейшая обработка документов производится следующим образом:
1. Загрузка образов документов в систему поточной обработки информации:
2. Распределение и организация работ операторов ввода и верификации:
3. Проверка качества ввода, мониторинг работ:
4. Выгрузка информации в требуемом формате
Далее перечисленные операции будут описаны более подробно.
Обработка отсканированных материалов построена на комбинировании ручных и автоматических методов. Практика показывает, что использование методов автоматического распознавания применимо только к небольшому количеству типов документов, поэтому основное внимание будет уделено о технологии ручной обработки с элементами автоматизации.
Основной принцип обработки информации заключается в том, что сначала происходит сканирование документов, а потом отсканированный материал подается на рабочие места операторов, где осуществляется извлечение информации из электронного образа и занесение ее в структуру хранения данных в электронном виде (то есть осуществляется безбумажная обработка).
Распределенная обработка - один из важнейших технологических принципов ретроспективной конверсии. При такой обработке каждый конкретный оператор отвечает за свой набор полей, которые он может хорошо изучить и знать все нюансы обработки именно этой части документа. Таким образом, весь документ разбивается на группы полей, которые надо ввести, и эти группы распределяются между различными операторами. Получается, что каждый документ обрабатывают одновременно несколько человек, и каждый отвечает за собственную часть.
Из вышесказанного следует, что до начала собственно обработки документов должна быть построена технология такой обработки. Документы должны быть исследованы на предмет того, какая именно информация подлежит переводу в электронный вид, в какой части документа расположена эта информация, и каким правилам ее форма и расположение подчиняются.
После этого все те поля, которые надо заполнить, делятся на группы и распределяются между операторами. При этом при построении технологии можно максимально автоматизировать процесс. Допустим, если нам надо заполнить двадцать полей, это не означает, что операторы должны видеть именно двадцать полей, потому что выходную информацию для нескольких полей вполне можно вводить в одном поле по каким-то правилам. Например, ставя специальные разделители и затем уже программным образом находя эти символы, по заданным правилам формировать выходной массив. То есть алгоритм обработки строится так, чтобы операторы как можно более быстро и как можно более просто обрабатывали информацию, а все, что можно, в дальнейшем обрабатывалось автоматически.
Обработка ведется ручным вводом, но с применением максимально возможных приемов автоматизации. Такими приемами могут быть:
Могут быть применены и другие разнообразные элементы «мелкой" автоматизации, облегчающие и упрощающие работу оператора, осуществляющего ввод.
Кроме того, для особо важных полей, точность ввода которых должна быть практически стопроцентной, можно ввести процедуру двойного ввода (или ввода «в две руки"). В этом случае одну и ту же информацию дважды вводят два оператора. В случае несовпадения введенной ими информации такая ситуация автоматически отслеживается, и производится проверка, какое именно из двух введенных значений соответствует имеющемуся в исходном документе. Это действие входит в состав процедуры верификации, о которой будет рассказано далее.
Как правило, двойной ввод применяется для числовых данных, поскольку для них, в отличие от текста, трудно произвести визуальный семантический контроль (неправильно написанное слово сразу бросается в глаза).
На уровне управления действиями оператора при вводе информации можно манипулировать составом и порядком полей, с которыми работает оператор. Этот порядок может изменяться в зависимости от вводимой информации, то есть для разных документов последовательность ввода в них данных, как и состав этих данных, может различаться.
Также в зависимости от значений уже введенных полей другие поля могут заполняться по умолчанию, наследоваться из предыдущего документа и т.п.
Каждый оператор должен получить собственную подробную инструкцию по вводу информации, в которой все перечисленные аспекты должны быть отражены. В инструкции оператора указывается:
Несмотря на многочисленные элементы автоматизации, в основе ретроконверсии лежит ручной ввод. Причины этого заключаются в том, что для большинства обрабатываемых документов автоматическое распознавание малоприменимо.
Опыт обработки архива диссертаций РГАФК (Российской государственной академии физической культуры), информация в котором была жестко оформлена по фиксированным синтаксическим правилам и напечатана на пишущей машинке - казалось бы, оптимальный вариант для автоматического распознавания - показал, что при малейшем снижении качества печати наблюдается неприемлемый рост числа ошибок. Оценка стоимости исправления этих ошибок показала, что дешевле вводить текст силами операторов.
Автоматическое распознавание, таким образом, целесообразно использовать только при очень хорошем качестве печати. Но такого в архивах зачастую не бывает.
Опыт ввода информации различными организациями без применения верификации показывает, что количество ошибок при этом становится неприемлемым, и практическая ценность полученного электронного массива невелика. Введение верификации, особенно нескольких ее уровней, позволяет поднять качество ввода на очень высокий уровень - уровень европейских стандартов (существующих де-факто и применяемых в ходе постановки тендерных задач по ретроконверсии европейскими организациями).
Стандартный допустимый уровень качества по условиям европейских тендеров - один ошибочный символ на тысячу и/или одно неверное поле на десять записей, и этот уровень достижим при применении верификации.
Каким образом осуществляется верификация и достигается высокий уровень качества?
После ввода данных операторами в формы ввода осуществляется ручная проверка. Другие, более квалифицированные операторы, обладающие навыками корректоров и знаниями редакторов, проверяют всю введенную информацию уже в целом, при этом проверяется не только правильность ввода, но и целостность введенной информации (согласована ли информация между различными полями).
Когда оператор первичного ввода вводит свою группу полей, он не может видеть, что ввели в рамках того же документа другие операторы. Проверяющий видит все целиком. Например, он может отследить ситуацию, когда два оператора ввели одну и ту же информацию в разные поля, решив, что она относится к ним, или, наоборот, когда какую-то информацию не ввел никто.
Оператор первичного ввода имеет возможность заполнить в своей форме ввода специальное контрольное поле, в котором указать, что он не уверен в правильности ввода какой-либо информации, испытал затруднения при ее вводе и т.п. Такие проблемы могут быть связаны
Проверяющий использует информацию из этого поля при верификации и разрешает проблемную ситуацию.
Итак, первый уровень верификации - ручная или полуавтоматическая верификация. Проверяющий оператор осуществляет проверку вручную под управлением программы, которая может произвести предварительную проверку введенной информации по некоторым правилам и подсветить проблемные, по ее мнению, поля.
На следующем этапе верификации проверенная вручную информация помещается в промежуточную базу данных, и начинается проверка средствами СУБД (системы управления БД), а именно:
На этом же этапе может производиться автоматическое преобразование информации, когда введенную информацию надо продублировать в другом поле, изменить формат и т.п.
Эта работа также выполняется операторами соответствующей квалификации.
После завершения верификации информация преобразовывается в тот вид, в каком она должна использоваться в целевой системе управления ЭА, это преобразование осуществляет специальная программа - конвертор. На уровне конвертирования также могут быть добавлены алгоритмы, производящие дополнительный контроль правильности информационного массива.
При обработке архивных документов необходимо учитывать следующие существенные моменты.
Необходимо определить, чем является в данном конкретном случае единица хранения.
Должно быть принято решение, как обрабатывать одно- и двусторонние листы. У этой проблемы две стороны.
Первая: если считать все документы двусторонними, то возникает множество пустых листов.
Вторая: как показала практика, огромное количество документов оформлено на оборотной стороне ранее использованных для других целей листов. В этом случае бывает трудно определить, что за информация находится на оборотной стороне: продолжение лицевой стороны или нечто постороннее.
В ряде архивов, отличающихся повышенной аккуратностью ведения, на оборотной стороне листа ставят номер листа с буквой «А", но и при этом возможны ошибки: не проставленный номер листа там, где он должен быть, и, наоборот, проставленный там, где его быть не должно.
Допустим, есть дело, в котором имеется внутренняя опись. В этой внутренней описи выделены отдельные документы (с какой по какую страницы). Но в реальном деле страницы могут быть пропущены, могут быть вставлены «литерные" листы, могут быть листы без нумерации. В принципе, в заверительном листе в конце описи это должно быть отражено, но на практике так бывает далеко не всегда. Если пытаться механически сначала обработать опись, а потом документы в указанном в описи порядке листов, то в случае любого сбоя в этом порядке сбиваются границы всех следующих далее документов.
Поэтому при ретроконверсии архивных документов необходима технология проверки соответствия комплектности и порядка листов документа указанным в описи.
Особенности обработки учетных книг (применяемых в музейном деле). Информация в таких книгах обычно представлена в виде таблицы. Размер одной записи в такой таблице переменный и зависит от количества информации в различных колонках (числа строк). Запись может переходить на следующий разворот. Существует технология, позволяющая автоматически позиционировать отсканированный образ разворота на начало записи.
До данного момента описывался полный вариант ретроконверсии, когда содержащаяся в образе исходного бумажного документа информация вводится полностью, и после завершения этого процесса образ документа фактически становится не нужным.
Существуют варианты частичной обработки (называемые имиджингом), когда вводится только часть содержащейся на образе информации. По этой введенной информации может производиться поиск образов документов, а остальная информация может при необходимости зрительно извлекаться из найденного образа документа. При этом должно быть учтено, что одной группе значений поисковых признаков может соответствовать сразу несколько документов.
Указанные функции реализуются специальным видом программного обеспечения - имиджинговыми системами. Системы ретроконверсии обычно ориентированы на изготовление массива данных, предназначенного для работы в составе готовой специализированной системы, например, системы управления ЭА. Имиджинговые системы работают собственно с образами, полученными в результате сканирования.
Существуют различные типы имиджинговых систем. На конкретных примерах мы рассмотрим следующие из них:
Для создания системы были произведены сканирование каталога и ввод в БД текстовых разделителей рубрикатора с учетом дерева иерархии.
В созданной ИПС реализованы следующие функции:
Подобное решение рекомендуется для каталогов карточек или архивов простых одностраничных документов с вводом архивных описей.
Примеры интерфейса системы приведены в раздаточном материале.
Для создания системы были произведены сканирование каталога и ввод в БД самой верхней части рубрикатора рубрик, а также первого уровня подрубрик. В отличие от имиджинговых систем типа «Имидж-Картотека", в системах «Имидж-Каталог" полного индексирования каталога не производится, в БД вводится только его верхняя часть.
В созданной ИПС реализованы следующие функции:
Подобное решение рекомендуется для больших (> 500 000 документов) каталогов карточек или архивов простых одностраничных документов с вводом архивных описей.
Примеры интерфейса системы приведены в раздаточном материале.
Для создания системы были произведены сканирование книг/документов и ввод индексов отдельных записей, статей, документов.
В созданной ИПС реализованы следующие функции:
Подобное решение рекомендуется для книг инвентарного учета, сборников и собраний документов/статей.
Примеры интерфейса системы приведены в раздаточном материале.
Вы можете копировать контент, представленный на этой странице, повторно публиковать его, вносить изменения, изменять оформление (и пр.), при условии размещения в любом месте скопированной страницы любого цвета, размера и стиля шрифта индексируемой ссылки вида:
Контент (прохождение, статья, и т.д.) предоставлен сайтом Территория Дмитрия Новоженова
Сайт "Территория Дмитрия Новоженова" © 2024 год. Программирование на ASP.NET, написание программ на C#, самописные утилиты. Разборки с компьютерами, сетевым оборудованием и другим железом. Коллекции изображений, библиотеки иконок, которые можно скачать и сохранить локально, рисунков и других картинок. Личный фотоальбом, ссылки на фотогаллереи на других сайтах и другие ресурсы посвященные фотографии. Каталог игр на PlayStation 2, тактика прохождения игр, обзоры игр на PlayStation 2. Тематические сборники статей, новости сайта.