Материал предоставлен сайтом Территория Дмитрия Новоженова (http://www.novojonov.ru)
Основная функция ЭА - хранение архивных документов в электронном виде. Вновь созданная система ЭА должна быть наполнена такими документами. Существуют два различающихся по технологии способа подобного наполнения (см. Рис. 1):
Ввод текущих документов в ЭА обычно осуществляется в течение всего срока функционирования ЭА в рамках организационно-технологического модуля обработки текущих поступлений. В этом модуле входящие документы сканируются и подвергаются прочей необходимой обработке (индексация, которой будет посвящена лекция "Индексация и имиджинг") по мере их поступления в ЭА.
На начальном этапе функционирования ЭА часто возникает задача разового (залпового) перевода накопленного до момента создания ЭА архивного фонда в электронный вид. Эта задача решается посредством применения технологии ретроконверсии, являющейся предметом настоящей лекции.
В ходе лекции будут рассмотрены следующие вопросы:
Ретроконверсия - это массовое преобразование информации, содержащейся в документах на традиционных носителях, в электронный вид. Подобное преобразование, как правило, носит одноразовый, залповый характер.
Ретроконверсию следует отличать от рекаталогизации. При ретроконверсии осуществляется перенос информации с бумажных документов в электронный вид, однако (за исключением, и то не во всех случаях, явных ошибок) информация не модифицируется. При рекаталогизации одновременно производится изменение переносимой информации. Далее будет рассматриваться именно ретроконверсия.
Рассмотрим основные варианты возможной обработки информации при переводе ее в электронный вид:
1. Имиджинг. Документы хранится в виде набора графических образов отсканированных страниц. Для организации доступа к ним производится индексация документов по минимальному набору полей, идентифицирующих документ или даже группу документов. Это самый дешевый способ обработки, однако, и самый непритязательный с точки зрения возможности поиска.
2. Полная ретроконверсия. Формирование записей базы данных на основе входных документов, после чего образы уже не нужны, а возможности поиска определяются программным обеспечением, работающим с базой данных.
3. Компромиссный вариант. Производится индексация по части полей для увеличения возможностей поиска. Результат поиска - просмотр имиджей.
Как именно обрабатывать тот или иной вид документов, решается на стадии постановки задачи. Это зависит и от вида документов, и от типов распространенных запросов к архиву. Понятно, что чем больше трудозатраты на обработку документа, тем дороже она обходится. Любая ошибка при принятии решения может отразиться как на стоимости проекта создания ЭА, так и на его эффективности. Полное распознавание (т.е. перевод из графического вида в текстовый) автоматическим путем требует высокого качества исходного документа, и, кроме того, веских аргументов для перевода документа в текстовый режим. Основные из них - необходимость контекстного поиска и объем электронного документа.
Если эти аргументы не актуальны, распознавание текстов может быть нецелесообразным.
Объектом ретроконверсии в общем случае является массив документов. Результатом ретроконверсии является массив электронных документов. Технологический процесс ретроконверсии описывается в терминах единичного документа (процедуры его сканирования, выделения частей и т.п.), поэтому до начала обработки документов должно быть определено, что собственно является документом в конкретном случае.
При наличии в архивном деле описи наиболее распространенный вариант решения - один документ - один пункт описи. При обработке выделяются листы документа, а в качестве поисковых индексов берется информация из колонок описи.
Если же опись отсутствует или, что нередко бывает, не соответствует содержимому дела, задача сильно усложняется. Поточный метод обработки требует принятия стандартных решений в соответствии с четко выработанными правилами. Поэтому для каждого типа информации должны быть сформулированы правила вычленения и индексации документа без применения специальных знаний. Вопросы индексации документа будут подробно рассмотрены в лекции "Индексация и имиджинг".
Из хаотически лежащей груды бумаг автоматически не получится стройного электронного архива. В то же время при наличии структурированного бумажного архива можно быстро получить электронные документы с эффективным доступом к ним.
В процессе ретроконверсии обычно выделяют следующие этапы:
Сканирование документов в процессе ретроконверсии, то есть создание их электронных графических образов, предшествует прочим этапам обработки документов в электронном виде, которые будут рассмотрены в лекции "Индексация и имиджинг". Сканирование документов осуществляется в следующем порядке:
1. Получение документов из места их постоянного хранения (если сканирование производится не по месту хранения), подготовка к сканированию:
2. Сканирование документов и проверка качества:
3. Возврат документов:
4. Запись информации на DVD диски:
Материал предоставлен сайтом Территория Дмитрия Новоженова (http://www.novojonov.ru)