Способы перевода документов в электронный вид

Электронные архивы для промышленности

Способы перевода документов в электронный вид

14.03.2005 Сергей Миронов

Часто информация не приносит ожидаемой отдачи из-за сложности доступа к бумажным архивам и рабочей документации. Становятся необходимыми перевод конструкторской, технической и технологической документации в электронный вид, создание электронных архива предприятия, баз данных и картотек.

Преимущества электронного архива конструкторской и технологической документации перед архивом бумажным очевидны. Электронный архив позволяет принципиально решить проблему оперативного доступа.

Эффективность использования документов многократно повышается за счет удобства электронного архива, возможности одновременной работы с одними и теми же документами, быстрого создания и анализа по заданному признаку подборок документов.

Обеспечивается удаленный доступ к документам сотрудников территориально распределенных подразделений. Цифровые документы не разрушаются со временем и могут храниться практически вечно.

Кроме того, решается проблема целостности документации: не секрет, что бумажные документы иногда бесследно пропадают в силу форс-мажорных обстоятельств или по злому умыслу, а при правильной организации хранения электронных документов их несанкционированные удаление и модификация невозможны.

Примеров создания и эксплуатации электронных архивов много. Бухгалтерии промышленных предприятий переводят свои документы в электронный вид для обеспечения быстрого доступа к ним, подготовки отчетности и аналитических подборок.

Кадровые службы, особенно на крупных предприятиях, создают электронные картотеки персональных данных, которые требуется хранить в течение определенного законодательством срока.

В системы автоматизированного проектирования переносится конструкторская и технологическая информация.

Для обработки накопленных массивов бумажной документации промышленным предприятиям зачастую выгоднее заказывать ее оцифровку у специализированных компаний.

Выделение собственных ресурсов для создания непрофильного подразделения, которое по завершении работ придется расформировать или перепрофилировать, может оказаться непозволительной роскошью.

Затраты на перевод документации в электронный вид силами самого предприятия могут оказаться в полтора-два раза большими; не исключено, что эту работу не удастся выполнить в срок.

Реализация крупных проектов перевода в электронный вид сотен тысяч и даже миллионов документов часто оказывается не под силу предприятиям даже при наличии соответствующих технических средств.

Слишком велика в этом процессе роль методологии и опыта, слишком велик риск потери информации из-за человеческого фактора или сбоев оборудования. В таблице приведен примерный экономический расчет для проекта архивирования 11 млн.

документов формата А4, включающего расшивку документов, их перевод в электронный вид, индексацию по дате создания и номеру и исчерпывающую верификацию.

Продолжительность этого проекта первоначально оценивалась в два года, но силами специализированных поставщиков работу его удалось выполнить за один год при стоимости 577 тыс. долл.

Даже при относительно небольшом объеме архива иногда выгоднее поручить его перевод в электронный вид стороннему исполнителю.

В процессе выполнения работ могут обнаружиться множество статей расхода, которые не были предусмотрены или казались малозначительными.

За планируемую сумму никто не сможет гарантировать получения результатов требуемого качества, а в случае с внешним подрядчиком оплачивается лишь конечный результат, а риск снижается.

Технология массового перевода документов в электронный вид подразумевает следующие этапы работы.

I. Документация переводится в электронный вид с использованием поточного сканирования. В результате создаются точные электронные копии документов со всеми артефактами (подписи, печати, штампы и т.д.).

II. Электронные документы подвергаются индексации по различным информационным полям (тип документа, номер дела, дата создания и др.).

При необходимости электронная форма может быть дополнительно обработана: тексты распознаются, а графика (чертежи, схемы и т.п.

) векторизуется, что позволяет сделать электронный документ математической моделью для применения в инструментальных средах или системах автоматизированного проектирования.

III. Документы заносятся в электронный архив, который в дальнейшем может стать основой для автоматизированной обработки всей технической и технологической информации компании.

Перевод документов в электронный вид

Для оцифровки большого объема документации используется профессиональное оборудование. Работа на простых планшетных сканерах может затянуться и не всегда обеспечивает надлежащее качество.

Листовые документы формата до А3 обычно сканируются на протяжных документных сканерах, которые, в зависимости от модели, обеспечивают оцифровку от 200 до 460 страниц в минуту. На одном сканере вполне реально переводить в электронный вид до 30 тыс. документов в день, причем профессиональное оборудование позволяет работать с ветхими и поврежденными документами.

Сшитые документы, книги, чертежи, крупноформатные документы, объемные предметы сканируются на планетарных сканерах.

В этих устройствах сканируемый оригинал неподвижен и располагается лицевой стороной вверх на значительном удалении от оптической системы и сканирующей линейной матрицы сканера.

Такой тип сканирования позволяет избежать контакта со сканирующими элементами и обеспечивает сохранность оригиналов. С помощью планетарных сканеров осуществляется высококачественная оцифровка документов, что особенно важно, например, при создании электронных библиотек чертежей.

На этом этапе выбираются оптимальные показатели сканирования — черно-белые или цветные образы, разрешение отсканированных документов, параметры постобработки образов.

Индексация документов

При кажущейся простоте процесс индексации документов сложен и с организационной, и с технологической точки зрения.

В случае с большими документальными массивами автоматическое распознавание специальными программами применяется крайне редко: процент ошибок достаточно велик. Зачастую при индексации необходимо обеспечить не более одного ошибочного символа на 1 тыс.

введенных — недостижимая пока точность для подобных систем. Поэтому отсканированные материалы обрабатываются поэтапно с помощью комбинации ручных и автоматических методов.

Таблица. Выполнение работ силами предприятия

На первом этапе осуществляется предварительная подготовка. Отсканированные образы очищаются, специалисты подготавливают справочники и классификаторы, на основе которых будет проводиться обработка, создаются формы для заполнения.

На втором этапе составляются нормативы для операторов и задания для распределенной обработки. Документ разбивается на группы полей, за которые отвечают конкретные операторы, досконально изучившие нюансы их обработки. На этом же этапе осуществляется оптимизация — однотипные работы группируются.

Третий этап — многоступенчатая процедура верификации при помощи средств СУБД, подробного протоколирования работ и процедуры «двойного ввода» (два оператора вводят одну и ту же информацию, а затем эти варианты сличаются на предмет непротиворечивости). Потом информация в требуемом формате выгружается в результирующую базу данных.

Наполнение электронного архива

После перевода документов в электронный вид их можно занести в электронный архив. Например, на многих предприятиях уже существует информационная система (такая, как ERP), способная обрабатывать электронные документы.

Главное требование к электронному архиву — обеспечение сохранности документов. Должно быть предусмотрено системное ведение архива, включая сохранение всех версий документов после каждого изменения, без возможности уничтожения версий (только исключение из доступа).

В электронном архиве необходимы и средства восстановления данных после сбоев.

Немаловажным является обеспечение безопасности данных: профессиональная архивная система, во-первых, предоставляет доступ к документам строго в соответствии с политикой безопасности, а во-вторых, ведет подробный протокол работы с архивом.

Хранение электронного документа подразумевает хранение всех его атрибутов — подписей, печатей, пометок и т.д. При печати документа должен полностью сохраняться формат его вывода: пользователю необходима возможность сделать полный дубликат документа.

Система поддержки электронного архива должна обеспечивать максимально удобное универсальное представление документа в базе данных:

  • документ должен снабжаться полной поисковой и атрибутивной информацией (карточка документа, строка SQL-таблицы);
  • система должна поддерживать хранение связанных мультимедийных данных (видео, анимация, звук);
  • формат представления электронных документов должен быть универсальным.

Если же информационная система предприятия не удовлетворяет требованиям архивного хранения данных, она обычно разрабатывается на основе какой-либо профессиональной системы управления электронным архивом и интегрируется в информационную систему предприятия. В дальнейшем электронный архив может стать основой для автоматизированной обработки всей технической и технологической информации компании.

Сергей Миронов (SMironov@elar.ru) — заместитель директора корпорации «Электронный архив» (Москва).

Архив для добывающих предприятий

Созданные несколько десятилетий назад документы по скважинам постепенно приходят в негодность, и их перевод в электронный вид становится единственной возможностью сохранить уникальные сведения. Для нормальной работы в современных условиях требуется создание электронных архивов.

Проект, реализованный корпорацией «Электронный архив» для одного из крупнейших российских нефтегазовых предприятий, предусматривал перевод в электронный вид 1,5 млн крупноформатных схем, чертежей и организационно-распорядительной документации.

Эта информация представляла собой разрозненный массив документов разных типов и форматов (от А4 до рулонов А0).

Сотрудники предприятия попытались сканировать документы собственными силами, однако вскоре руководство пришло к выводу, что столь большой и разнородный массив документов невозможно обработать без специального центра сканирования.

Действительно, качественно отсканировать 20 тыс. лент самописцев длиной до 7 м очень сложно: необходим не только высококачественное оборудование, но и опыт проведения таких работ. Могут возникнуть проблемы с переводом документов в электронный вид, с упорядочением массива электронных образов и созданием индексных полей.

Рис. 1. Документы скважин, созданные несколько десятилетий назад, постепенно приходят в негодность

Рис. 2. Фрагмент электронного архива геологоразведочной информации

Машиностроительный архив

Московское машиностроительное производственное предприятие «Салют» специализируется на изготовлении и обслуживании авиадвигателей, узлов и деталей для самолетов конструкторских бюро им. Сухого, Туполева, Бериева и Антонова.

Картотека учета применяемости технологического оборудования ведется на предприятии с середины 50-х. За это время она разрослась до 300 тыс. документов, и работать с ней становилось все труднее.

Было принято решение создать электронную картотеку.

Специалисты завода разработали требуемую структуру базы данных электронной картотеки, но базу данных еще предстояло наполнить.

Перевод картотеки в электронный вид осложнялся ее неоднородностью: карточки были разного качества, встречались ветхие и поврежденные, выполненные на нестандартных бланках.

В ряде случаев приходилось проводить мини-экспертизы для оценки и распознавания различных частей картотеки.

Существенные сложности возникли и с индексацией отсканированных документов. Многие поля содержали сложные комбинации цифр и букв (латинских и кириллицы), правильно разобрать которые оказалось непросто из-за неразборчивости почерка авторов.

Многовариантность расположения данных некоторых полей карточек, присутствие нестандартных сведений, большое количество взаимосвязанных обозначений и т.п. — все это обусловило применение особых организационных и технических мер для повышения качества и оперативности работы.

Важной задачей была тщательная верификация данных по ключевому полю «шифр инструмента» (единственному полю, уникально идентифицирующему инструмент), и были установлены особые требования к качеству — не более одного ошибочного символа на 1 тыс. введенных.

Реализация проекта собственными силами при отсутствии поточного сканирующего оборудования, выделенных сотрудников, технологий и специального программного обеспечения заняла бы несколько лет. Например, сканирование на обычном планшетном сканере потребовало бы два с половиной года.

После внедрения электронной картотеки на заводе «Салют» на порядок уменьшилось время поиска информации, появилась возможность одновременной работы с картотекой нескольких сотрудников.

Кроме того, была создана система контроля за целостностью картотеки, существенно сократились трудозатраты на обслуживание и пополнение картотеки, удалось решить проблему нехватки свободного места в архивном хранилище.

Архив для проектировщиков

Среди нерешенных задач Рязанского государственного приборостроительного завода числились предоставление предприятиям-смежникам копий конструкторской документации и подготовка чертежей для загрузки в системы автоматизированного проектирования. Информационный ресурс предприятия состоял из 30 тыс. документов на различных носителях — кальке, синьке, пленке, бумаге.

Технология индексации

Основной массив документов формата А4 и А3 сотрудники корпорации «Электронный архив» сканировали на территории завода, а документы формата А2, А1 и А0 перевозили в Центр сканирования.

Были получены черно-белые графические образы конструкторской документации в формате TIFF, на основе которых проводилась индексация документов по полям «наименование документа», «обозначение документа», «количество листов», «номер листа».

Затем была сформирована база данных с информацией о документах и ссылками на файлы с их графическими образами, а также создан массив файлов, содержащий растровые образы документов.

Поделитесь материалом с коллегами и друзьями

Источник: https://www.osp.ru/os/2005/02/185315/

Что такое оцифровка?

Способы перевода документов в электронный вид

Сканирование, ретроконверсия и сопутствующие услуги. Обзор технологий перевода документов в электронный вид.

Существует несколько вариантов организации процессов оцифровки. Они могут производиться самостоятельно или с аутсорсингом услуг, с вывозом документов или выполнением работ на своей территории.

При оцифровке могут применяться офисные, профессиональные документные или планетарные сканеры.

Данные могут извлекаться в ручном, полуавтоматическом или автоматическом режимах, с проведением предварительной архивной обработки бумажных документов или классификацией информации уже в электронном виде и т.д.

Какой путь выбрать?

Решение зависит от конкретной задачи, потому что каждое из вышеупомянутых «или» определяет качество получаемого результата и стоимость работ. Например, извечен вопрос сшитых документов: выгодней медленно отсканировать в сшитом состоянии или потратиться на расшивку, зато быстро оцифровать на документных сканерах?

Самый простой способ выбрать наиболее подходящий для вас путь — обратиться за экспертизой к специализирующейся на оцифровке организации.

Заинтересованные в работах, крупные компании проведут обследование бесплатно, и за вас определят оптимальный подход.

Не пренебрегайте этой возможностью и не ждите склонения к заказу услуг: большинство этих компаний также заинтересованы в поставке оборудования и ПО для самостоятельной оцифровки.

Сколько документов нужно сканировать?

Определяющий параметр — объем документов. Для ежедневного сканирования небольших пачек расшитых документов (например, первичной бухгалтерии) подойдет обычный офисный сканер, выдерживающий нагрузку в несколько тысяч страниц в день. Нужно лишь дополнить его удобной программой для индексирования.

Определяющий параметр — объем документов.

Для регулярного сканирования больших объемов необходимо профессиональное оборудование. Это — промышленные сканеры, которые стоят немалых денег (подобное оборудование используют ФНС, ФТС, крупные банки). Поэтому менее дорогой альтернативой может стать рамочное соглашение на оказание периодических услуг оцифровки.

Перевод в электронный вид больших ретроспективных массивов своими силами экономически не обоснован: помимо закупки оборудования и обучения сотрудников, потребуются значительные трудовые и временные затраты. Однозначно эффективнее заказывать услугу, так как крупная компания может выделить большой штат и решить задачу оперативно.

Где сканировать документы?

Определяющий параметр — востребованность сканируемых документов.

Влияет ли на деятельность организации изъятие документов на время сканирования? Особенно это критично при оцифровке документов, к которым регулярно обращаются сотрудники, либо которые могут быть внезапно запрошены контролирующим органом, а также для устранения связанных с документами ЧП. Примеры: финансовые и кадровые документы, техническая и эксплуатационная документация, книги ЗАГС и другие отраслевые фонды.

Участок сканирования, организованный в помещениях компании-заказчика услуг.

Если необходимо оцифровать их достаточно быстро, то традиционным подходом является заказ услуг с выездом бригады сканирования на вашу территорию.

Зачастую это оказывается дешевле, чем доставлять документы на производство исполнителя и обратно, но все определяет территориальная удаленность.

Регламент выездных работ подразумевает сканирование выданного дела в течение одного-двух рабочих дней, без длительного изъятия из рабочего процесса.

Расшивать ли документы?

Определяющие параметры: состояние документов и возможность расшивки. Если есть такая возможность, и бумага пригодна для протяжки документным сканером, то следует расшивать.

Дело в том, что сканирование сшитых документов на планетарном (книжном) сканере в несколько десятков раз медленнее потоковой оцифровки. Пропорционально увеличиваются время работ и стоимость труда.

Сканирование на документных сканерах, даже с учетом расшивки, оперативнее и дешевле.

Расшивать можно самостоятельно, а можно доверить это исполнителю.

Расшивать можно самостоятельно, а можно доверить это исполнителю: если выбрана авторитетная компания, опасаться утраты документов не стоит.

Наоборот, жесткая регламентация всех процессов и качественные материалы позволяют компаниям застраховаться от дополнительных финансовых потерь и ущерба имиджу.

Этому подходу доверяют даже российские суды: при организации сканирования обычно внутренним приказом разрешается расшивка и последующая сшивка судебных дел.

К слову, крупные компании параллельно могут провести профессиональную архивную обработку: во-первых, часть работ итак выполняется при подготовке к сканированию, во-вторых, архивная обработка помогает выявить невостребованные документы и сократить объемы сканируемых массивов, что может снизить стоимость работ.

Какое качество выбрать?

Определяющие параметры: вид документа и объем получаемого ресурса в электронной форме. Сегодня сканирующее оборудование позволяет получать образы с разрешением от 200 до 1200 точек на дюйм (dpi).

Для художественных произведений обычно применяется разрешение 400–600 dpi, позволяющее создавать высококачественные репродукции.

Более высокое качество используется только при необходимости увеличения изображения и детализации мелких предметов, например, монет.

Сегодня высококачественно можно отсканировать любой объект: от маленькой библиотечной карточки до карт формата 8А0 и театральных декораций.

Детализированные и неконтрастные чертежи, часто выполненные на кальке и синьке, нуждаются в сканировании с разрешением 300-400 точек на дюйм и дополнительной обработке изображений в графических редакторах.

Остальные документы обычно сканируются с разрешением 300 dpi, достаточным для распечатки копий без потери качества. Необходимая обрезка изображений, геометрическое исправление, цветокоррекция, конвертация в форматы pdf, tiff, jpegи др.

может проводиться в полностью автоматическом режиме программами, встроенными в сканирующее оборудование или поставляемыми вместе с ним.

В большинстве случаев используется цветной режим съемки.

Это нужно для всех документов, в которые вносились исправления или ставились печати поверх текста, для удостоверения того, что электронная копия снималась с оригинала документа с печатью и подписью, а также для читаемости угасающих текстов и передачи уникальных особенностей оригинала.

Необходимость цветного сканирования художественных произведений не обсуждается. Режим «градации серого» применяется лишь в некоторых случаях: когда документы не содержат цветных атрибутов, либо когда необходимо сократить объем получаемого электронного ресурса.

Сканирование может осуществляться самостоятельно.

Главной задачей становится обучение сотрудников правильной работе со сложной техникой, так как качество получаемых изображений важно для последующего индексирования: плохо отсканированный документ, тени, засветка и другие дефекты на электронном образе могут сделать нечитаемой важную информацию. Это не позволит применить технологии автоматического извлечения данных и может привести к ошибкам в индексировании. Загрузка ошибочных данных в некоторые системы (государственные реестры, бухгалтерские учетные системы) не позволительна.

Индексирование

Простое сканирование применяется редко, поскольку при последующей работе искать информацию в наборе графических файлов будет лишь немногим проще перелистывания бумаги. Для возможности поиска необходимо выделить в документе несколько атрибутов (индексных полей).

Сотрудники, задействованные в массовом индексировании документов методом ручного ввода.

Выделенные атрибуты можно внести в имя файла. Такая практика сложилась в российских судах: для того чтобы оператор сканирования не имел доступа к внутренним системам суда, при оцифровке все необходимые реквизиты вносятся в имя файла. В последующем эти реквизиты распознаются системой судопроизводства при загрузке каждого документа по отдельности.

Но обычно оцифрованные документы загружаются в информационную систему группой, что требует создания базы данных. Так, если необходимо прикрепить документ к уже существующей карточке в учетной системе, бывает достаточно извлечь пару однозначно определяющих его реквизитов — обычно номер и дату.

Если же нужно сформировать поисковую базу на основании самих документов, то объем извлекаемых данных определяется задачей: от пары реквизитов для поиска файла в электронном архиве до переноса всей значимой информации в аналитическую БД (ФИО, адресов, ИНН, КПП, дат, номеров документов-приложений и т.д.).

Свои правила индексирования применяются в музеях, библиотеках и архивах при оцифровке единиц хранения и учетных документов. Отдельным направлением услуг также является векторизация, которая применяется, в частности, при оцифровке каротажных лент (автоматическая) и чертежей (ручная отрисовка в CAD-системах).

Сколько данных извлекать? Ответ на этот вопрос также лучше получить, воспользовавшись экспертизой, так как количество извлекаемых реквизитов зависит от функциональной задачи и в значительной мере определяет стоимость оцифровки.

В некоторых случаях можно ограничиться подборками документов, когда электронные образы объединяются под эгидой основного документа (например, договора или реестра счетов).

В других необходимо извлечение всех содержащихся в документе данных для заполнения карточки информационной системы.

Примеры извлекаемых данных

Анализ размещенных на портале zakupki.gov.ru заказов компаний с государственным участием и госучреждений (44-ФЗ, 223-ФЗ), показывает, что:

  • Для привязки электронных копий ОРД к системе электронного документооборота достаточно номера, даты и типа документа.
  • Сканирование финансовой документации часто сопровождается извлечением номера, даты, наименований и реквизитов плательщиков, сумм.
  • Оцифровка архивных документов муниципалитетов (постановления администраций, горисполкомов, сельсоветов и т.д.) в целях оказания услуг и инвентаризации объектов земельно-имущественных отношений требует извлечения номера и даты документа, всех встречаемых ФИО и адресов. Причем адреса необходимо сопоставлять с текущими справочниками КЛАДР/ФИАС.
  • Оцифровка документов Архивного фонда РФ сопровождается строгим заполнением НСА и описанием фондов в соответствии с архивным законодательством.
  • Индексирование описей и реестров подразумевает распознаванием всех порядковых записей.
  • Для работы с чертежами в электронном виде необходимо извлечь практически все поля штампа.
  • Сканирование составных дел требует не только извлечения реквизита каждого документа, но и установления взаимосвязей. Наиболее сложен случай конструкторской документации, где формируемая база данных обладает многоуровневой иерархией и связями документов.

Источник: zakupki.gov.ru, 2015

Какие методы извлечения данных выбрать?

Определяющий параметр — качество текста. Применяемые технологии, скорость и стоимость формирования баз данных зависят от того, как написан и в каком состоянии находится текст документа.

Напечатанный на современном принтере текст может быть автоматически распознан, необходимые данные могут быть извлечены с использованием различных автоматизированных методов: применением шаблонов и автоэкстракцией индексов (алгоритмы определения ключевых слов, семантического анализа и т.д.). Эти методы быстрые, и в большинстве случаев их стоимость ниже цены ручного распознавания.

Напечатанные необычным шрифтом, в низком качестве или поврежденные тексты книг, газет, архивных документов распознаются не всегда или с недостаточной точностью.

Поэтому в большинстве случаев требуется ручной ввод или, по крайней мере, ручная проверка сведений.

Предварительно для каждого ресурса формируются или подключаются внешние справочники, которые помогают операторам индексирования и значительно ускоряют процесс.

Документы с рукописным текстом индексируются только вручную. Это гораздо более медленный и дорогой процесс.

Поэтому крупные компании применяют уникальные технологии, служащие ускорению обработки и, соответственно, снижению цены без потери качества.

Показателен пример официальной переписки: в этих документах традиционно реквизиты печатаются, а номер и дата проставляется вручную по факту, что делает невозможным полноценное программное индексирование.

Можно ли провести индексирование самостоятельно?

Самостоятельное индексирование возможно, причем как ручное, так и автоматизированное. Но есть ограничения. Программу распознавания текста приобрести легко.

Настроить извлечение данных сложнее: для формализованных (например, счет-фактура) и условно структурированных документов (например, договор) нужно программирование форм — мест и алгоритмов определения требуемых реквизитов.

Однако программы стоят денег: распознавание текста обычно тарифицируется полистно (лицензия), а за создание шаблонов форм придется заплатить отдельно. Поэтому при оцифровке большого количества видов документов (около 40) стоимость этого метода сравнивается со стоимостью ручного индексирования.

Можно также вносить данные напрямую в информационную систему. Однако этот способ связан с высокой вероятностью ошибок, отследить которые в системе крайне сложно. При самостоятельном индексировании рекомендуется сначала создавать определенную базу данных, которую перед загрузкой можно проверить.

Альтернативой является технология извлечения данных с помощью анализа текста, применимая для любых документов, в том числе неструктурированных. Этот метод зачастую более доступен по цене, но предлагается только парой крупных компаний, так как требует накопления серьезной семантическо-морфологической базы для каждой отрасли деятельности.

Именно так работают специализирующиеся на оцифровке компании: жесткая регламентация процесса, с протоколированием всех действий, и обязательная проверка сформированного массива ОКК позволяет минимизировать количество возможных ошибок. Например, корпорацией ЭЛАР в официальных договорах и контрактах используется стандартный критерий качества ≥99,8%. Теме выборы критериев качества будет посвящена одна из следующих статей.

Решим вашу задачу

Просто заполните форму. Для вас: оперативная обработка запроса,
качественная экспертиза, скидки за комплексные услуги и многое другое.

Возврат к списку

Источник: https://wescan.ru/vse-ob-otsifrovke/tekhnologii/chto-takoe-otsifrovka/

Перевод бумажной документации в электронный вид

Способы перевода документов в электронный вид

Марина Авдеева, Анатолий Чиркин

Опыт работы

Технические средства

Наш опыт

Опыт работы

Перевод бумажных архивов в электронную форму интенсивно осуществляется на предприятиях во всем мире. Не осталось в стороне и Комсомольское-на-Амуре авиационное производственное объединение (КнААПО). Четыре года назад для централизованной обработки документов был создан участок перевода информации в электронную форму (участок сканирования).

Работая в тесной связи с подразделениями объединения (отделы главного конструктора, главного технолога, главного метролога, планово-экономический отдел, сектор стандартизации, цеха основного и вспомогательного производства, бухгалтерия, отдел кадров и многие другие), он перевел в электронный вид более 200 тыс. листов бумажных документов формата А4.

ЛВС — локальные вычислительные сети, КВС — корпоративные вычислительные сети. Технология перевода документов в электронную форму

Подразделения, воспользовавшиеся нашими услугами, освобождаются от рутинного труда, связанного с большими затратами времени и требующего освоения программных продуктов, которые могут им в дальнейшем и не понадобиться. Процесс перевода документации в электронный вид регламентируется временным положением, действующим на предприятии.

https://www.youtube.com/watch?v=FNNYrl8I5u8

Все необходимые сведения заносятся в карту заказа, которую с помощью инженера по АСУП участка сканирования заказчик заполняет при сдаче документов на обработку. В карте заказа указываются параметры форматирования, имена файлов и каталогов, особенности обработки и адреса хранения готовой электронной формы.

Сегодня мы предлагаем заказчикам следующие виды электронных документов:

• качественные копии бумажной технической документации, доступные для редактирования в графических редакторах (*.tif, *.jpg и др.);

• чертежи в формате AutoCAD (*.dwg);

• эскизы векторного качества для приложений Windows и баз данных в виде метафайлов Windows (*.wmf);

• книги Microsoft Excel (*.xls);

• Web-страницы (*html);

• документы, подготовленные для печати на типографском оборудовании в формате Adobe Acrobat (*.pdf) и т.д.

Кроме того, мы размещаем информацию в базах данных корпоративной сети предприятия. Таким образом, заказчики, сдав в обработку бумажные документы (зачастую ветхие и плохого качества), получают их электронные аналоги, доступные целой группе пользователей.

Стимулом к созданию участка стала потребность сопровождать изделия на экспорт документами в электронном виде. Первыми заказами, выполненными участком сканирования, были технологические карты и руководства по эксплуатации изделий, послужившие основой для создания интерактивных электронных технических руководств.

На создание первых книг общим объемом 10 тыс. листов формата А4 конструкторам и технологам понадобилось бы (по их собственным подсчетам) около полутора лет, но благодаря новой технологии эта работа была выполнена за три месяца.

Окно базы данных Scandoc, форма Книги, вкладка Регистрация

Сегодня производительность участка составляет около 6 тыс. листов формата А4 в месяц. Количество обработанной документации зависит от качества оригинала и выбранной технологии.

Разработаны технологические процессы разной сложности: например, перевод в электронный вид Документ Microsoft Word простых текстов без рамок форм имеет сложность 1, а перевод чертежей в электронный вид Рисунок AutoCAD — сложность 4.

Благодаря систематическому обучению персонала поддерживается высокая квалификация специалистов, что позволяет создавать качественные электронные версии различных документов.

Поступающие на обработку документы регистрируются в специальной базе данных Scandoc. В ней содержатся сведения о заказчиках и исполнителях работы, технологическом задании, сроках выполнения, адресах размещения электронных версий документов в корпоративной сети и т.д.

Технические средства

Первые работы по переводу в электронный вид были выполнены нами на сканерах Vidar TruScan Select с помощью программы TruInfo.

Эти сканеры и сегодня продолжают исправно работать, позволяя выполнять сканирование на отдельных листах в черно-белом изображении шириной от 150 до 965 мм и длиной до 10 м.

Возможность подбора различных настроек монохромного сканирования в программе TruInfo, удобный интерфейс с укрупненным просмотром сканируемого изображения, небольшой размер конечного файла в формате tif CCIT Group4 — основные преимущества программы TruInfo.

В то же время были и определенные трудности. Например, нарушение выравнивания камер сканирования требовало полной переустановки программы TruInfo с получением от фирмы-поставщика нового кода авторизации. Неудовлетворительный результат на этих сканерах дает и сканирование в режиме Grayscale.

Для сканирования книг, технических журналов и сшитых документов, формат которых не превышает А3, мы с успехом используем цветные планшетные сканеры Paragon 1200 A3 SP PRO.

Чтобы сканировать цветные документы большого формата, иногда очень плохого качества, мы приобрели широкоформатный цветной сканер Contex с программным обеспечением RasterID, которое предлагает различные варианты настроек, благодаря чему можно повысить качество сканирования. Положительные отзывы получила автоматизация процессов обработки. Кроме того, программа поддерживает технологию ActiveX, что еще больше расширяет наши возможности.

Наш опыт

Для большинства документов хорошее качество изображений при небольших размерах файлов обеспечивает сканирование с разрешением 300 dpi. Сканирование калек, мятых и разорванных чертежей удобно проводить при помощи специальных прозрачных пакетов, приобретенных нами у компании Consistent Software.

Быстро и качественно сканируются документы, обладающие высоким контрастом, сочностью цвета, однородностью и постоянной плотностью. В этом случае оцифрованное изображение занимает незначительный объем дисковой памяти и практически не требует дальнейшей обработки. К сожалению, процент таких документов невысок (около 30%).

Участок сканирования КнААПО

Для других документов получение качественного растра требует времени. При обработке такого документа используются разработанные компанией Consistent Software программные продукты серии Raster Arts.

С программами RasterDesk Pro и Spotlight Pro мы работаем начиная с третьей версии и считаем их наиболее эффективными для улучшения качества монохромных растровых изображений.

В четвертой версии появилась возможность выбора растровых объектов, что позволяет редактировать растр, применяя привычные методы работы с вектором.

Длительное время мы, руководствуясь пожеланиями заказчиков, обрабатывали чертежи, сохраняя их либо в растровом, либо в векторном виде, однако сегодня считаем, что пора переходить к гибридным чертежам, так как работа с ними наиболее целесообразна для быстрого создания электронных архивов. Действительно, вряд ли имеет смысл перерисовывать в AutoCAD качественные растровые фрагменты!

В программе Spotlight есть и весьма полезный режим пакетной обработки, позволяющий обрабатывать пакет растровых файлов без участия оператора. Правда, этот прием можно применять только для изображений одинакового качества.

Для чертежей плохого качества быстрее получить векторную копию растрового оригинала средствами CAD-программ, чем проводить очистку сильно загрязненного растра. Программы Raster Arts позволяют автоматически векторизовать растровые объекты, однако мы эту возможность используем редко, так как выполняем работу для разных подразделений предприятия.

Настройка параметров векторизации на разные виды часто меняющихся чертежей требует существенных временных затрат.

Конечно, при больших объемах однотипных чертежей более целесообразно подобрать параметры векторизации, сохранить их в виде шаблонов и автоматизировать процесс перевода документации в электронный вид, но это требует участия специалистов подразделений, которые пока делают лишь первые шаги в освоении программ серии Raster Arts.

Обычно мы используем метод сколки: вставляем растр в рисунок AutoCAD в виде ссылки в масштабе 1:1, а затем средствами инструментов панели рисования получаем векторную копию растрового оригинала.

Для работы с цветными документами (мы сканируем в цвете документы очень плохого качества) RasterDesk 5 и Spotlight 5 также предлагают набор инструментов, но их применение требует больших ресурсов памяти, которые есть не на всех рабочих местах, поэтому обработка таких документов замедляется.

Цветные документы в Spotlight можно преобразовать в монохромные при помощи программы Color Image Processor и далее воспользоваться инструментами, улучшающими битональные изображения.

Качественные тексты хорошо распознаются большинством OCR-программ и требуют минимальной обработки.

Для текстовой документации плохого качества, которую и прочитать-то трудно, сканирование и распознавание применять нецелесообразно. Предпочтительнее ручной набор информации (время на сканирование, распознавание и редактирование может оказаться больше, чем на ручной набор).

Информацию в электронном виде мы формируем так, чтобы при просмотре на экране компьютера ее расположение было удобным для пользователя. Листы с книжным расположением информации должны иметь книжную ориентацию, а с альбомным расположением — альбомную. При выводе на печать соответствие бумажному оригиналу сохраняется путем настройки параметров принтера.

Слои рисунка AutoCAD

При наличии в бумажном оригинале технической документации символов, написанных или нарисованных от руки, мы определяем для них вариант замены из таблицы символов или используем качественно нарисованное электронное изображение данного символа.

Для рисования желательно выбирать векторный редактор и отслеживать, чтобы в электронной версии один и тот же символ не обозначался разными знаками. Для этого необходимо создать единую библиотеку символов предприятия.

В бумажной документации 70-80-х годов символы чаще всего вписывались от руки, в результате чего один и тот же символ мог иметь разное написание. В Windows одни и те же символы в разных шрифтах также различаются.

При выборе того или иного варианта, наряду с внешним видом, нужно учитывать наличие соответствующего шрифта на компьютерах предприятия и в выбранной программе. Например, не все знаки, написанные в Microsoft Word (*.doc), будут отображаться в рисунке AutoCAD (*.dwg) или в таблицах баз данных.

Отсюда возникает проблема: установку программного обеспечения и настройку компьютеров предприятия необходимо проводить так, чтобы одни и те же документы смотрелись на всех машинах одинаково и желательно в соответствии со стандартами на электронные документы.

Инженеры Марина Авдеева и Анатолий Чиркин

Для CAD-программ необходимо использование (создание) типов линий по ГОСТ, единство текстовых и размерных стилей, систем слоев, выработка единых принципов формирования и сохранения чертежей (особенно при применении гибридных технологий). Мы, например, для удобства работы в AutoCAD выбрали светло-серый цвет экрана.

Основной шрифт, принятый для использования на предприятии, — GOSTW. Но многие подразделения начали использовать AutoCAD раньше, чем были предприняты попытки стандартизации данного процесса.

Как следствие, появился большой объем электронных чертежей с разнообразными настройками, удобными для конкретных пользователей.

В результате сегодня существует большое количество текстовых и размерных стилей, типов линий и т.д.

Ряд проблем возникает при переводе в электронный вид текстовых документов, оформленных по ГОСТ. Текстовую часть документа нередко требуется поместить в рамки форм. Однако создать универсальные рамки, которые полностью печатаются на любом принтере и при этом удовлетворяют требованиям стандартов, — трудная задача.

Эту проблему можно решать по-разному. Создано много вариантов рамок в Word, Excel, в растровых и векторных редакторах. Но обидно тратить на это время, да еще и подгонять результат под параметры принтера.

Кроме того, нужно ли сохранять рамки для электронного вида? Можно, конечно, установить на все компьютеры специализированное программное обеспечение для работы с отсканированными формами, но насколько это целесообразно?

Благодаря тесному сотрудничеству с компанией Consistent Software мы всегда в курсе ее новых разработок. (К сожалению, не со всеми интересующими нас фирмами удалось достичь столь тесного контакта.

) Из перспективных разработок Consistent Software нас заинтересовала программа PlanTracer. Она предоставляет просто фантастические возможности для создания трехмерных чертежей из растровых рисунков.

Хотелось бы попробовать ее на планировках наших зданий. Быть может, недалек и переход к моделям?

Надеемся, что с помощью таких партнеров, как Consistent Software, мы сможем более профессионально решать проблемы, возникающие в процессе работы.

«САПР и графика» 1'2004

Источник: https://sapr.ru/article/6755

Адвокат Заневский
Добавить комментарий