Собственное пространство данных

Alan
Сообщения: 14
Зарегистрирован: Вт апр 08, 2008 9:26 am

Собственное пространство данных

Сообщение Alan » Вт апр 08, 2008 9:50 am

Собственное пространство данных
Никитин М.В.

В современном мире в той или иной степени с информацией связан любой род деятельности. Не зря наш век называют информационным. Логичным является также и то, что все более значимую роль в нашей жизни играют информационные технологии.

По определению из Википедии – популярной Интернет-энциклопедии (ru.wikipedia.org), информационные технологии (ИТ) – широкий класс дисциплин и областей деятельности, относящихся к технологиям управления и обработки данных вычислительной техникой. Обычно под информационными технологиями понимают компьютерные технологии. В частности, ИТ имеют дело с использованием компьютеров и программного обеспечения для хранения, преобразования, защиты, обработки, передачи и получения информации. Специалистов по компьютерной технике и программированию часто называют ИТ-специалистами.

Не существует точного общепринятого определения термина информация. Различные предметные области по-разному трактуют данное понятие. По законодательству РФ – информация – это сведения о лицах, предметах, фактах, событиях, явлениях и процессах независимо от формы их представления.

Зачастую пользователи не разделяют сам компьютер и программы, с помощью которых они решают те или иные задачи, так же как не разделяют понятия информация и данные. Данные – это некое формализованное представление фактов и идей. Информацией данные становятся в представлении субъекта, т.е. индивида. Работая с компьютером, мы обмениваемся с ним данными, полученные данные затем в нашем сознании превращаются в информацию.

В работе мы используем данные различной природы, полученные из различных источников. При этом мы все хотим видеть в компьютере помощника, но никак не источник проблем. Тем не менее, проблем избежать не удается. Бурное развитие современного общества влечет за собой экспоненциальный рост объема данных, используемых людьми в своей деятельности, что неизбежно сказывается на сложности компьютерных систем, которая также неуклонно возрастает. В современном «информационном» мире неспециалисту достаточно сложно разобраться в сути процессов, связанных с обработкой и передачей данных.

Кроме того, в борьбе за совершенство технологий специалисты зачастую забывают о роли самого пользователя в системе отношений «человек-компьютер», в результате чего наиболее «продвинутыми» информационными системами могут пользоваться только сами ИТ-специалисты. Для обычного пользователя компьютер становится источником проблем, связанных с необходимостью изучать непростые методы работы с различными компьютерными системами, которые по идее должны как раз облегчать жизнь, но никак не усложнять ее.

Несмотря на то, что современные компьютеры умеют очень многое, для рядового пользователя базовыми остаются самые простые функции – ввод, запрос и вывод (просмотр) данных. Для ввода данных мы используем мышь, клавиатуру и различного рода редакторы (текстовые, табличные), для просмотра монитор, принтер и те же редакторы, а также браузеры. Запрашиваем данные мы с помощью различных видов поиска. В зависимости от специализации используются те или иные программные продукты, связанные с вычислениями и расчетами.

Для каждого человека, который использует персональный компьютер либо в своей профессиональной деятельности, либо каких-то других нужд вопрос организации собственного пространства данных стоит достаточно остро. Благодаря развитию сетей с помощью компьютера мы можем получить доступ к огромным массивам данных, и разумеется все они нам не нужны. Большинство пользователей в своей работе используют достаточно ограниченные наборы данных, которые варьируются в зависимости от сферы деятельности.

В принципе, для эффективной организации собственного пространства пользователь должен иметь возможность:

1. Выбирать источники данных.
2. Задавать критерии отбора данных из источников по различным критериям.
3. Сохранять отобранные данные в собственных базах данных.
4. Просматривать, редактировать и преобразовывать собственные данные с помощью различных механизмов работы с данными.
5. Сохранять сценарии обработки данных для последующего использования.
6. Обмениваться данными с другими пользователями.

Рассмотрим данные возможности более подробно.

1. Выбор источников данных.

Данные могут запрашиваться из любых доступных источников. Это может быть Интернет, файловые источники (локальные и сетевые), структурированные базы данных и т.д. При этом можно брать не весь источник, а только его часть, предварительно ограничивая массив доступных для отбора данных. Например, не весь локальный диск, а только папку, не весь Интернет, а только определенный сайт, не всю базу данных, а только определенную таблицу.

2. Отбор данных из источников.

Для отбора данных в первую очередь понадобится достаточно мощный и функциональный механизм поиск. Пользователь должен иметь возможность запрашивать все, что угодно, как по ключевым словам, так и с помощью различных средств интеллектуального поиска.

3. Сохранение результатов отбора.

Отобранные данные необходимо сохранить, причем уже на этом этапе пользователь должен иметь возможность провести предварительную структуризацию добытых данных. Для этого пользователю предоставляется возможность создавать структурированные наборы – базы данных, с помощью которых в соответствие своим представлениям он может задавать структуру сохраняемых данных. По желанию пользователя базы данных могут быть определенным образом проиндексированы для упрощения дальнейшей работы с ними.

4. Работа с данными.

Сохраненные данные нужно обработать. Для этого пользователю необходим полный набор возможностей по работе с данными, включая поиск, просмотр, редактирование и преобразование. Работать можно как с отдельными элементами базы данных, так и с самими базами данных, применяя к ним различные операции преобразования, связанные с вычислениями, объединениями, сравнениями и т.п. Преобразованные базы данных также сохраняются.

5. Сохранение сценариев.

Вся проделанная работа по нахождению решения должна сохраняться в виде процедуры, с помощью которой в будущем можно проанализировать выполненную работу. Процедуры позволят впоследствии рассмотреть решение в поиски возможных альтернатив, обобщить результаты, использовать для решения аналогичных задач.

6. Обмен данными.

Для обмена данными должны использоваться различные механизмы, как то: архивирование и передача по сетям, выгрузка во внешний формат, публикация и т.д.

Может возникнуть вопрос, а зачем, собственно говоря, все это нужно? Разве не достаточно стандартных средств работы с файлами, документами, Интернетом, зачем городить еще что-то, если того, что есть, вполне достаточно для решения текущих задач.

Рассмотрим вопрос, для чего используются данные. Данные нужны человеку в первую очередь для принятия решений. Чем более полный и актуальный объем данных в его распоряжении, тем результативнее будет работа по выработке решения. Необходимо заметить, что рост объемов данных приводит к значительно большим затратам времени на их обработку. В настоящее время без оптимизации структуры используемых данных человеку практически невозможно за приемлемое время изучить и обработать весь необходимый массив данных. А от скорости реакции напрямую зависит эффективность принятых решений, т.е. будет ли актуально принятое решение в тот момент времени.

Кроме того, при принятии сложных решений практически всегда используются неоднородные данные, поступившие из различных источников и в различные периоды времени. Для анализа таких данных также требуются значительные затраты времени, поскольку информацию нужно сопоставлять, приводить к единому виду, перекодировать, а уже потом анализировать.

В больших объемах данных зачастую скрыты завуалированные связи, для нахождения которых могут потребоваться сложные вычисления, сравнения или поиск.

С наибольшими трудностями пользователь сталкивается, когда решение необходимо принимать в реальном времени, т.е. когда анализируются потоки данных. При этом нет времени на то, чтобы предварительно сохранить и как-то обработать данные, информацию нужно получать одновременно с поступлением данных.

В современном мире, стремящемся к глобализации отношений, период между поступлением данных и принятием решения неуклонно сокращается. Все больше процессов требует анализа в режиме реального времени, когда любая задержка является критической. И в таких ситуация без помощи эффективного инструментария обработки данных, построенного на информационных технологиях человеку не обойтись.

Самый ценный ресурс, за который идет битва в современном мире глобальной конкуренции – это время принятия решений. Преимущество получает тот, у кого это время меньше.

Собственное пространство данных позволит пользователю самостоятельно распределять свои временные ресурсы. С использованием процедур появляется возможность многократно использовать собственный труд, затраченный на поиск решения в аналогичной ситуации, обобщать и анализировать собственный опыт, обмениваться им с другими пользователями.

В итоге мы должны получить возможность экономить собственное время, затрачиваемое на принятие сложных решений с большим числом неизвестных. А для этого нам нужны механизмы структурирования, агрегирования, эффективного поиска и анализа данных, которые и должно предоставлять собственное пространство данных.