Петабайт - сколько это информации? Правильные названия согласно решению Международной электротехнической комиссии.

В 2014 году расположенная в Санкт-Петербурге Президентская библиотека - первое в России уникальное электронное хранилище электронных книг, документов и кино-, видео-, фотоматериалов - отметила первый юбилей, пять лет с момента открытия. На "деловом завтраке" в петербургской редакции "Российской газеты" генеральный директор библиотеки Александр Вершинин подвел некоторые итоги "пятилетки" и рассказал о планах на 2015 год.

Александр Павлович, какими фондами вы располагаете сейчас?

Александр Вершинин: В конце года у нас уже более 370 тысяч единиц хранения. Примерно половина из них - это книжные источники, остальное - архивные документы. Мы учитываем отдельные сканы - это фактически цифровая фотография одной страницы, но в единице хранения их может быть и две, и двадцать, и двести, и больше. Сейчас у нас около 40 миллионов таких сканов. Они занимают 550 терабайт компьютерной памяти в электронном хранилище на Сенатской площади, и тот же объем данных дублирован в резервном хранилище в Москве.

Еще 150 терабайт составляет текущий видеоконтент Президентской библиотеки. Мы записываем все свои мероприятия, снимаем и показываем документальные фильмы, отбираем фрагменты кинохроники из разных источников, в том числе в Госфильмофонде.

Главным технологическим новшеством 2014 года является ленточная технология хранения данных. Использование стримеров позволило нам увеличить объем хранилища до 2,5 петабайт (1*10 в пятнадцатой степени - РГ). Сейчас мы начали организовывать и облачное хранение. Это пока эксперимент, и его особенность в том, что мы будем создавать это пространство самостоятельно и не планируем размешать информацию на серверах других учреждений и тем более других стран.

Насколько защищено ваше хранилище?

Александр Вершинин: Для нас безопасность - одно из главных условий сохранения контента, в том числе с помощью резервного хранилища. Ведь ежедневно на портале Президентской библиотеки в последнее время бывает 7 - 9 тысяч пользователей.

Хакеры нас пока серьезно не беспокоили. Чаще всего проблемы возникают по прозаическим причинам, прежде всего это перебои с электричеством и перепады напряжения.

Вот уже третий год Президентская библиотека проводит Всероссийскую интерактивную школьную олимпиаду. Насколько активны новые регионы - присоединившиеся к России в 2014 году Крым и Севастополь?

Александр Вершинин: В этом году в Олимпиаде участвуют все 85 регионов страны, в том числе "новенькие". По количеству участников Крым сейчас второй, Севастополь - на 19 месте, и это отличные показатели.

Вообще в этом году число желающих принять участие выросло в два раза по сравнению с 2013 годом. Кроме того, олимпиада стала международной: у нас есть ребята из Белоруссии, Казахстана, Молдавии, отдельно могу назвать Донецк и Харьковскую область.

Традиционно первые два тура проходят дистанционно, третий тур - в очном формате: на Западе в Петербурге и на Востоке в нашем филиале в Тюмени. В стадии обсуждения идея Южной очной конференции.

Первым зарубежным партнером Президентской библиотеки была библиотека Конгресса США. Что изменилось в совместной работе на фоне нынешней геополитической обстановки?

Александр Вершинин: С библиотекой Конгресса мы действительно подписали самое первое соглашение. Во многом она была для нас примером, поскольку это тоже не обычная национальная библиотека: она также работает в сфере государственной власти, как и мы. Кроме того, вначале многое было основано на западных технологиях. У библиотеки интересная история, связанная с Россией. Мы участвуем также в международном проекте библиотеки Конгресса "Всемирная цифровая библиотека".

Что касается российско-американской группы по библиотечному сотрудничеству, то ее возглавляли два сопредседателя - директор Библиотеки Конгресса США Джеймс Биллингтон и тогда управляющий делами президента России Владимир Кожин. Мы работали довольно активно, а потом вдруг настало время так называемых санкций. Они стали препятствием на пути взаимодействия в рамках комиссии. Впрочем, последнее приглашение в США мы получили совсем недавно - принять участие в декабрьском мероприятии, по иронии судьбы связанном с проектом, который назывался "Открытый мир".

В будущем нам надо стать прагматичнее, точнее определять правовые условия информационной деятельности. Мы начали, например, обмен звуковым и визуальным контентом. По просьбе американцев, в Библиотеку Конгресса были переданы электронные копии немых фильмов, которые были найдены в России. Нашли кинохронику о России и в американских архивах. Но мы пока стали лишь официальными обладателями коллекции фотодокументов Прокудина - Горского, основоположника цветной фотографии в России. Однако еще раньше эта коллекция была размещена в глобальной сети и стала общественным достоянием. Поэтому обмен "красивыми жестами" оказался не совсем равнозначным…

С какими еще странами установлено сотрудничество?

Александр Вершинин: В условиях информационной войны мы продолжим международное взаимодействие несмотря на искаженное понимание "открытого мира" в головах тех, кто запрещает или ограничивает деятельность наших средств массовой информации, журналистов, деятелей культуры. В настоящее время действует около двадцати двусторонних соглашений Президентской библиотеки с учреждениями культуры других стран. Например, с библиотеками Азербайджана, Белоруссии, Казахстана, Китая, Кореи, Украины, Чехии. Рассчитываем на продолжение сотрудничества с архивами, библиотеками и музеями Германии. В октябре 2014 года мы подписали соглашение с известным Сеульским киберуниверситетом. В Республике Корея информационные технологии, киберкультура и дистанционное образование находятся на самом высоком уровне. Мы будем также и далее открывать электронные читальные залы в Российских домах культуры и науки, а также в зарубежных учреждениях культуры и образования.

Вопрос в преддверии 70-летия Великой Победы: будут ли специальные проекты, открытия и расследования?

Александр Вершинин: Коллекция, посвященная Великой Отечественной войне, появилась еще к 65-летию, одной из первых. Сейчас мы будем дополнять и улучшать ее, в частности, начали сотрудничество с Центральным архивом Министерства обороны. Будет, конечно, раскрыто много неизвестных документов и фактов. Будут специальные акции, интересные публикации и кинофильмы.
Планируются также памятные мероприятия, связанные с войной на востоке. Китайские коллеги из Чунцинской библиотеки уже предложили нам совместный проект, мероприятия пройдут в том числе в наших электронных читальных залах на Дальнем Востоке. Кстати, формирование постоянно действующей и взаимосвязанной межведомственной и межрегиональной сети Президентской библиотеки - один из приоритетов наступающего года.

Каким будет участие Президентской библиотеки в мероприятиях Года литературы, объявленного в России в 2015 году?

Александр Вершинин: С художественным словом и наша работа тоже должна быть связана, потому что просветительская, образовательная деятельность может быть основана не только на строгих логических понятиях, но и на образном мышлении, через которое любой человек постигает мир. Тем более, согласно закону, книга тоже считается документом.

Мы и раньше не оставались в стороне от художественных произведений. К примеру, к юбилеям наших писателей собирались отдельные специальные коллекции. В частности, к 200-летию Лермонтова в 2014 году был подготовлен тематический видеолекторий. С одной стороны это еще одна форма работы с видеоконтентом, а с другой - это обсуждение деятельности писателей, их произведений.
В будущем году мы планируем большую выставку, которая будет посвящена факту и образу истории в русской литературе. Думаю, что мы откроем ее в феврале, и экспозиция станет одним из элементов нового мультимедийного урока для школьников. В прошлом году урок был посвящен 20-летию Конституции России, в этом году - русской литературе.

Можно ли говорить о том, что одна из сфер деятельности библиотеки - это противостояние историческим фальсификациям?

Александр Вершинин: Мы храним материалы в качественных форматах: это такие электронные копии документов, в которые сложнее внести изменения, чем в обычные бумажные. Смысл нашей деятельности - беречь первоисточники, сохранять историческую память, организовывать широкий доступ к важнейшим документам, к фактам. Это больше, чем только противодействие фальсификациям и дезинформации. Помимо читального зала в здании на Сенатской площади, в Санкт-Петербурге, у нас уже 120 электронных читальных залов в России и 17 за рубежом. Мы работаем, чтобы в бурную информационную эпоху историческая память и культурное наследие являлись главными ориентирами развития в целом.

Сущ., кол во синонимов: 1 единица (830) Словарь синонимов ASIS. В.Н. Тришин. 2013 … Словарь синонимов

петабайт - Единица измерения емкости памяти, равная одному миллиону гигабайтов. Тематики информационные технологии в целом EN PBytepetabyte … Справочник технического переводчика

Измерения в байтах Десятичная приставка Двоичная приставка Название Символ Степень Название Символ Степень МЭК ГОСТ байт B 100 байт B … Википедия

Единицы измерения информации служат для измерения различных характеристик связанных с информацией. Чаще всего измерение информации касается измерения ёмкости компьютерной памяти (запоминающих устройств) и измерения объёма данных, передаваемых по… … Википедия

Запрос «GB» перенаправляется сюда; см. также другие значения. Измерения в байтах ГОСТ 8.417 2002 Приставки СИ приставки МЭК Название Символ Степень Название Степень Название Символ Степень байт Б 20 100 … Википедия

У этого термина существуют и другие значения, см. Byte. Байт (англ. byte) единица хранения и обработки цифровой информации; совокупность битов, обрабатываемая компьютером одномоментно. В современных вычислительных системах байт… … Википедия

Служат для измерения объёма информации величины, исчисляемой логарифмически. Это означает, что когда несколько объектов рассматриваются как один, количество возможных состояний перемножается, а количество информации складывается. Не важно,… … Википедия

Современный стример стандарта LTO и картридж к нему У этого термина существуют и другие значения, см. Стример (значения). Стример … Википедия

Измерения в байтах ГОСТ 8.417 2002 Приставки СИ приставки МЭК Название Символ Степень Название Степень Название Символ Степень байт Б 20 100 байт B Б 20 … Википедия

Книги

  • Открытые системы. СУБД №04/2018 , Открытые системы. В номере: Apache Ignite и машинное обучение Современные корпоративные информационные системы генерируют огромные объемы данных, которые сами по себе бесполезны, еслиих вовремя не обработать.… электронная книга
  • Журнал Computerworld Россия №19/2016 , Открытые системы. ComputerworldРоссия – ведущий международный еженедельник, посвященный информационным технологиям. В журнале вы найдете обзор важнейших событий ИТ-индустрии в России и в мире,материалы о новых…

Какие данные использует «Почта России»

Основу для «Директ-Мейл» составляет накопленная база знаний о домохозяйствах. В «Почте России» поясняют, что в процессе доставки заказов из интернет-магазинов и прочих отправлений, а также других типов взаимодействия с клиентами она становится обладателем уникальной информации о потребностях и интересах людей. Ключевым объектом при этом является домовладение (его почтовый ящик).


Существует достаточно широкая подгруппа «Дети», она разделена на подгруппы по полу и возрастным группам, в соответствии с особенностями развития ребенка. Еще одна важная группа - дистанционные покупатели. Они разбиты на подгруппы по приобретаемым товарам и услугам. Почта знает даже средний чек и выводит данные о доходах, сопоставляя информацию о частоте покупок и среднем чеке.

Касательно статуса «христианин» в «Почте России» объяснили, что в ее примерах приведены срезы данных со значимым количеством домовладений для продажи с последующей рассылкой. «Почте» известны и другие религии: мусульманин и иудей, но количество таких домовладений намного меньше.

Востребованной и нетипичной в плане привычных характеристик является группа признаков «Интерес», которая включает от одного до нескольких увлечений, присущих людям в домовладении: кулинария, садоводство, здоровый образ жизни, рукоделие и «сделай сам», коллекционирование, интерес к искусству, политике и др.

Жители мегаполисов могут счесть рекламу в почтовом ящике назойливостью, но в других регионах России она является чуть ли не единственной связью с большой страной, возможностью приобрести товары или реализовать свои потребности, что до сих пор не является равно доступно для всех, отмечают в «Почте России».

Техническая основа

Действующее решение, собирающее нужные данные для «Директ-Мейл», использует СУБД Microsoft SQL. На ней действуют аналитический инструмент Pentaho Suite и рабочий инструмент аналитиков («калькулятор») - разработка отечественной компании Manzana Group.

При этом у «Почты России» есть и хранилище на Hadoop - система под названием Data Cloud, куда сливается вся имеющаяся информация. Она является для директ-маркетинга одним из источников данных, но для непосредственной монетизации не используется.

По состоянию на начало 2019 года разрабатываются шины, которые позволят всем оперативно получать из Data Cloud данные. Но пока каждому департаменту для получения данных приходится делать специальный запрос, рассказывает Сергей Черкасов.

На момент создания нашей системы для «Директ-Мейл» хранилище Data Cloud строилось и накапливало данные, поэтому мы обращались к исходным системам-источникам, которые обеспечивают реализацию тех или иных услуг «Почты России» в местах продажи. Далее мы используем Data Cloud как один из источников при отборе из него информации по уже разработанным методикам и алгоритмам, отработанным на системах-источниках. В будущем планируем перейти на Data Cloud как основной источник данных, - говорит Черкасов.

2016: «Почта России» накопила 3,5 петабайта Big Data и научилась превращать их в деньги

В цитируемом письме указывается, что масштабы «Почты России», которую ежедневно посещают несколько миллионов клиентов, позволили ей накопить информацию «по всем домохозяйствам России (более 60 млн. домохозяйств)»: адреса, пол, семьи с детьми и без, интересы людей, такие как мода, рыбалка, красота и здоровье, наличие авто и многое другое.


«Почта России» многое знает о своих клиентах (источник фото - aif.ru)

В 2017 году, по словам Емельченкова, «Почта России» запускает подобный сервис еще и специально для среднего и малого бизнеса. В нем помимо Big Data используется также гео-таргетинг, за счет которого точечную рекламу можно рассылать еще и в привязке к каждому конкретному району. Апробация этого сервиса показала довольно неплохие результаты, говорит Емельченков: уровень конверсии из рекламы в покупку достигает 20%.

В 2015 году в «Почте России» заявляли, что рассчитывают получить долю в 70% российского рынка адресных рассылок к 2018 году и заработать на новом направлении бизнеса порядка 9 млрд рублей .

Помимо указанных примеров, собираемую информацию о клиентах «Почта России» использует также для создания новых продуктов и цифровых сервисов.

Заниматься развитием технологий Big Data «Почта России» начала около трех лет назад, но широко применять эти решения стала в 2016 году, говорит Сергей Емельченков. По состоянию на весну 2017 года объем собранных данных составляет порядка 3,5 петабайт.

Для точного восприятия внешнего мира человек придумал систему измерений. Мы научились измерить вес, скорость, длину и прочие характеристики. Развитие компьютерных технологий заставило нас считать еще и информацию. Сейчас ее количество выросло настолько, что для измерения объема необходима такая единица как петабайт. Сколько это составляет, мы и попытаемся разобраться.

Петабайт - сколько это?

Чтобы ответить на этот вопрос давайте сразу определимся, что речь идет о объеме перерабатываемой или хранимой информации. Наиболее употребляемой в наше время единицей стал гигабайт.

Размер физических накопителей информации, таких как флешки и жесткие диски компьютеров, указывается именно в этих единицах. Поэтому правильнее вопрос звучал бы следующим образом: «Петабайт, это сколько гигабайт информации?». Цифра получается довольно большая, это 1048576 ГБ или 1024 ТБ (терабайт).

Информация в физическом объеме

Полученная цифра в гигабайтах, конечно, впечатляет и даже дает какое-то наглядное представление, но все равно выглядит абстрактно. Так уж устроен человек, что ему все нужно с чем-то сравнить, чтобы понять и представить визуально. В равной степени это можно отнести и к входящей в петабайт.

Сколько это может быть в материальном виде, к примеру, в тех же книгах? Ведь размер книги все себе отчетливо представляют. Попробуем провести вычисления и ответить на этот вопрос. Принято считать, что страница текста содержит около 2,5 тысяч символов. Таким образом, книга в 400 страниц будет содержать 1 мегабайт информации. Тогда библиотека размером в один гигабайт должна будет содержать 1024 книги. Перемножая известные нам величины, получаем более одного миллиарда книг. Для сравнения, фонд самой известной в стране всего около 50 миллионов экземпляров. Итого, имеем почти 22 таких библиотеки, собранных в один петабайт.

Сколько это будет по площади занимаемого места? Площадь хранилища библиотеки составляет 8,5 гектар. Двадцать два таких здания займут площадь в 187 гектар земли. Вполне сравнимо с княжеством Монако, которое занимает всего 202 гектара.

Объем информации в интернете

Теперь, когда мы представляем, что такое петабайт и сколько это информации в физически измеримом объеме, мы уже можем представить массивы обрабатываемой в сети интернет информации.

Статистика Cisco Sistems дает нам возможно взглянуть на эти цифры, и они впечатляют. Совокупный трафик электронной почты и веб-сайтов составляет 260 ПБ в сутки, в то время, когда человеческий мозг может сохранить всего 1 ПБ за всю жизнь и при идеальных условиях.

Это заставляет задуматься о том, что делать с этим огромным потоком информации, как его обрабатывать и как правильно применить, чтобы оставить потомкам достойную память о нашем веке компьютерной революции.