Брацки Фермы — различия между версиями
Gary (обсуждение | вклад) (→Опытно Облако) |
Gary (обсуждение | вклад) (→Компоненты Ферм) |
||
Строка 25: | Строка 25: | ||
===Жизнеспособность прототипов=== | ===Жизнеспособность прототипов=== | ||
При том, что отказоустойчивость на является глобальным требованием ко всем частям инфраструктуры, любая часть жизнеспособного прототипа инфраструктуры должна быть:<ol type="a"><li>наблюдаемым средствами мониторинга,</li><li>восстанавливаемым в случае проблем,</li><li>связанным воедино, в частности, средствами SSO, и</li><li>обеспечивающим CDN и Geocast для основных приложений.</li></ol> | При том, что отказоустойчивость на является глобальным требованием ко всем частям инфраструктуры, любая часть жизнеспособного прототипа инфраструктуры должна быть:<ol type="a"><li>наблюдаемым средствами мониторинга,</li><li>восстанавливаемым в случае проблем,</li><li>связанным воедино, в частности, средствами SSO, и</li><li>обеспечивающим CDN и Geocast для основных приложений.</li></ol> | ||
+ | |||
+ | [[Деловы Кластер]] -- это отказоустойчивый ([[high availability]]) кластер (здесь и далее по тексту -- ''Кластер'') на основе трёх "физических" ([[bare metal]]) узлов (здесь и далее по тексту -- ''Желез'') [[Брацки Фермы|Брацких Ферм]] (здесь и далее по тексту -- ''Ферм''), который обеспечивает высокую доступность услуг, предположительно, [[Брацка Сетка|Брацкой Сетки]] и, возможно, других приложений, которые принадлежат [[Делово Бюро|Делово Бюро]]. | ||
+ | |||
+ | |||
+ | ==Инфраструктура== | ||
+ | |||
+ | ===Размещение=== | ||
+ | :[[Hetzner]] является поставщиком услуг размещения, у которого "Железо" арендуется. | ||
+ | |||
+ | ===Сеть инфраструктуры=== | ||
+ | :Три ''Железа'' необходимы для обеспечения высокой доступности, из который два являются "несущими", из которых одно является основным. Если основное ''Железо'' неспособно обслуживать клиентов, ''Кластер'' изолирует его и переключает клиентов на второе несущее, работающее ''Железо''. Третье ''Железо'' -- это требование [[ProxmoxVE]] для обеспечения кворума. [[#Характеристики Железа|Характеристики Железа]] представлены ниже. | ||
+ | |||
+ | :Для переключения на то ''Железо'', которое работает с клиентами, используется инструмент [[Hetzner vSwitch]]. | ||
+ | |||
+ | ==Характеристики Железа== | ||
+ | ''Железo'' для [[#Инфраструктура|Инфраструктуры]] выбрано на аукционе -- https://www.hetzner.com/sb?hdd_from=500&hdd_to=1000 -- поделившись экраном с выбранным подрядчиком исходя из следующих соображений: | ||
+ | :*Рабочий объём жёсткого диска -- 512Gb. | ||
+ | :*Как минимум один, основной сервер выбран с SSD и, желательно, NVMe, и частотой процессора в 64Gb. | ||
+ | :*Как минимум два "несущих" сервера выбраны в одном датацентре. Хотя [[Hetzner]] не берёт оплату за траффик, это обстоятельство повышает скорость работы ''Кластера''. | ||
+ | |||
+ | ===Железо 1=== | ||
+ | :1 x Dedicated Root Server "Server Auction" | ||
+ | :* Intel Xeon E3-1275v5 | ||
+ | :* 2x SSD M.2 NVMe 512 GB | ||
+ | :* 4x RAM 16384 MB DDR4 ECC | ||
+ | :* NIC 1 Gbit Intel I219-LM | ||
+ | :* Location: FSN1-DC1 | ||
+ | :* Rescue system (English) | ||
+ | :* 1 x Primary IPv4 | ||
+ | |||
+ | ===Железо 2=== | ||
+ | :1 x Dedicated Root Server "Server Auction" | ||
+ | :* Intel Core i7-7700 | ||
+ | :* 2x SSD SATA 512 GB | ||
+ | :* 2x RAM 16384 MB DDR4 | ||
+ | :* NIC 1 Gbit Intel I219-LM | ||
+ | :* Location: FSN1-DC1 | ||
+ | :* Rescue system (English) | ||
+ | :* 1 x Primary IPv4 | ||
+ | |||
+ | ===Железо 3=== | ||
+ | :Пока не куплено. Вопросы для выяснения: какое требование к нему? правда, что его объём может быть меньше? | ||
+ | |||
+ | ==Виртуальные среды== | ||
+ | Виртуальная среда каждого ''Железа'' собрана на основе [[ProxmoxVE]] (здесь и далее -- "Среды''), в данный момент, v.7.2. | ||
+ | |||
+ | ===Сети Сред=== | ||
+ | :Сеть каждой ''Среды'' использует мост по выбираемой по умолчанию в [https://pve.proxmox.com/wiki/Network_Configuration#_default_configuration_using_a_bridge Network Configuration] модели. | ||
+ | |||
+ | ===Хранилища Сред=== | ||
+ | :Для хранения данных, каждая ''Среда'' использует платформу распределённого хранилища Ceph. | ||
+ | |||
+ | ===Защитные стены=== | ||
+ | :Для раздачи адресов виртуальным машинам, каждая ''Среда'' использует программу [[iptables]]. | ||
+ | |||
+ | ==Пользовательские прилады== | ||
+ | ===Сетка=== | ||
+ | ===Почта=== | ||
+ | |||
+ | ==Поиск подрядчиков== | ||
+ | Для ускорения проекта и привлечения сторонней экспертизы, Каролина в качестве рекрутера ищет подрядчиков на новый кластер или пару их. | ||
+ | |||
+ | ===Объявление=== | ||
+ | :Объявление на разовую работу опубликовано на [[upwork]]:<blockquote>Guys, we need the most affordable well-documented HA ProxmoxVE 7.2 cluster that is assembled on Hetzner. Ceph, IPtables, vSwitch. Please give your minimum project budget (your project fare + initial purchases + first year costs) and timeframe. No nodes have been purchased yet; we plan to do that while awarding the contract. To complete the project, the selected contractor will be given an admin access, but not full robot credentials.</blockquote> | ||
+ | |||
+ | ===Принцип отбора=== | ||
+ | :Нам треба кластер з нуля и мы отдадим подряд тому, | ||
+ | :#кто сможет это сделать, | ||
+ | :#в чьём графике завершение контракта не растянется на более, чем два месяца, и | ||
+ | :#чей бюджет будет наименьший. Имеется в виду весь бюджет, включая и оплату подрядчиков, и расходы на покупку и ежегодного поддержания ''Кластера''. | ||
+ | |||
+ | ===Собеседования=== | ||
+ | :Найм людей -- отличный способ узнать об аспектах проекта и получаемого в его процессе изделия. Идеально проведённые собеседования добавляют документации на Правку. | ||
+ | |||
+ | ===Полученные заявки=== | ||
+ | :Мы можем публиковать полученные заявки, но не публикуем имена подрядчиков, так как они нам на публикацию разрешений не давали. С юридической точки зрения, мы не можем публиковать конфиденциальную информацию наших подрядчиков. | ||
+ | |||
+ | ===Уточнение деталей и присвоение контракта=== | ||
+ | Під час конференції обрати, які саме сервери на Hetzner купуємо. Один з експертів сказав, що потрібно три сервера. Два з яких забезпечують HA і мають більшу ємність (512 Гб у нашому випадку), а третій може мати меншу ємність, так як на ньому буде тільки ProxmoxVE. | ||
+ | Скласти контракт, в якому прописати такі пункти: | ||
+ | :#Створення HA кластеру з трьох серверів на Hetzner з ProxmoxVE за тиждень (домовитись про якийсь період) | ||
+ | :#Після закінчення роботи приймаємо в онлайн режимі через один із засобів для конференцій. | ||
+ | :#Крім створеного HA кластеру має бути також детальна документація по створенню HA кластеру. | ||
+ | :#Створений HA кластер тестуємо, примусово вимкнувши одну з нод. | ||
+ | :#При наявності документації у повному об’ємі та створеного працюючого HA кластера – приймаємо роботу. | ||
+ | |||
+ | ==Порядок разработки== | ||
+ | |||
+ | ===Кто и что=== | ||
+ | :Заказчик платит за ''Кластер'' и согласовывает эту вики-страницу перед присуждением подряда. Заказчик подразумевает, что координатор отработает проект, в том числе, документируя требования на этой вики-странице и ставя задачи подрядчику. По доброте душевной и в целях профессиональной подготовки, заказчик может делать работу координатора временно до той поры, пока заказчик верит в то, что координатор когда-то сможет работать самостоятельно :) | ||
+ | |||
+ | ===Как не надо=== | ||
+ | :*Знаходимо людину, яка нас задовільняє на даний проект (або декілька людей), так как он или она хорошо говорит, пишет, выглядит, вовремя выходит на связь, быстро отвечает и так далее. | ||
+ | :*Зв'язуємось (бажано дзвінком) для уточнення деталей і надання необхідних даних (в цей же етап можна задавати питання про сервера, які, куди, як..). | ||
+ | :*Согласовываем полученные детали, щоб розуміти всі ці тонкощі і надавати комусь якісь доступи - заслуховуємо його или её оцінку по бюджету цього проекту - розуміємо підходить нам чи ні. | ||
+ | :*Даємо роботу або відмовляємо. | ||
+ | |||
+ | ===Как надо=== | ||
+ | #Задокументировать требования на этой вики-странице. Эти требования должны включать описание того, что мы должны получить (так называемые "[[#Объёмы работ|Объёмы работ]]") и как мы о том узнаем (так называемая "[[#Приёмка|Приёмка]]"). | ||
+ | #Перевести указанные в "[[#Объёмы работ|Объёмы работ]]" секции и секцию "[[#Приёмка|Приёмка]]" на английский и включить в контракт. Если они не включены, то мы получим то, что нам надо в одном случае из 100. В 99 остальных случаях, мы получим то, что нам не надо или за те деньги, на которые мы не рассчитываем. | ||
+ | #Действовать далее по рубрике [[#Как не надо|Как не надо]]; после выполнения предыдущих пунктов, она имеет смысл. | ||
+ | |||
+ | ==Передача и приёмка== | ||
+ | |||
+ | ===Объёмы работ=== | ||
+ | :Мы предоставляем подрядчику [[#Инфраструктура|Инфраструктуру]] и изложенные на этой вики-странице требования. Подрядчик должен представить нам объект приёмки -- отлично задокументированные [[#Виртуальные среды|Виртуальные среды]] с установленными высокоустойчивыми [[#Пользовательские прилады|Пользовательскими приладами]]. | ||
+ | |||
+ | ===Приёмочные тесты=== | ||
+ | Как мы убедимся в том, что то, что представлено -- это то, что нам надо (aka что будет критериями приемлемости и как мы будем проводить приёмочное тестирование)? | ||
+ | |||
+ | ==Вопросы для прояснения== | ||
+ | ===Архитектура платформы=== | ||
+ | :Есть две окончательно неразрешённые проблемы касаемые [[#ПО платформы|ПО платформы]]: | ||
+ | :*Один подрядчик предлагает вместо Ceph задействовать TrueNAS. | ||
+ | :*До начала проекта, один специалист предлагал использовать роутер [[Microtik]], чтобы на proxy сделать два IP адреса, первый использовать для внутренних виртуалок, если они нормально работают, а второй загнать в bridge для внешних серверов и средствами Линукса типа firewall делить тот трафик, который приходит. Кроме того, на том же proxy он предлагал поставить [[DHCP]] сервер для раздачи адресов машинам. Другой специалист считал, что безопасных [[DHCP]] серверов на рынке нет. В результате, роутеры и [[DHCP]] сервер не устанавливались. | ||
+ | |||
+ | ===Начало работы=== | ||
+ | :Что надо от нас, кроме присуждения контракта, решений по [[#Архитектура платформы|Архитектуре платформы]] и данных ''Железа''? | ||
+ | |||
+ | ==Полезные рекоммендации== | ||
+ | *https://www.informaticar.net/how-to-setup-proxmox-cluster-ha/ | ||
+ | *https://community.hetzner.com/tutorials/hyperconverged-proxmox-cloud | ||
+ | *https://pve.proxmox.com/wiki/High_Availability | ||
+ | *https://docs.hetzner.com/robot/dedicated-server/network/vswitch/ | ||
==Компоненты Ферм== | ==Компоненты Ферм== | ||
Строка 31: | Строка 155: | ||
:''Основная вики-страница: [[Кампусны Кластер]]'' | :''Основная вики-страница: [[Кампусны Кластер]]'' | ||
− | :[[Кампусны Кластер]], отказоустойчивый | + | :[[Кампусны Кластер]], отказоустойчивый кластер для основных приложений [[Брацки Кампус|Брацка Кампуса]], включая [[Брацка Учебка|Брацку Учебку]], [[Брацка Правка|Брацку Правку]]. |
+ | |||
+ | :Несколько VPS в разных частях света, идельно, поддерживаемых CDN и с базами, завязанными в кластеры. Теоретически, их отказоустойчивость может достигаться либо отказоустойчивостью баз, либо дополнительными услугами, типа Floating IP у [[DigitalOcean]], предоставляемыми компаниями сдающими в аренду виртуальные серверы. | ||
===Опытно Облако=== | ===Опытно Облако=== | ||
Строка 39: | Строка 165: | ||
===Деловы Кластер=== | ===Деловы Кластер=== | ||
− | : | + | :''Основная вики-страница: [[Деловы Кластер]]'' |
+ | |||
+ | :[[Деловы Кластер]], отказоустойчивый высокопроизводительный кластер или небольшое облако для основных приложений [[Делово Бюро|Делово Бюро]]. | ||
===Другие идеи=== | ===Другие идеи=== |
Версия 22:52, 5 июля 2022
Брацки Фермы (здесь и далее по тексту -- Фермы) -- это инфраструктура Брацка Облака (здесь и далее по тексту -- Облака). Архитектура облачной инфраструктуры не определена. Скорее всего, когда работа Школы войдёт в привычный режим, инфраструктура должна состоять из некой комбинации частного и общественных облаков.
Содержание
- 1 Цели и задачи
- 2 Архитектура
- 3 Инфраструктура
- 4 Характеристики Железа
- 5 Виртуальные среды
- 6 Пользовательские прилады
- 7 Поиск подрядчиков
- 8 Порядок разработки
- 9 Передача и приёмка
- 10 Вопросы для прояснения
- 11 Полезные рекоммендации
- 12 Компоненты Ферм
- 13 Материальная часть
- 14 VPS ресурсы
- 15 Доступы
- 16 Данные в Облаке
- 17 Основные функции
- 18 Кластеры баз данных
- 19 Облака
- 20 Веб-доступность
- 21 Разработка Ферм
- 22 Перечень проектов
Цели и задачи
Цели
Целью разработки является создание инфраструктур:
- Основных пользовательских приложений, которые должны быть высоко доступны. На данный момент, к основным приложениям мы относим Брацку Правку, Брацку Учебку, Брацку Сетку.
- Курсовых и эксперементальных приложений, для которых требование отказоустойчивости не принципиально.
- Оплётa как системы услуг федерации.
Задачи
- До определения и реализации новой архитектуры, поддерживать те технологические ресурсы, которые имеются в наличии, а также развивать их документацию -- общую на Правке и детальную на Крынке.
- Исследовать существующие и существовавшие Инциденты с сетью, Инциденты с портами, Инциденты атак и найти пути устранения проблем.
- Создать архитектуру Ферм и задокументировать её на вики-страницах, связанных с этой страницей.
- Разбить проект на несколько разработок в секции Перечень проектов.
- Под каждую разработку определить ответственного координатора, который или которая далее сформирует список консультантов и разработчиков, а также организует сообщество на Сетке и периодические видеоконференции, на которые будут приглашаться все заинтересованные в разработке. С одним из разработчиков должен быть заключён контракт на разработку. Как минимум с одним из консультантов должен быть заключён контракт на консультации и/или участие в видеоконференциях.
Архитектура
Требования к архитектуре
Создание инфраструктуры должно происходить как можно быстрее и с наименьшими затратами, временно, возможно, в ущерб качеству. Подразумевается, что качество будет достигнуто в результате доработки жизнеспособных прототипов.
- отказоустойчивость и высокая доступность основных приложений.
- минимальная стоимость.
- максимально-возможноe разнообразиe в рамках требования по минимальной стоимости.
Жизнеспособность прототипов
При том, что отказоустойчивость на является глобальным требованием ко всем частям инфраструктуры, любая часть жизнеспособного прототипа инфраструктуры должна быть:
- наблюдаемым средствами мониторинга,
- восстанавливаемым в случае проблем,
- связанным воедино, в частности, средствами SSO, и
- обеспечивающим CDN и Geocast для основных приложений.
Деловы Кластер -- это отказоустойчивый (high availability) кластер (здесь и далее по тексту -- Кластер) на основе трёх "физических" (bare metal) узлов (здесь и далее по тексту -- Желез) Брацких Ферм (здесь и далее по тексту -- Ферм), который обеспечивает высокую доступность услуг, предположительно, Брацкой Сетки и, возможно, других приложений, которые принадлежат Делово Бюро.
Инфраструктура
Размещение
- Hetzner является поставщиком услуг размещения, у которого "Железо" арендуется.
Сеть инфраструктуры
- Три Железа необходимы для обеспечения высокой доступности, из который два являются "несущими", из которых одно является основным. Если основное Железо неспособно обслуживать клиентов, Кластер изолирует его и переключает клиентов на второе несущее, работающее Железо. Третье Железо -- это требование ProxmoxVE для обеспечения кворума. Характеристики Железа представлены ниже.
- Для переключения на то Железо, которое работает с клиентами, используется инструмент Hetzner vSwitch.
Характеристики Железа
Железo для Инфраструктуры выбрано на аукционе -- https://www.hetzner.com/sb?hdd_from=500&hdd_to=1000 -- поделившись экраном с выбранным подрядчиком исходя из следующих соображений:
- Рабочий объём жёсткого диска -- 512Gb.
- Как минимум один, основной сервер выбран с SSD и, желательно, NVMe, и частотой процессора в 64Gb.
- Как минимум два "несущих" сервера выбраны в одном датацентре. Хотя Hetzner не берёт оплату за траффик, это обстоятельство повышает скорость работы Кластера.
Железо 1
- 1 x Dedicated Root Server "Server Auction"
- Intel Xeon E3-1275v5
- 2x SSD M.2 NVMe 512 GB
- 4x RAM 16384 MB DDR4 ECC
- NIC 1 Gbit Intel I219-LM
- Location: FSN1-DC1
- Rescue system (English)
- 1 x Primary IPv4
Железо 2
- 1 x Dedicated Root Server "Server Auction"
- Intel Core i7-7700
- 2x SSD SATA 512 GB
- 2x RAM 16384 MB DDR4
- NIC 1 Gbit Intel I219-LM
- Location: FSN1-DC1
- Rescue system (English)
- 1 x Primary IPv4
Железо 3
- Пока не куплено. Вопросы для выяснения: какое требование к нему? правда, что его объём может быть меньше?
Виртуальные среды
Виртуальная среда каждого Железа собрана на основе ProxmoxVE (здесь и далее -- "Среды), в данный момент, v.7.2.
Сети Сред
- Сеть каждой Среды использует мост по выбираемой по умолчанию в Network Configuration модели.
Хранилища Сред
- Для хранения данных, каждая Среда использует платформу распределённого хранилища Ceph.
Защитные стены
- Для раздачи адресов виртуальным машинам, каждая Среда использует программу iptables.
Пользовательские прилады
Сетка
Почта
Поиск подрядчиков
Для ускорения проекта и привлечения сторонней экспертизы, Каролина в качестве рекрутера ищет подрядчиков на новый кластер или пару их.
Объявление
- Объявление на разовую работу опубликовано на upwork:
Guys, we need the most affordable well-documented HA ProxmoxVE 7.2 cluster that is assembled on Hetzner. Ceph, IPtables, vSwitch. Please give your minimum project budget (your project fare + initial purchases + first year costs) and timeframe. No nodes have been purchased yet; we plan to do that while awarding the contract. To complete the project, the selected contractor will be given an admin access, but not full robot credentials.
Принцип отбора
- Нам треба кластер з нуля и мы отдадим подряд тому,
- кто сможет это сделать,
- в чьём графике завершение контракта не растянется на более, чем два месяца, и
- чей бюджет будет наименьший. Имеется в виду весь бюджет, включая и оплату подрядчиков, и расходы на покупку и ежегодного поддержания Кластера.
Собеседования
- Найм людей -- отличный способ узнать об аспектах проекта и получаемого в его процессе изделия. Идеально проведённые собеседования добавляют документации на Правку.
Полученные заявки
- Мы можем публиковать полученные заявки, но не публикуем имена подрядчиков, так как они нам на публикацию разрешений не давали. С юридической точки зрения, мы не можем публиковать конфиденциальную информацию наших подрядчиков.
Уточнение деталей и присвоение контракта
Під час конференції обрати, які саме сервери на Hetzner купуємо. Один з експертів сказав, що потрібно три сервера. Два з яких забезпечують HA і мають більшу ємність (512 Гб у нашому випадку), а третій може мати меншу ємність, так як на ньому буде тільки ProxmoxVE. Скласти контракт, в якому прописати такі пункти:
- Створення HA кластеру з трьох серверів на Hetzner з ProxmoxVE за тиждень (домовитись про якийсь період)
- Після закінчення роботи приймаємо в онлайн режимі через один із засобів для конференцій.
- Крім створеного HA кластеру має бути також детальна документація по створенню HA кластеру.
- Створений HA кластер тестуємо, примусово вимкнувши одну з нод.
- При наявності документації у повному об’ємі та створеного працюючого HA кластера – приймаємо роботу.
Порядок разработки
Кто и что
- Заказчик платит за Кластер и согласовывает эту вики-страницу перед присуждением подряда. Заказчик подразумевает, что координатор отработает проект, в том числе, документируя требования на этой вики-странице и ставя задачи подрядчику. По доброте душевной и в целях профессиональной подготовки, заказчик может делать работу координатора временно до той поры, пока заказчик верит в то, что координатор когда-то сможет работать самостоятельно :)
Как не надо
- Знаходимо людину, яка нас задовільняє на даний проект (або декілька людей), так как он или она хорошо говорит, пишет, выглядит, вовремя выходит на связь, быстро отвечает и так далее.
- Зв'язуємось (бажано дзвінком) для уточнення деталей і надання необхідних даних (в цей же етап можна задавати питання про сервера, які, куди, як..).
- Согласовываем полученные детали, щоб розуміти всі ці тонкощі і надавати комусь якісь доступи - заслуховуємо його или её оцінку по бюджету цього проекту - розуміємо підходить нам чи ні.
- Даємо роботу або відмовляємо.
Как надо
- Задокументировать требования на этой вики-странице. Эти требования должны включать описание того, что мы должны получить (так называемые "Объёмы работ") и как мы о том узнаем (так называемая "Приёмка").
- Перевести указанные в "Объёмы работ" секции и секцию "Приёмка" на английский и включить в контракт. Если они не включены, то мы получим то, что нам надо в одном случае из 100. В 99 остальных случаях, мы получим то, что нам не надо или за те деньги, на которые мы не рассчитываем.
- Действовать далее по рубрике Как не надо; после выполнения предыдущих пунктов, она имеет смысл.
Передача и приёмка
Объёмы работ
- Мы предоставляем подрядчику Инфраструктуру и изложенные на этой вики-странице требования. Подрядчик должен представить нам объект приёмки -- отлично задокументированные Виртуальные среды с установленными высокоустойчивыми Пользовательскими приладами.
Приёмочные тесты
Как мы убедимся в том, что то, что представлено -- это то, что нам надо (aka что будет критериями приемлемости и как мы будем проводить приёмочное тестирование)?
Вопросы для прояснения
Архитектура платформы
- Есть две окончательно неразрешённые проблемы касаемые ПО платформы:
- Один подрядчик предлагает вместо Ceph задействовать TrueNAS.
- До начала проекта, один специалист предлагал использовать роутер Microtik, чтобы на proxy сделать два IP адреса, первый использовать для внутренних виртуалок, если они нормально работают, а второй загнать в bridge для внешних серверов и средствами Линукса типа firewall делить тот трафик, который приходит. Кроме того, на том же proxy он предлагал поставить DHCP сервер для раздачи адресов машинам. Другой специалист считал, что безопасных DHCP серверов на рынке нет. В результате, роутеры и DHCP сервер не устанавливались.
Начало работы
- Что надо от нас, кроме присуждения контракта, решений по Архитектуре платформы и данных Железа?
Полезные рекоммендации
- https://www.informaticar.net/how-to-setup-proxmox-cluster-ha/
- https://community.hetzner.com/tutorials/hyperconverged-proxmox-cloud
- https://pve.proxmox.com/wiki/High_Availability
- https://docs.hetzner.com/robot/dedicated-server/network/vswitch/
Компоненты Ферм
Кампусны Кластер
- Основная вики-страница: Кампусны Кластер
- Кампусны Кластер, отказоустойчивый кластер для основных приложений Брацка Кампуса, включая Брацку Учебку, Брацку Правку.
- Несколько VPS в разных частях света, идельно, поддерживаемых CDN и с базами, завязанными в кластеры. Теоретически, их отказоустойчивость может достигаться либо отказоустойчивостью баз, либо дополнительными услугами, типа Floating IP у DigitalOcean, предоставляемыми компаниями сдающими в аренду виртуальные серверы.
Опытно Облако
- Один железный сервер с относительно небольшой производительностью (32-64Gb) и относительно большим объёмом диска (2-3Tb) будет служить платформой для Опытна Облака. Eго виртуализация поддержит эксперименты при том, что отказоустойчивость для них не принципиальна.
Если кластер из существующего железа собрать невозможно, я думаю отказаться от второго сервера и хранилища, оставив первый сервер на Опытно Облако (где отказоустойчивость не обязательна, так как мы будем использовать его для экспериментов). Подрядчики соберут один или два меньших кластера на железе, куда мы поставим основные приложения, ну а отказоустойчивости остальных мы будем добиваться на VPS-ках.
Деловы Кластер
- Основная вики-страница: Деловы Кластер
- Деловы Кластер, отказоустойчивый высокопроизводительный кластер или небольшое облако для основных приложений Делово Бюро.
Другие идеи
Предварительные идеи по другим компонентам таковы:
- Отказоустойчивый высокопроизводительный кластер или небольшое облако под Мастерские.
- Общественные облака. Уже куплена связка Google Cloud Platform и Cloudflare под Брацку Вебку. Как минимум, планируется рассмотреть:
- облако Hetzner для тренингов (которое можно разворачивать перед тренингом и сворачивать после).
- что-то отдельное для Брацкиx Жиц.
Материальная часть
Требования к материальной части изложены на https://pve.proxmox.com/wiki/System_Requirements
Железо 1
- Железный сервер (bare metal) арендован на Hetzner. Он имеет такие характеристики:
- Dedicated Root Server SB35
- Intel Core i7-3930
- 2x HDD SATA 3,0 TB
- 8x RAM 8192 MB DDR3
- NIC 1 Gbit - Intel 82579LM
- Location: FSN1 (Falkenstein/Vogtland, Germany) -- DC7
- Rescue system (English)
- Основной IP адрес Железа -- наш-IP . На начало февраля 2022, Железо использует один дополнительный IP адрес 4-го протокола (IPv4):
- IP: 5.9.40.133
- Gateway: 5.9.40.129
- Netmask: 255.255.255.224
- Не предпринималось попыток работать с IP адресами 6-го протокола (IPv6).
- Два инструмента задействованы для виртуализации:
Железо 2
- Характеристики второго (bare metal) сервера:
- Dedicated Root Server
- Intel Xeon E3-1245
- 2x HDD SATA 3,0 TB Enterprise
- 4x RAM 8192 MB DDR3 ECC
- NIC 1 Gbit Intel 82574L
- RAID Controller 4-Port SATA PCI-E LSI MegaRAID SAS 9260-4i
- Location: FSN1 (Falkenstein/Vogtland, Germany) -- DC7
- Rescue system (English)
На основном сервере используется либо локальный IP, либо частный диапазон IP с DHCP. Если не возникнет особых проблем, мы планируем использовать 2 адреса IPv4. Мы также открыты для изучения IPv6. Если мы используем адреса About ipv4, нам нужно 5 ips: один для основного сервера, два для шлюза, три для любого vps или контейнера и четыре для Wordpress vps, и 5 для любого другого, который нам понадобится в будущем.
ProxmoxVE поставляется с OpenZFS, поэтому мы настоятельно рекомендуем использовать его. Также будут обсуждаться другие реализации программных RAID на различных уровнях. На данном этапе мы не рассматриваем аппаратные решения, чтобы избежать зависимости от проприетарных карт RAID.
VPS ресурсы
DigitalOcean
Описание URL Технология Предназначение Проблемы NYC1, 2GB, 50GB disk, IP 159.89.93.1, $10 в месяц Новый дроплет под Оплёт - Opplet на opplet.net -- самописанная на Yii система управления пользователями
Проблем нет; это -- один из двух активно используемых дроплетов на данный момент -- Backups are currently enabled NYC1, 2GB, 50GB disk, IP 159.89.230.212, $10 в месяц Дроплет под систему для работы с Оплётом - На данный момент не используется вообще.
Contabo
Доступы
Администраторские
- Управление виртуальными машинами и контейнерами производится через интерфейс ProxmoxVE. Остальные доступы организованы по SSH.
Пользовательские
- Для доступов пользователей к виртуальным машинам используется Apache Guacamole, на котором построен узел удаленных рабочих столов. Пользователь заходит на машину и работает на ней аналогично работе на собственном компьютере или друго устройстве.
Защита
- Для предотвращения так называемых brute-force attack, то есть попыток подобрать пароли методом перебора множества вариантов, был установлен Fail2Ban.
- При предоставлении доступа через SSH к тем машинам, на которых был установлен WordPress и Moodle, там постоянно что-то происходило, не давало зайти по SSH. Именно на этих 2-х машинах Fail2Ban был отключен первым.
- Далее, Fail2Ban делал записи в iptables, из-за которых невозможно было получить доступ к серверам по SSH для Apache Guacomole. После этого Fail2Ban был заблокирован.
Инфраструктура Облака включает в себя виртуализованное Опытно Облако, используемое для экспериментов, и эксплуатационное облако, архитектура которого пока не определена. Ранее для эксплуатационного облака использовался OpenStack. Скорее всего, когда работа Школы войдёт в привычный режим, инфраструктура эксплуатационного облака должна состоять из некой комбинации частного и общественных облаков.
Вычислительные сервера
- В настоящее время, используется пять виртуальных частных серверов (virtual private server; VPS):
- Три арендованы у Contabo; два сервера и отдельное дисковое пространство для резервных копий располагаются в Сент-Луисе, Миссури, США, один -- в Германии. Планов уезжать с Contabo нет, но есть план заменить один сервер в Сент-Луисе, Миссури на сервер в Сингапуре;
- Два VPS (они зовут их "дроплетами") арендованы у DigitalOcean; один располагается в Нью-Йорке, США, один -- во Франции. Планов уезжать с DigitalOcean нет.
- Для создания собственных виртуальных серверов, скорее всего, будет арендован физический сервер (bare metal) у Hetzner в Германии.
Мониторинг
- Мониторинг систем включает мониторинг работы как вычислительных серверов, так и приложений.
- Для мониторинга систем, установлен Nagios Core. Используя агентов слежения, он отслеживает работу всех серверов системы, включая:
- Доступность сетевых услуг (SMTP, POP3, HTTP, NNTP, ICMP, SNMP, FTP, SSH).
- Использование ресурсов (processor load, disk usage, system logs, количество активных пользователей).
- Доступность баз данных (в настоящее время -- MariaDB Server, в перспективе -- отслеживание и других услуг кластеров).
- Состояние сертификатов SSL. Для отслеживания сертификатов, несколько инструментов не подошли, показывали срок действия один на все домены. Выбор был остановлен на check_ssl_cert. Отслеживаемые домены были объеденены в host groups и единую сервисную группу. Результат удовретворительный. Нужно будет подобавлять все нужные домены.
- Для мониторинга отдельных приложений и баз данных, помимо систем сетевого мониторинга, планируется использовать их внутренние функции, а также другие существующие решения.
- Для мониторинга систем, установлен Nagios Core. Используя агентов слежения, он отслеживает работу всех серверов системы, включая:
Почтовый сервер
- Команда планирует поднять highload мультидоменный почтовый сервер на основе существующего. На данный момент установлены чистые Postfix, Dovecot и Roundcube без каких-либо коробок. Они позволяют:
- Зарегестрироваться на opplet с почтовым адресом *@cnmcyber.com
- С этим адресом зайти на RoundCube
- Отправить почту себе на email
- Настроены следующие DNS-записи:
- DomainKeys Identified Mail (DKIM)
- Sender Policy Framework (SPF)
- Domain-based Message Authentication, Reporting and Conformance (DMARC)
- Не известно, шифруется ли почта TLS протоколом. Количество пользователей не определено -- все, кто имеет право на почту, должен её иметь. В перспективе в Оплёте будет добавлено одно поле для корпоративного имейла. Проблемы с дисковыми пространствами будут решаться отдельно.
- Требуется:
- Выбрать, установить, настроить, провести нагрузочное тестирование, отмониторить продакшн и откоректировать параметры такого решение для почты, которое бы дружило с нашим WSO2 IS, через который идёт управление пользователями.
- Добиться того, чтобы почта приходила не в спам, а во входящие.
- Задокументировать работающие решения и настройки.
- В качестве подходящего обеспечения рассматривались три варианта:
- Оставить чистые Postfix, Dovecot и Roundcube без каких-либо коробок.
- Переключить на пакет iRedMail, который включает в себя Postfix, Dovecot, Roundcube. Когда Облако строилось на OpenLDAP, был найден подрядчик, требования которого были: 1. Что бы у всех пользователей было заполнено поле mail 2. Новый пользователь vmail (пароль скажут после установки пакета iRedmail) 3. Поле для квоты. Также обсуждался безопасный тунель между сервером почты и сервером OpenLDAP. Найденный подрядчик считал, что лучшее решение -- это использование VPN, чтобы и OpenLDAP, и Dovecot виртуально были бы в одной сети. Авторизация почтового сервера идёт через Dovecot. Другой специалист называл такое решение идиотским. После решения о переходе с OpenLDAP на WSO2 IS подрячиков не искали.
- Добавить OnlyOffice, который включает в себя всё тот же iRedMail, но только с авторизацией уже на платформе OnlyOffice. Похоже,OnlyOffice предоставляет возможность синхронизации пользователей с LDAP, но пока не известно, как он интегрируется с WSO2 IS.
- Почтовые ящики работают на основе построенного сервера.
Склад файлов
Данные в Облаке
Базы данных
- Облако задействует большой спектр систем управления базами данных, некоторые из которых структурированы, а некоторые ориентированы на документы.
- Наибольшая часть пользовательских приложений использует базы управления данными на основе MariaDB Server.
- Отдельные приложения, например, Брацка Крынка и Брацка Справа, задействуют базы управления данными на основе PostgreSQL.
- Обособленная установка MariaDB Server, отличная от той, что поддерживает большую часть пользовательских приложений, также вовлечена в управление пользователями Оплёта.
- Идентификационный сервер Оплёта, то есть та его часть, которая работает с другими приложениями, работает на базе сервера OpenLdap и задействует три базы H2 DBMS. Была попытка с WSO2 IS, но полностью внедрить не вышло. Удалось настроить WSO2 IS для Wordpress, но все застопорилось на настройке для Moodle.
- NoSQL и структурированные распределённые базы будут задействованы в работу будущей интеграционной платформы Оплёта.
Интеграция данных
- Сейчас, база каждого пользовательского приложения установлена на трёх нодах и синхронизована через Кластерное копирование. Есть план сделать одну распределённую базу и интегрировать её в Оплёт с тем, чтобы базы приложений забирали данные оттуда. В качестве интеграционного решения серъёзно рассматривается WSO2 Enterprise Integrator. Этот интегратор работает и как ESB, и платформа для микросервисов. В качестве распределонной базы один специалист рекоммендовал NoSQL -- Apache Cassandra. Другой вариант -- распределённую SQL типа CockroachDB.
- Наиболее приоритетная задача -- создать архитектуру базы клиентов. Сейчас клиенты учитываются в нескольких независимых приложениях. Они имеют CRM модули, которые призваны учитывать работу с клиентами, которые могут является, но скорее всего не являются пользователями. Надо создать базу, в которую каждое приложение заливало новые данные и брало старые. Предложение заключалось в общей master базе, информация в которую может вбиваться с любого приложения, но отображаться в зависимости от её публичности.
- Есть также предложение создать собирать данные с различных приложений и хранить их в NoSQL базе. Ранее обсуждалась единая неосновная база данных для всей системы. Разговор шёл о комбинации Hadoop, ESB Mule и MongoDB. Идея была в сборе данных с разных приложений через ESB Mule, причёсывание их Hadoop'ом и размещение в MongoDB как дополнительной базе данных, откуда они могут браться для для личного кабинета (dashboard) пользователя. То есть, заходя в кабинет, пользователь мог бы в идеале видеть свою активность в разных приложениях и искать по всем системам сразу.
- Надо стабилизировать загрузку, хранение и использование картинок на MediaWiki. Сейчас они спорадически не загружаются или не отображаются. Например, 7 декабря картинки выбились, перестав отображаться. После клика на редактирование и сохранение, картинки появлялись -- этот сценарий повторялся на нескольких страницах. Затем всё само восстановилось. Аналогичные сбои происходили и раньше. Сама Википедия использует другую схему. Мы рассматриваем перенос картинок в хранилище.
Основные функции
Аварийное восстановление
- Инструкция по восстановлению инфраструктуры после аварии должна позволить восстановить отдельные:
- Кластеры, включая Кластер Жици, Кластер MariaDB, Кластер Оплёта и Кластер PostgreSQL;
- Вычислительныe сервера целиком.
Связки баз данных
Архитектура Кластеров баз данных, то есть связок нескольких однотипных приложений или их баз данных с распределителями нагрузки между этими приложениями или базами, используется для обеспечения отказоустойчивости (high availability) Облака.
Ярус Название Основное ПО ПО базы данных Кластер Связующее обеспечение Оплёт (ядро) Yii MariaDB Server Кластер Оплёта Идентификация WSO2 IS H2 DBMS Пользовательские приложения Бачка AVideo MariaDB Server Кластер MariaDB Вебка WordPress Жици Jitsi Отсутствует Устойчивость для Жици Крынка GitLab PostgreSQL Кластер PostgreSQL Пошта Roundcube Правка MediaWiki MariaDB Server Кластер MariaDB Связка SuiteCRM Сетка HumHub Справа Odoo PostgreSQL Кластер PostgreSQL Учебка Moodle MariaDB Server Кластер MariaDB Арендованное обеспечение Эксперементальные приложения Campus OpenEdX - MariaDB Server для данных пользователей;
- MongoDB для непользовательских данных.
Agile Taiga software PostgreSQL Project ProjecQtOr
Резервное копирование
- В Облаке, к резервному копированию применяется несколько подходов. Копируются приложения и сервера; сохраняются базы и делаются снимки.
- Изначально использовался rsync для копирования файлов, еженедельно полный бэкап и ежедневно incremental бэкап заливались на backup space на Contabo. Была идея использовать rsnapshot для снимков, но эту идею пока не получилось реализовать.
- Весной-летом 2021 года, начались эксперименты с Veeam Agent for Linux, для которого был установлен VNC® Viewer. Это обеспечение позволило копировать полный сервер. Сервера копируются на себя, что вначале это вызывало проблему нехватки места. В настоящее время, копируются только новые данные (increment). Таким образом избегается дублирование и экономится место. Далее планируется научиться копировать сервера на backup space.
- Надо создать:
- Подробное описание существующей системы.
- Процедуру проверки надёжности бэкапов.
Кластеры баз данных
Связка нескольких однотипных приложений или их баз данных с распределителем нагрузки между этими приложениями или базами называется кластером. Фермы задействуют четыре кластерa; стойкость баз Ферм складывается из стойкости отдельных кластеров. Эти кластеры обеспечивают согласие между однотипными базами данных и, соответственно, стойкость их данных.
Все пользовательские приложения дублируются -- копии каждого из них установлены как минимум на трёх вычислительных узлах. Базы данных разных установок одного и того же приложения синхранизуются. Таким образом, обращаясь к любому из них, пользователь получает аналогичные данные и результаты вычислений.
Должна быть рассмотрена возможность переделки кластеров баз данных Ферм в отказоустойчивые (high-availability cluster) в дополнение к Стойкости Ферм.
Возможно, отказоустойчивости можно достичь, если направлять пользователя на распределитель нагрузки (load balancer) когда пользователь хочет обратиться к приложению. Распределитель нагрузки постоянно связывается со всеми установками приложений, чтобы знать, какие из них находятся в наличии. От распределителя нагрузки, пользователь перенаправляется к той установке, которая работоспособна и доступнее для конкретного пользователя. Если какая-то из установок выходит из строя, пользователь этого не должен заметить. Как только распределитель нагрузки замечает отсутствие какого-либо ресурса, он запускает механизм отладки.
Кластер Жици
- Основная вики-страница: Устойчивость для Жици
- Вместе с Брацкой Вебкой, наиболее критическое приложение для маркетинга всего проекта -- это Брацки Жици на Jitsi. Эта видео-конференционная система пока установлена вместе с пользовательскими системами. Возможно, для него должен быть построен отдельный кластер, задействующий все имеющиеся в наличии сервера. Также обсуждается план увести её отдельно на CDN типа Cloudflare или глобальные облачные решения -- Microsoft Azure или AWS -- участники конференций могут находиться на разных континентах и требование к качеству особо высокое.
Кластер MariaDB
- Основная вики-страница: Кластер MariaDB
Кластер Оплёта
- Основная вики-страница: Кластер Оплёта
- Кластер Оплёта -- это связка ресурсов Облака, обеспечивающая отказоустойчивость Оплёта, а также распределителей нагрузки (load balancer) остальных кластеров.
Кластер PostgreSQL
- Основная вики-страница: Кластер PostgreSQL
Облака
Частное облако
Если частное облако будет признано необходимым, оно будет построено на OpenStack технологии. Требования: существование резервной модели работы и возможность восстановления работоспособного состояния, включая бэкапы на все собственные данные и разработки.
Общественное облако
Общественное облако типа AWS должно быть использовано первым из-за меньших расходов по его вводу в эксплуатацию.
Веб-доступность
Content delivery network; CDN; reverse proxy
Географическая доступность
- Облако распределено по нескольким континентам с тем, чтобы пользователь работал с тем приложением, которое более доступно для этого пользователя. Для этого будут планироваться DNS Anycast, DNS Geocast и аналогичные распределительные системы. Есть план отправлять пользователя на тот сервер, который наиболее доступен конкретному пользователю. Усилия по улучшению географической доступности являются частью Доменных проектов.
Доменные имена
- Усилия по улучшению доменных имён являются частью Доменных проектов. Хотя планируется использование десайтков доменных имён, речь пока идёт о двух основных:
- cnmcyber.com -- некоммерческий сайт для англоязычных пользователей; на коммерческой стороне, он должен поддерживаться сайтом vit4all.com;
- bskol.com -- некоммерческий сайт для русскоязычных пользователей; на коммерческой стороне, он должен поддерживаться сайтом vsemka.com.
- Доменные имена зарегистрированы на GoDaddy; nameservers расположены там. Записи делались спонтанно не подвергались ревизии. Планируется:
- Проверить существующие и создать нехватающие DNS.
- Рассмотреть добавку новых DNSSEC записей. DNSSEC не является критичной -- может быть отлажено только для какой-то части зон DNS. Проект Школы -- учебный, нам важно иметь разные вещи для того, чтобы показывать ученикам.
- Изучить возможность Dynamic DNS (DDNS) или виртуальных DNS.
Нахождение в Паутине
- Говоря об IP адресах, в данный момент используется IPv4, но есть план разобраться с более новым протоколом. Судя по некоторым публикациям, IPv6 решит проблему отказоустойчивости в части перенаправления трафика.
- В дополнение, есть план разобраться с виртуальными адресами (virtual IP address). Digitalocean предлагает floating IP address, который можно устанавливать на те дроплеты (VPS), которые расположены в одном датацентре. То есть, мы этой возможностью не воспользуемся. Hetzner.de предлагает failover IP, хотя с ними надо разобраться. Не похоже, что Contabo предлагает что-то вроде этого.
- Усилия по улучшению нахождения Облака в Паутине являются частью Доменных проектов.
Разработка Ферм
Разработка Ферм ведётся в трёх направлениях. Через некоторое время, будет оценено, где удвоить усилия, а какие надежды отставить.
Подключение консультантов
Для оценки существующей разработки и её документации, мы организуем консультации с экспертами. На данный момент, их двое. Никто по-русски не говорит, поэтому документация по отказоустойчивому кластеру была переведена, найти её можно https://setka.bskol.com/index.php?r=file%2Ffile%2Fdownload&guid=96c35fd8-4363-406f-86a5-22a7f096b0db&hash_sha1=807ace8f.
Подключение разработчиков
- Для ускорения разработок, мы ищем подрядчиков. Для каждой разработки подрядчиками:
- Заказчик договаривается с одним из координаторов о работе над разработкой.
- Координатор документирует на отдельной вики-странице задание подрядчику и план его поиска.
- Заказчик принимает, отклоняет или предлагает доработать документацию и план.
- Если задание и план приняты, заказчик и координатор отрабатывают план -- заказчик размещает объявление, назначает координатора рекрутером, координатор проводит отбор подрядчика.
- В процессе найма подрядчика, потенциальный подрядчик и координатор уточняют задание и разрабатывают план исполнения этого задания на той же вики-странице.
- При наличии плана работы и по представлению координатора, заказчик нанимает подрядчика, с которым координатор работает вплоть до исполнения задания.
Подключение интересующихся
- Основная вики-страница: Общество Сисаминов
Перечень проектов
Доменные проекты
- Доменные проекты -- это усилия по улучшению Веб-доступности.
Профинансированные проекты доменов Работы CDN DNSSEC IPv6 Переадресация Ревизия DNS Запрос Достаточно Достаточно Достаточно Достаточно Требования Архитектура Модель Прототип Заказ Производство Конфигурация Усовершенствование
Проекты кластеров баз
- Проекты кластеров баз -- это усилия по построению Кластеров.
Профинансированные проекты кластеров баз данных Работы MariaDB PostgreSQL Жици Оплёта Запрос Достаточно Достаточно Достаточно Достаточно Требования Архитектура Модель Прототип Заказ Производство Конфигурация Усовершенствование
Сетевые проекты
- Сетевые проекты -- это усилия по построению Сетевой инфраструктуры Облака, включая Данные в Облаке. Усилия по построению Кластеров выделены в Кластерные проекты.
Профинансированные проекты сетей инфраструктуры Работы Восстановление Копирование Мониторинг Отказоустойчивость Склад Запрос Достаточно Достаточно Достаточно Достаточно Требования Архитектура Модель Прототип Заказ Производство Конфигурация Усовершенствование