Не дозволите да складиштење постане кључно уско грло у обуци модела

Речено је да се технолошке компаније или боре за ГПУ-е или су на путу да их набаве.У априлу је извршни директор Тесле Елон Муск купио 10.000 ГПУ-а и изјавио да ће компанија наставити да купује велику количину ГПУ-а од НВИДИА-е.На страни предузећа, ИТ особље се такође труди да осигура да се ГПУ-ови стално користе како би се максимизирао повраћај улагања.Међутим, неке компаније могу открити да док се број ГПУ-а повећава, ГПУ-ово стање постаје све теже.

Ако нас је историја научила било чему о рачунарству високих перформанси (ХПЦ), то је да складиштење и умрежавање не треба жртвовати на рачун превише фокусирања на рачунарство.Ако складиште не може ефикасно да преноси податке до рачунарских јединица, чак и ако имате највише ГПУ-а на свету, нећете постићи оптималну ефикасност.

Према Мике Матцхетт-у, аналитичару у Смалл Ворлд Биг Дата, мањи модели се могу извршавати у меморији (РАМ), омогућавајући више фокуса на рачунање.Међутим, већи модели као што је ЦхатГПТ са милијардама чворова не могу се ускладиштити у меморији због високе цене.

„Не можете да ставите милијарде чворова у меморију, тако да складиште постаје још важније“, каже Матцхетт.Нажалост, складиштење података се често занемарује током процеса планирања.

Генерално, без обзира на случај употребе, постоје четири заједничке тачке у процесу обуке модела:

1. Модел Траининг
2. Примена закључивања
3. Складиштење података
4. Убрзано рачунарство

Када креирате и примењујете моделе, већина захтева даје приоритет брзом доказу концепта (ПОЦ) или окружењима за тестирање да би се започело обучавање модела, при чему се потребама складиштења података не придаје највећа пажња.

Међутим, изазов лежи у чињеници да обука или имплементација закључивања може трајати месецима или чак годинама.Многе компаније за то време брзо повећавају величину својих модела, а инфраструктура се мора проширити да би се прилагодила растућим моделима и скуповима података.

Гоогле-ово истраживање о милионима обучавања МЛ-а открива да се у просеку 30% времена обуке троши на цевовод улазних података.Док су се прошла истраживања фокусирала на оптимизацију ГПУ-а како би се убрзала обука, многи изазови и даље остају у оптимизацији различитих делова цевовода података.Када имате значајну рачунарску моћ, право уско грло постаје колико брзо можете унети податке у прорачуне да бисте добили резултате.

Конкретно, изазови у складиштењу и управљању подацима захтевају планирање раста података, омогућавајући вам да континуирано извлачите вредност података како напредујете, посебно када се упустите у напредније случајеве коришћења као што су дубоко учење и неуронске мреже, које постављају веће захтеве за складиштење у смислу капацитета, перформанси и скалабилности.

Нарочито:

Прилагодљивост
Машинско учење захтева руковање огромним количинама података, а како се обим података повећава, побољшава се и тачност модела.То значи да предузећа морају да прикупљају и чувају више података сваког дана.Када се складиште не може скалирати, радна оптерећења која захтевају велики број података стварају уска грла, ограничавајући перформансе и резултирајући скупим ГПУ-ом у мировању.

Флексибилност
Флексибилна подршка за више протокола (укључујући НФС, СМБ, ХТТП, ФТП, ХДФС и С3) је неопходна да би се задовољиле потребе различитих система, уместо да буде ограничена на један тип окружења.

Латентност
И/О латенција је критична за изградњу и коришћење модела јер се подаци читају и поново читају више пута.Смањење кашњења И/О може скратити време обуке модела за дане или месеце.Бржи развој модела директно доводи до већих пословних предности.

Пропусност
Пропусност система за складиштење је кључна за ефикасну обуку модела.Процеси обуке укључују велике количине података, обично у терабајтима на сат.

Паралелни приступ
Да би се постигла висока пропусност, модели обуке деле активности на више паралелних задатака.То често значи да алгоритми за машинско учење приступају истим датотекама из више процеса (потенцијално на више физичких сервера) истовремено.Систем складиштења мора да се носи са истовременим захтевима без угрожавања перформанси.

Са својим изванредним могућностима у малим кашњењима, великом пропусношћу и паралелним И/О великих размера, Делл ПоверСцале је идеална допуна за складиштење ГПУ-убрзаног рачунарства.ПоверСцале ефикасно смањује време потребно за моделе анализе који обучавају и тестирају скупове података од више терабајта.У ПоверСцале алл-фласх меморији, пропусни опсег се повећава за 18 пута, елиминишући И/О уска грла и може се додати постојећим Исилон кластерима да би се убрзала и откључала вредност великих количина неструктурираних података.

Штавише, ПоверСцале-ове могућности приступа са више протокола обезбеђују неограничену флексибилност за покретање радних оптерећења, омогућавајући да се подаци чувају коришћењем једног протокола и приступају помоћу другог.Конкретно, моћне карактеристике, флексибилност, скалабилност и функционалност ПоверСцале платформе помажу у решавању следећих изазова:

- Убрзајте иновације до 2,7 пута, смањујући циклус обуке модела.

- Уклоните И/О уска грла и обезбедите бржу обуку и валидацију модела, побољшану тачност модела, побољшану продуктивност науке о подацима и максималан повраћај улагања у рачунаре коришћењем функција за предузећа, високих перформанси, конкурентности и скалабилности.Повећајте тачност модела помоћу дубљих скупова података у вишој резолуцији тако што ћете искористити до 119 ПБ ефективног капацитета складиштења у једном кластеру.

- Остварите примену у великом обиму тако што ћете покренути мале и независно скалирање рачунара и складиштења, пружајући робусну заштиту података и безбедносне опције.

- Побољшајте продуктивност науке о подацима помоћу аналитике на лицу места и унапред потврђених решења за брже примене са ниским ризиком.

- Коришћење доказаних дизајна заснованих на најбољим технологијама, укључујући НВИДИА ГПУ убрзање и референтне архитектуре са НВИДИА ДГКС системима.Високе перформансе и конкурентност ПоверСцале-а испуњавају захтеве перформанси складиштења у свакој фази машинског учења, од прикупљања података и припреме до обуке модела и закључивања.Заједно са оперативним системом ОнеФС, сви чворови могу неприметно да раде у оквиру истог кластера којим управља ОнеФС, са функцијама на нивоу предузећа, као што су управљање перформансама, управљање подацима, безбедност и заштита података, што омогућава бржи завршетак обуке модела и валидацију за предузећа.


Време поста: Јул-03-2023