Hapi, chlape, Cisco nemůžeš házet do popelnice, je to nebezpečný elektroodpad, to se musí likvidovat jinak!

Ale názoru, že jde o předražené krabice s poddimenzovanými procesy se nebráním...
Reagoval jsme primárně na to, že máme výpadky, strčím mezi Cisco a rádio nějaký switch a ono to přestane. Pokud vynechám variantu, že si rádio s Ciscem nesedlo signalizačně, což by snad i tupá opice na dohledu mohla poznat podle té tuny blábolů, co to obvykle generuje, tak jako pravděpodobné vychází to ne/použití flowcontrol.
Budeš se divit, ale Cisco umí flowcontrol i shaping...
Flowcontrol se z principu vypíná, protože ve většině případů škodí, proto ho mají ty Cisco bedny default vypnuté a kdo chce, musí si ho zapnout. Je pár situací, kde má přínos. Tohle spojení switche rychlou linkou do pomalého rádia, které nemá dost paměti na případné bursty, je jedno z mála z nich, kde má smysl, pokud se ten burst vejde do bafrů. Jde to udělat i jinak, můžu v Ciscu nastavit, že nemá tlačit do rádia data gigabitem ale třeba jen 200 Mbps (pokud mám konektivitu pod 200 Mbps a rádio umí dát víc jak 200 Mbps), tím využiju opět případné bafry ve switchi a nepotřebuji flowcontrol. V Ciscu něco jako "srr-queue bandwidth limit 20" na gigabitovém portu nastaví posílání dat rychlostí cca 200 Mpbs (zadávají se procenta z nativní přenosovky v kroku 10%). Flowcontrol má proti tomuhle plus v tom, že umožní využít sloučeně bafr v rádiu i switchi a nevýhodu v horší odezvě a plynulosti toku linky, pokud bude docházet k jeho aktivaci.
Pokud si pamatuji, tak jsi psal, že nakonec něco zapli na rádiu a ono se to napravilo a odmítli říci co. Možná na tom Caregonu nastavili, že má použít a generovat pause rámce, když bude plné (nebo to má konfigurovatlenou velikost front a natáhli ji na max)? Nevím, je to jedna z možností. Samozřejmě ti z Práglu nejlépe neměli posílat víc, než co dokáže trasa zpracovat.
Souhlasím, že asi dojdeš k tomu, že má větší výpadky ten, kdo má router až za rádiem u sebe, než ten s routerem na POPu, pokud je oblažován podobnými bursty jako ty. Ten router ti plní funkci toho bafru na pochytání burstů, obvykle operuje s podstatně větší RAMkou než switch/rádio a dokáže burst pobrat a pak rovnoměrné to rozpustí dál do pomalejší linky.
K té myšlence, aby si POPové Cisco při zaplnění zabrzdilo další předchozí switch, kdyby mu došly bafry - proto krám, že je neumí generovat. To je jen dobře. Jednak ten poslední switch před tvým Caregonem není asi jen pro tebe. Asi by ti nepoděkovali ostatní klienti připojení ke stejnému POPu, že se jim zasekává konektivita dle toho, jak tvůj Caregon se zakucká burstem paketů a při nestíhání si vynutí zastavení toku od uplinkového switche pro všechny klienty.
Druhý důvod je relativní debilita toho flowcontrol. Není to stop-start komunikace, ale jen stop na oznámený čas, kdy zahlcený prvek posíla pause rámec a v něm na jak dlouho se má zastavit vysílání (v násobcích doby odpovídající přenosu 512 bitů na linkové rychlosti). Čeasto se to posílá defenzivně, takže se zahlcená strana zcela vyprázdní a odesílající strana ještě nějakou dobu čeká, než obnoví posílání. Pokud se takto dá víc prvků za sebe a dojde k řetězovému zastavení, tak se to rozbíhá jak Čech na křižovatce a data protékají v přískocích, proto je nežádoucí víc 802.3x aktivních prvků za sebe.
Exisutje novější veze flowcontrol, než je 802.3x stopující celý port. Existuje 802.3bd, který umí zastavovat jednotlivé toky, ale ty jsou definovány dle CoS priorit provozu (802.1p) a ne volitelně dle klientů. Ale skoro nikdo to nepodporuje, Cisco možná v Nexusech, je to určeno pro specifickou oblast datových center.
Korektní otázka, zda flow cotrol ti pomůže pochytáním dat do bafrů. Nevím jak ty bursty byly objemově veliké (max mohl mít tak 1 MB dat). Předpokládám na tom POPu něco jako model 3650 (i kdyby 2650, tak je to stejné). Nevím přesně vnitřní strukturu plně gigové verze, ale je to praděpodoně stejné se stovkou, kde jeden ASIC řídí 24 linek místo 8 u giga. Takže v jednom ASICu na 8 linek je pro egress fronty cca 2 MB, ta je dělena na bafry o 256 bajtech, kde každý port má privátních 200 bafrů a ze zbylého sdíleného poolu se může alokovat do celkového počtu 800 bafrů na port. Do jednoho bafru nejde dát data víc paketů (takže krátké pakety 64 až cca 240 bajtů vždy vezmou jeden bafr, plný 1500 obsadí 6 bafrů). Z toho se dá usuzovat, že reálně máš na výstupu portu 100 až 200 KB bafr v závislosti na velikosti paketů.
Jinak souhlas s tím, že pokud se potkají nad linkou 3 subjekty - jeden za konektivitu a uplink, druhý za last míli a třetí platí/reklamuje, tak se občas dobrat výsledku je pakárna, vždy je špatný ten třetí, který u komunikace dvou zrovna není....
K tomu shapingu. Shpang je na Cisuc podporován a kupodivu tam najdeš i realtivně pdoobné údaje tomu, co znáš z ROSu, co máš jako limit-at/max-limit je v protějšku shape average/shape peak. Je tam i ekvivalent burst režimu, který může být jak na average, tak i peak režimu (ale kratší bloky než v ROS), taktéž dělení do podtříd a náznaku QTčka....
Jenže na tebe neuplatňují shaping (i když by asi šel nastavit s blbým burst oknem, které by tě ubíjelo), ale je použit policing. Důvod bude prostý, jednak shaping podporují až velké bedny a vyžaduje dost protřeků v té bedně, musí mít dost RAM na bafry, podstatně větší nárok na CPU a pokud máš dráty na 10 Gbps a spousty klientů... Co ti udělal RB1100AHx2 po nasazení QT si asi ještě pamatuješ. Proti tomu policing je součástí i toho nejtupějšího zařízení a má minimální nároky na výkon a prostředky. Policing ale neomezuje rychlost jakou k tobě tečou data, nýbrž jen průměrné množství dat v čase.
Je k tomu kyblíková teorie a několik variant, ale prakticky je základem čítač, který čítá rychlostí průměrné povolené rychlosti, pokud máš 100 Mbps, tak 10 M/sec (v bajtech) a má horní storp odpovídající povolenému burstu (obvykle v limitu 8k až 1M bajtů). Čítač se zařezává na hodnotu burst. Pokud dojde paket, tak se od čítače zkusí odečíst délka paketu, jeli výsledek nezáporný, paket propuštěn, pokud by se šlo do záporna, paket je dropnut. Když tečou data cca kolem té definované rychlosti, tak čítač se drží poblíž nuly a sem tam ti tak dropne paket. Pokud máš provoz žádný nebo nízky, je udržován na tom maximu odpovídající burstu, pokud má limit třeba 256K a přiletí do switche gigabitem nesený burst o 256KB dat, tak je propuštěn nezměněnou rychlostí, jen kdyby byl delší, tak po těch 256 KB se bude dropovat na propustnost cca těch 10 MB/s. Tohle se asi dělo u toho tvého sběru netflow dat, jak jsi zmiňoval někoho, kdo měl větší bloky. A tento propuštěný burst ti zaházelo rádio, že ho neustálo. Pokud velikost burstu stáhli, tak to už vydropuje někde v centru a rádio už s tím problém nemá.... Narazil jsi na to, že máš trošku netradiční toky dat, běžnější je přeci jen plynulejší přenosu, než bursty od těch netflow sond, takže při takovémto blbém nastavení ti to ztrátovalo dost. U někoho jiného se to vůbec nemusí projevit.
Policing má plus v tom, že se dá realizovat v čemkoliv, díky nenáročnosit na implementaci, také nevnáší zpoždění do komunikace (což shaping s tím frontou obvkyle nějaké malé dělá), ale produkuje ty přenosové špičky, které by shaping urovnal. Pokud následná síť se s těma špičkama umí vyrovnat, tak je policing pro carriera ideál, protože to obsluží s tupějšíma krabicema.