۴۲۱۸۳۰۰۰ - ۰۲۱

تبدیل صدا به Packet های صوتی

در گذشته ، دکتر Harry Nyquist مسیری را ایجاد کرد که دستگاه ها توسط آن ، سیگنال های آنالوگ را به دیجیتال (صفر و یک) تبدیل کنند. درک مراحل تبدیل سیگنال آنالوگ به دیجیتال باعث می شود تا بتوانید حجم نمونه های صوتی Voip ، منابع DSP و Codec ها را تنظیم کنید.
منشاء فرآیند تبدیل دیجیتال به سال 1920 و خیلی قبل تر از جهان Voip برمی گردد. سازمان هایی که به خطوط تلفن زیادی نیاز داشتند، با حجم زیادی از کابل مواجه می شدند. Nyquist پس از تحقیق متوجه شد که با نمونه گیری از جریان صوت می تواند این جریان صوت را در طرف دیگر ، مجدداً بازسازی کند.
نحوه تجزیه آن به این صورت است که فرکانس های صوتی بر اساس میزان صدا ، حجم ، گام و غیره که صدا را تشکیل می دهند متفاوت است و به چندین دسته تقسیم می شوند :


  1. گوش انسان قادر است فرکانس 20 – 20,000 HZ را بشنوند .
  2. صدای انسان فرکانس 200 – 9,000 HZ را می تواند تولید کند.
  3. خط تلفن می تواند فرکانس  300 – 3,400 HZ را منتقل کند.
  4. فرضیه ی Nyquist که در آن فرکانس محدوده ی 300 – 4,000 HZ در سمت دیگر ، قابل بازسازی است.
احتمالا این سوال برایتان پیش می آید که اگر صدای انسان فرکانس بین 200 – 9,000HZ تولید می کند و کانال های عادی تلفن ، فقط فرکانس 300 – 3,400HZ  را منتقل می کنند، چگونه می توان صدای انسان را بر روی خط تلفن متوجه شد؟ جواب در این است که تجهیزات مخابراتی فقط محدوده ای از فرکانس های قابل فهم صدای انسان را منتقل می کنند. محدوده 300 – 3,400 HZ برای فهمیدن صدای شخص مقابل ، کافی است و خطوط تلفن فقط بخشی از صدای انسان را ارسال می کنند.
Nyquist باور داشت که با دو بار نمونه گرفتن از بیشترین فرکانس صدا ، می توان صدا را در سمت دیگر مجددا تولید کند. به همین دلیل دو بار از بیشترین فرکانس بین 300 – 4,000 Hz نمونه برداری کرد.( 8000 بار نمونه برداری (2 *4000 ) در هر ثانیه ).

نمونه ، یک مقدار عددی است که یک بایت را اشغال می کند. تصویر زیر (1-1) فرآیند نمونه گیری را نشان می دهد که در آن یک سیگنال آنالوگ در امتداد محور افقی حرکت می کند. طی مرحله نمونه گیری ، دستگاهی که عملیات نمونه گیری را انجام می دهد یک ثانیه از سیگنال آنالوگ را در محور عمودی ، قسمت بندی می کند.


 

فرکانس صدا
تصویر 1-1
 
به این مرحله از تبدیل موج آنالوگ به دیجیتال ، عملیات Quantization گفته می شود. به دلیل اینکه یک بایت فقط می تواند مقدار عددی از 0-255 را حمل کند محدوده ی Quantization صدا به حداکثر +127 و حداقل -127 محدود می شود.
دستگاه نمونه گیر ، هر بایت را به هشت بیت باینری تقسیم کرده که این بیت ها به دو شاخص مثبت/ منفی تقسیم می شوند . همانطور که در تصویر 2-1 مشاهده می کنید، بیت اول مثبت یا منفی بودن و 7 بیت باقی مانده مقدار عددی را مشخص می کنند.



 
فرکانس صدا
تصویر 2-1
 
به دلیل اینکه مقدار اولین بیت در تصویر یک عدد است ، عدد به صورت مثبت خوانده می شود و هفت بیت باقی مانده  عدد 52 را نشان می دهند. این مقدار دیجیتال استفاده شده برای یک نمونه ی صوت می باشد.
حال طبق تئوری Nyquist باید در هر ثانیه ، هشت هزار نمونه مطابق مثال فوق گرفت . 8000 عدد نمونه که هر یک از این نمونه ها نیاز به 8 بیت دارد و حاصل ضرب آن 64000 bps می باشد. پس حجم فشرده نشده ی صدا در زمان ارسال 64kbps می باشد.
هنگامی که دستگاه نمونه گیر صدا ، مقدار عددی ایی به سیگنال آنالوگ اختصاص داد، روتر می تواند آن ها را در پکت های دیتا قرار داده و بر روی شبکه ارسال کند.

در نظر داشته باشید:
دو نوع G.711 Codec وجود دارد :  μ-law (که در آمریکا و ژاپن استفاده می شود) و a-law (که در بقیه دنیا استفاده می شود).
متد Quantization توضیح داده شده در قسمت قبلμ-law G.711 دقیقا برعکس a-law G.711 عمل می کند. در واقع تمامی بیت های یک در تصویر 2-1 به صفر و تمامی بیت های صفر ، به یک تبدیل می شوند.

آخرین مرحله ی عملیات Quantization که انجام آن اختیاری است ، فشرده سازی می باشد. Codecهای پیشرفته مانند G.729 به شما این امکان را می دهند تا تعداد نمونه های ارسالی را فشرده کرده و در نتیجه پهنای باند کمتری مصرف کنید. نمونه گیری از صدای انسان 8000 بار در ثانیه انجام می شود که بسیاری از این نمونه ها مشابه و یا با دیگری یکسان است. G.792 قادر است پهنای باند را برای هر تماس به 8kbps کاهش دهد. به طور مثال ،کلمه "Cow" را با صدای بلند بیان کرده و صدای خود را ضبط کنید. این کلمه را به نحوی بیان کنید که حدود یک ثانیه زمان ببرد. هنگامی که به صدای خود گوش می دهید، صدای "K" در آغاز کلمه ،مشخص است و سپس آوای "ahhhhh" در میان کلمه به گوش رسیده و در انتها آوای "wa " شنیده می شود. اگر این یک ثانیه را به 8000 نمونه ی مستقل تقسیم کنید، مشاهده خواهید کرد که اکثر این نمونه ها شبیه به یکدیگر می باشند.

G.729 (و اکثر Codec های فشرده ساز دیگر) جهت فشرده سازی ، یک نمونه از صدا را به سمت مقابل ارسال و می گویند برای مدت زمان مشخصی ، این صوت را پخش کن به این کار عموماً "ساخت کتاب رمز" گفته می شود. با استفاده از این روند G.729 قادر به کاهش پهنای باند اشغال شده به 8kbps برای هر تماس خواهد بود.
متاسفانه عملیات فشرده سازی و کاهش پهنای باند ، با افت کیفیت صدا همراه است. به همین دلیل واحد اندازه گیری ای به نام میانگین نمره ی نظر  Mos برای امتیاز دهی به Codec های مختلف صدا ایجاد شده است. 

جدول 1-1، امتیاز دهی به هر یک از Codecهای Voice را نمایش می دهد. شما می توانید از Codecهای متفاوتی در یک شبکه استفاده کنید، هر Codec برای یک بخش از شبکه می باشد. به طور مثال ، برخی Codec ها ، کیفیت صدا را قربانی رسیدن به انتقال بسیار ساده صوت ، می کنند.


 
فرکانس صدا
جدول 1-1
 
دو  Codecمتداول در تجهیزات سیسکو ، G.711 و G.729 می باشند. به طور مثال اگر یک تلفن IP سیسکو بخواهد با تلفن IP آوایا ارتباط برقرار کند، ممکن است Codec های فشرده شده زیادی را پشتیبانی کنند ، ولی حداقل مطمئن بود که هر دو G.711 را پشتیبانی می کنند.
شما می توانید از Codec های متفاوتی در شبکه Voip خود استفاده کنید. به طور مثال از G.711 Codec برای ارتباط تلفن ها در شبکه  LAN استفاده کرده و برای ارتباط بین شعب که لینک بین آنها از طریق  Wireless یا اینترنت برقرار شده است ، از G.729 Codec استفاده کنید.
 
توجه داشته باشید:
 G.729 دارای دو ورژن  (Annex A) G.729a و (Annex B) G.729b می باشد.  G.729aبا قربانی کردن بخشی از کیفیت صدا ، پهنای باند کمتری را مصرف می کند. G.729b دارای قابلیت تشخیص فعالیت صوتی (VAD) می باشد که باعث بهبود کیفیت صدا و کمتر مصرف شدن پهنای باند می شود.
 


برچسب ها


سیگنال فرکانس های صوتی G.792 a-law G.711 G.711 μ-law G.711 Voice Codec