Karol Jerzy Piczak obronił pracę doktorską

KarolPiczak-2019

W dniu 14 maja 2019 roku Karol Jerzy Piczak obronił z wyróżnieniem rozprawę doktorską pt. "Klasyfikacja dźwięku za pomocą splotowych sieci neuronowych " . Promotorem rozprawy był dr hab. inż. Jarosław Arabas.

Abstract:
This thesis focuses on the use of convolutional neural networks in sound classification. Its goal is to show that such models, whose effectiveness has been confirmed earlier in numerous image recognition problems, can be successfully applied in general sound classification tasks, and it is possible despite a pronounced gap between these areas with regard to the availability of labeled datasets. This work presents some of the first published examples of using convolutional neural networks in environmental sound classification and singing bird recognition. The proposed method is based on processing mel-spectrograms through networks operating with vertical filters in the first convolutional layer. Such an approach combines good classification accuracy and favorable performance metrics when compared with convolutional architectures common in image processing. Both the experimental results and subsequent recognition by a broader community engaged in this subject confirm that convolutional neural networks are a promising tool in the area of sound recognition. Apart from a thorough literature review pertaining to convolutional neural networks and sound classification, this thesis also contains a detailed analysis evaluating the sensitivity of proposed models to changes in hyperparameter values. This study is one of the broadest comparisons of this kind performed to date. An integral outcome of the performed research work is the creation of the „ESC-50” dataset of environmental recordings, which tries to address the limited availability of publicly accessible resources with labeled data of this kind. The significance of this initiative is confirmed through numerous publications of other authors employing it as a reference dataset in their experiments.

Streszczenie: Niniejsza rozprawa skupia się na temacie wykorzystania splotowych sieci neuronowych do klasyfikacji dźwięku. Jej celem jest wykazanie, że modele tego typu, których efektywność została wcześniej potwierdzona w licznych zagadnieniach rozpoznawania obrazów, można z powodzeniem zastosować również w zadaniach klasyfikacji dźwięków o ogólnym charakterze i to pomimo występującej między tymi obszarami dysproporcji w dostępności etykietowanych zbiorów danych. Rozprawa prezentuje jedne z pierwszych opublikowanych w literaturze przykładów użycia splotowych sieci neuronowych do klasyfikacji dźwięków środowiskowych i rozpoznawania gatunków ptaków śpiewających. Zaproponowana w tym celu metoda opiera się na przetwarzaniu spektrogramów wyrażonych w skali melowej za pomocą sieci wykorzystujących wertykalne filtry w pierwszej warstwie splotowej. Podejście takie zapewnia połączenie dobrej dokładności klasyfikacji z korzystnymi parametrami wydajnościowymi w porównaniu do architektur splotowych typowych dla przetwarzania obrazów. Zarówno wyniki przeprowadzonych eksperymentów, jak i pozytywny odbiór koncepcji przez szerszą społeczność zajmującą się tą tematyką, potwierdzają, że splotowe sieci neuronowe są obiecującym narzędziem w obszarze rozumienia dźwięku. Poza wyczerpującym omówieniem literaturowym tematyki splotowych sieci neuronowych i klasyfikacji dźwięku, rozprawa zawiera również szczegółową analizę wrażliwości zaproponowanych modeli na zmiany wartości hiperparametrów. Zestawienie to jest jednym z najszerszych porównań tego typu przeprowadzonych dotychczas w literaturze przedmiotu. Integralnym efektem prac badawczych podjętych w ramach rozprawy jest także utworzenie zbioru nagrań środowiskowych „ESC-50”, mające na celu poprawę sytuacji ograniczonej publicznej dostępności zasobów z etykietowanymi danymi tego typu. Znaczenie tej inicjatywy potwierdzają liczne publikacje innych autorów wykorzystujące ten zbiór jako punkt odniesienia w przeprowadzanych eksperymentach.

Ostatnia modyfikacja: piątek, 31 maja 2019, 09:26:44, Agnieszka Skalska

x x Aktualności (3) - wg daty publikacji

‹‹ Grudzień 2018 ››
Pon Wt Śr Czw Pt So N
          1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31            

absolwenci ankieta badania BigData dydaktyka IBM instytut Instytut Lotnictwa ISI kandydaci konkurs konkurs FINESCE orientacja praca praktyki prezentacja programowanie projekty przedmiot przedmioty publikacje seminarium specjalność staże zagraniczne studenci studia studia magisterskie studia za granicą stypendia Texas Instruments współpraca wykład

x x Znaczniki

x x Zestawienie miesięczne