Programozás: hangfelismerés - PROHARDVER! Hozzászólások

Legfrissebb anyagok

PROHARDVER! témák

Mobilarena témák

IT café témák

GAMEPOD.hu témák

LOGOUT.hu témák

Hirdetés

Mindent megtudtunk az új Nokia 3210-ről

ma Részletes képek, specifikációk és euróban megadott ár is van a legendás modell újraélesztett verziójához.
A franciáknak elege van abból, hogy minden gyerek mobilozik

it Vissza akarják szorítani a gyerekek és tinédzserek közösségi média- és okostelefon-használatát.
Az Apple megszerezné a klubvilágbajnokság közvetítési jogait

ph A vállalat ezért irgalmatlan pénzt fizetne a FIFA-nak, és ezzel rajzolná át az online streaming platformok háborújában a frontvonalakat.

Aktív témák

#1 Tele von Zsinór őstag

2003-07-02 22:24:28 #1
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Tele von Zsinór

őstag

Üdv,

hülye szokásom szerint szeretek idióta célokat magam elé tűzni, és most itt az újabb agyszülemény: kitaláltam, hogy milyen jó lenne hanggal vezérelni a gépet, persze nem mindenre kiterjedően, először csak 1-2 szó, mondjuk computer, meg shutdown, később esetleg univerzálisan, talán célhardverrel :) . Eljutottam odáig, hogy tudok felvenni, azt lementeni, azzal a fileal játszadozni. Kitaláltam, hogy ha átalakítom értékek (a mintavételek értékeinek) sorozatává, akkor azzal könnyebben tudok machinálni. A értékkeké átalakító progi/algoritmus megvan, most ezt kellene feldolgozni. Gondolkoztam azon, hogy az érttékek átlagai alapján lehetne azonosítani, aztán rájöttem, hogy hülyeség :) . Perpill jellegzetes részek felismerésén dolgozok, csak nem nagyon megy.

Mivel eddigi megfigyeléseim alapján itt több programozó is van, akik ráadásul képzettséggel is rendelkeznek, nem pedig könyvekből/internetről tanulták a kódolást mint én, gondoltam, titeket is érdekelhet a probléma, úgyhogy most hozzátok fordultam.

Elsősorban ötleteket várok, hogy hogy lehetne legalább 80%os biztonsággal azonosítani, hogy most computert mondott-e a kedves felhasználó (én), vagy shutdownt. 80% már elfogadható, szerintem. A nyelv (szerintem) lényegtelen, én delphiben dolgozom, de az átalakítás szerintem megoldható, főleg Cről, merrt gondolom a nagyok ebben dolgoznak.

Na, kicsit hosszú lett, de szerintem értitek. Várom a válaszokat.

Zsinór
#2 dearbear tag Tele von Zsinór #1

2003-07-02 22:36:25 #2
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dearbear

tag

válasz Tele von Zsinór #1 üzenetére

Hali!

Akusztikus jellemzők alapján nem fogsz tudni normális felismerőt írni, én a helyedben nekiállnék egy fft algoritmust keresni, hogy a spektrum alapján könnyebben tudj dolgozni. Aztán mivel elég kicsi a szótárad utánanéznék a dinamikus vetemítés témakörének például, de ha tényleg pontosat akarsz és még elfogadható időn belüli választ is szeretnél, és gondolni akarsz a későbbi fejlesztésre akkor a rejtett markov modell alapú leképzés lehet a barátod.

Bye!

To develop or not to develop that is the question.
#3 #57764352 törölt tag

2003-07-02 22:46:43 #3
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#57764352

törölt tag

Egy jó megoldás lenne, ha minden ''beszólásnál'' elindulna a felvétel és a hangvezérlést összehasonlítaná az eredetivel..
Ha valaki már írta ezt, akkor bocsi, nem olvastam végig..
#4 dearbear tag #57764352 #3

2003-07-02 22:54:17 #4
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dearbear

tag

válasz #57764352 #3 üzenetére

Próbáld ki, és mond kétszer pont ugyan azt meg a gépednek.
1. Könnyen észrevehető, hogy mivel a mintavételezés még a legrosszabb esetben is 8kHz, ezért 0.1 ms-os különbséget a kiejtésben még észre lehet venni.
2. Arról nem is beszélve, hogy ha véletlenül egy kicsit más hanglejtésben mondod az egészet, azaz nem figyelsz arra hogy legalább kicsit hasonlítson, akkor iszonyat különbségek lesznek.
3. Ha pedig azt nézzük hogy a tisztelt kolléga távolról szeretné vezérelni a számítógépét hanggal, akkor egyből a távolságból adódó hangerősségváltozást is tudnia kellene kompenzálni.

Szóval elég macerás, de végül is a dinamikus vetemítés ezt hivatott elvégezni, persze nem az akusztikus jellemzők alapján, hanem kellően jól szűrt töredékinformációkból.

Byez!

To develop or not to develop that is the question.
#5 #57764352 törölt tag

2003-07-02 22:56:50 #5
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#57764352

törölt tag

Az összenhasonlításnak nem kell 100%-kos egyezést mutatnia. A 70% elég..
Szerintem...

Amúgy én is szeretnék egy hasonlót.. :DD
#6 Tele von Zsinór őstag

2003-07-02 22:59:41 #6
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Tele von Zsinór

őstag

Nem egy távolról való vezérlésen gondolkozom, hanem ott ülök a gép előtt, megnyomok egy gombot, indul a felvétel, újabb nymásra leáll, és elindul a felismerés. 1-2-3mp-s késés még nyugodtan elmegy. Arról nem is beszéltem, hogy később jöhet egy makrőnyelv is :) . Mindenesetre az eddigi ötleteket kösz, elkezdek utánanézni az ismeretleneknek.
#7 dearbear tag Tele von Zsinór #6

2003-07-02 23:03:56 #7
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dearbear

tag

válasz Tele von Zsinór #6 üzenetére

Míg el nem felejtem, arra ne is akarj törekedni hogy az egyes betűket pontosan meg tudd mondani hol találhatóak a hangban. Nagyon fontos hogy a szünetre is pontosan odafigyelj.
A spektrum analízise, és amit az előző bekezdésben írtam a lényegkiemelés fontos részei, ezeket még az előtt el kell végezned, hogy a fent említett mesterséges intelligencia módszereket alkalmaznád.

To develop or not to develop that is the question.
#8 Atyus tag Tele von Zsinór #1

2003-07-28 20:11:54 #8
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Atyus

tag

válasz Tele von Zsinór #1 üzenetére

Már léteznek ilyen progik egy ideje.
Felesleges megcsinálni az 501. könylevőprogit, ha már előtte nagy cégek elkészítettek egy halommal.
Ugyanez igaz erre a témakörre is..

A Microsoft, az IBM és egy halom cég fejleszt beszéd értő progikat. Olyanokat ingyen le is lehet tölteni, amelyek 10-20 szóig parancsokat lehet hozzárendelni az előre meghatározott szóhoz.

Néhány ajánlott szakirodalom :
Prószéki Gábor : Számítógépes nyelvészet
Kempelen Farkas : Az emberi beszéd mechanizmusa
Olaszy : Elektronikus beszédelőállítás

ui.: 1988-ban - még Spectumra -írtam dimpoma munkámnak egy beszédszimulátor programot..

A programok csak algoritmusok, mint ahogy az emberi lények is csak vegyi anyagok halmazai.
#9 RAM őstag Atyus #8

2003-08-26 09:28:40 #9
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

RAM

őstag

válasz Atyus #8 üzenetére

''A Microsoft, az IBM és egy halom cég fejleszt beszéd értő progikat. Olyanokat ingyen le is lehet tölteni, amelyek 10-20 szóig parancsokat lehet hozzárendelni az előre meghatározott szóhoz.
''

Honnan lehet letölteni ilyet?

Csak tisztán
#10 [w] őstag

2003-08-26 19:00:52 #10
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

[w]

őstag

hey!
szerintem a hatterzaj kikuszobolese sem lesz kis problema.
egyebkent van a neten egy kis progi Voicenet 2000 (2001?) neven, pont ezt keresed (R A M-nek is szol), erdemes belenezni.

[w]

cmdr PETER W. VOLKOV
#11 steveetm őstag

2003-08-26 19:04:42 #11
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

steveetm

őstag

Kis érdekesség:
Nem is tudom mikor, már elég régen, vettem egy AWE 32 es hangkarit.
Adtak hozzá minden földi jót, még egy beszédfelismerő szoftot is!!!
Egy P200 on AWE32 vel és azzal a mikrofonnal amit hozzá adtak tökéletesn tudtam vezérelni a gépet, egy szót mikor tanult, 2-3 szor benyögtem neki, és onnantól ismerte rendesen.
Ma miért nincs ilyen alapból a hangkártyákban?
Üdv.: steveetm
#12 sirály12 őstag

2003-08-26 19:07:53 #12
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

sirály12

őstag

Nézz it körül: [L]http://www.microsoft.com/speech/download/old/sdk40a.asp[/L]

Én szárnyalnék, de nem hagyják.
#13 adriankoooo senior tag

2003-08-26 20:00:39 #13
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

adriankoooo

senior tag

NEEEEM! Rosszul áltok hozzá:

Az inteltol le lehet tolteni egy ojan ingyenes szoftvert (forráskóddal) amely forradalmian megváltozatja a hangfelismerést/vezérlést. A lényege: kell egy webkamcsi meg mikrofon, a webkamera figyeli a száj mozgását + a mikrofonnal osszeveti a szót. A computer panorámában olvastam

WOW!