Thông báo

Collapse
No announcement yet.

Nhận dạng tiếng nói

Collapse
X
 
  • Lọc
  • Giờ
  • Show
Clear All
new posts

  • #31
    Mình nói thêm 1 chút nữa.
    Việc tách từ cũng rất quan trọng, nếu tách ko tốt thì có thể làm ảnh hưởng trầm trọng đến tín hiệu tiếng nói hoặc bị nhiễu -> kết quả sai.
    Còn việc nói gần hay xa micro:
    Cái đó tùy thuộc vào loại micro bạn dùng, thiết kế và giải thuật của bạn thôi.
    Mình dùng loại micro khá nhạy, và đăc trưng mình ít phụ thuộc vào năng lượng tín hiệu thu được nên có thể nói xa đến cỡ 2m. Nhưng nhược điểm của nó là phải khuếch đại nhiều, nhiễu nhiều.
    Bạn có thể dùng loại micro chỉ khuếch đại khoảng vài chục, đến vài trăm lần sẽ ít bị nhiễu nhưng phải nói gần.
    Chúc vui .

    Comment


    • #32
      Nguyên văn bởi pieuxvu Xem bài viết
      Mình nói thêm 1 chút nữa.
      Việc tách từ cũng rất quan trọng, nếu tách ko tốt thì có thể làm ảnh hưởng trầm trọng đến tín hiệu tiếng nói hoặc bị nhiễu -> kết quả sai.
      Còn việc nói gần hay xa micro:
      Cái đó tùy thuộc vào loại micro bạn dùng, thiết kế và giải thuật của bạn thôi.
      Mình dùng loại micro khá nhạy, và đăc trưng mình ít phụ thuộc vào năng lượng tín hiệu thu được nên có thể nói xa đến cỡ 2m. Nhưng nhược điểm của nó là phải khuếch đại nhiều, nhiễu nhiều.
      Bạn có thể dùng loại micro chỉ khuếch đại khoảng vài chục, đến vài trăm lần sẽ ít bị nhiễu nhưng phải nói gần.
      Chúc vui .
      cảm ơn bạn rất nhiều. mình định xem luận văn bạn thế nào. nhưng thấy bạn phát triển đề tài của bạn thành sp thương mại thì mình cũng muốn chờ sp đó ra mắt. mh sẽ ủng hộ bạn. chúc bạn thành công. nếu bạn thành công mh sẽ là người đầu tiên mua nó.... về nghiên cứu

      Comment


      • #33
        Nguyên văn bởi pieuxvu Xem bài viết
        Mình nói thêm 1 chút nữa.
        Việc tách từ cũng rất quan trọng, nếu tách ko tốt thì có thể làm ảnh hưởng trầm trọng đến tín hiệu tiếng nói hoặc bị nhiễu -> kết quả sai.
        Còn việc nói gần hay xa micro:
        Cái đó tùy thuộc vào loại micro bạn dùng, thiết kế và giải thuật của bạn thôi.
        Mình dùng loại micro khá nhạy, và đăc trưng mình ít phụ thuộc vào năng lượng tín hiệu thu được nên có thể nói xa đến cỡ 2m. Nhưng nhược điểm của nó là phải khuếch đại nhiều, nhiễu nhiều.
        Bạn có thể dùng loại micro chỉ khuếch đại khoảng vài chục, đến vài trăm lần sẽ ít bị nhiễu nhưng phải nói gần.
        Chúc vui .
        Cho mình hỏi, nếu bạn khuếch đại nhiều thì tăng độ chính xác của quá trình nhận dạng à?

        Lúc trước khi làm luận văn này, mình nhận thấy việc khuếch đại chỉ để làm "vừa lòng" anh chàng ADC thôi, vì khi khuếch đại thì tín hiệu tăng và nhiễu cũng tăng -> độ chênh lệch của tín hiệu mong muốn với nhiễu là không đổi, đem FFT ra không thay đổi. Khi đó mình thử ... không khuếch đại và khuếch đại 100 lần, cả hai cho kết quả giống nhau.

        Vì vậy theo mình nghĩ quan trọng là cái micro tốt và nguồn cung cấp (cho cái micro và ADC) chuẩn là ổn (để giảm nhiễu ngay từ trứng nước).

        Không biết bạn nghĩ thế nào.
        Still waters run deep.

        Comment


        • #34
          Nguyên văn bởi pieuxvu Xem bài viết
          Thành thật xin lỗi bạn!
          Giải thuật này mình tự nghiên cứu tìm ra, sắp tới mình định phát triển và có thể đưa ra thương mại nên mình ko thể share được. Báo cáo luận văn mình để lại trường cũng ko trình bày giải thuật này :d
          Nói chung thì tỷ lệ nhận dạng của mình khá cao(trên 90%), và đặc biệt nó có thể nhận đúng giọng của tất cả mọi người ( kể cả già trẻ, nam nữ), sắp tới mình sẽ tăng số từ vựng lên khoảng 20-30 và cải thiện độ chính xác lên nữa.
          Thú vị thật, không ngờ pieuxvu nghĩ ra giải thuật mới trong cái luận văn đại học, và chúc bạn sớm có sản phẩm thương mại .

          Nếu đúng như bạn nói thì có thể viết thành bài báo quốc tế đấy.

          Lúc trước tôi chỉ nhận dạng được tối đa là 6 từ, trên DSP của TI - tốc độ hơn 10 lần con bạn dùng, và bộ nhớ cũng gấp cỡ 10 lần, và giải thuật tôi dùng là sao chép lại từ một thầy ở UIUC. Sau khi hoàn thành, tôi "kết luận" (theo cảm tính) điều khiển bằng nhận dạng giọng nói là phương pháp điều khiển tệ nhất . Vậy nên rất nóng lòng xem sản phẩm của bạn.
          Still waters run deep.

          Comment


          • #35
            Nguyên văn bởi TamGiang Xem bài viết
            Thú vị thật, không ngờ pieuxvu nghĩ ra giải thuật mới trong cái luận văn đại học, và chúc bạn sớm có sản phẩm thương mại .

            Nếu đúng như bạn nói thì có thể viết thành bài báo quốc tế đấy.

            Lúc trước tôi chỉ nhận dạng được tối đa là 6 từ, trên DSP của TI - tốc độ hơn 10 lần con bạn dùng, và bộ nhớ cũng gấp cỡ 10 lần, và giải thuật tôi dùng là sao chép lại từ một thầy ở UIUC. Sau khi hoàn thành, tôi "kết luận" (theo cảm tính) điều khiển bằng nhận dạng giọng nói là phương pháp điều khiển tệ nhất . Vậy nên rất nóng lòng xem sản phẩm của bạn.
            Đồng ý nhất trí cao với Tam Giang!
            Đỉnh cao như Black Berry quay số còn nhận dạng sai nữa là...

            Comment


            • #36
              Nguyên văn bởi TamGiang Xem bài viết
              Cho mình hỏi, nếu bạn khuếch đại nhiều thì tăng độ chính xác của quá trình nhận dạng à?

              Lúc trước khi làm luận văn này, mình nhận thấy việc khuếch đại chỉ để làm "vừa lòng" anh chàng ADC thôi, vì khi khuếch đại thì tín hiệu tăng và nhiễu cũng tăng -> độ chênh lệch của tín hiệu mong muốn với nhiễu là không đổi, đem FFT ra không thay đổi. Khi đó mình thử ... không khuếch đại và khuếch đại 100 lần, cả hai cho kết quả giống nhau.

              Vì vậy theo mình nghĩ quan trọng là cái micro tốt và nguồn cung cấp (cho cái micro và ADC) chuẩn là ổn (để giảm nhiễu ngay từ trứng nước).

              Không biết bạn nghĩ thế nào.
              Chào anh,
              Em biết anh học trên em 1 khóa ở BKHCM, lúc làm luận văn em cũng có xem qua luận văn của anh :d

              Việc khuếch đaị theo em mục đích chỉ để có được biên độ tương đối phù hợp để đưa vào ADC thôi, chứ ko tăng độ chính xác lên được.

              Nguồn chuẩn là cái cực kỳ quan trọng, cái này em tốn ko ít thời gian vì nó, cuối cùng thì chỉ tàm tạm thôi chứ chưa ổn lắm, giờ em đang cải tiến vấn đề đó.

              Còn cái micro thì theo em nên chọn cho phù hợp. Như cái mic em xài trong luận văn,nó có biên độ ra rất nhỏ và nhạy, em phải khuếch đại đến vài chục ngàn lần, biên độ nhiễu vì thế mà cũng tăng theo (khoảng 0.07V). Có đứa bạn nó xài cái mic rất to, khuếch đại chỉ vài chục lần, biên độ nhiễu thấp hơn nhưng cái đó ko nhạy lắm.

              Còn việc nghĩ ra giải thuật mới thì cũng do em bị ép đến đường cùng rồi hehe. Trước giờ em chẳng bao giờ dụng tới lĩnh vực xử lý tín hiệu bao giờ, chỉ vì cái đề tài luận văn cũ thất bại nên mới chuyển qua đề tài này.
              Vì là amateur nên làm mãi đến lúc sắp phản biện mà em vẫn chưa có kết quả gì, lúc đó mất hến tinh thần rồi, thức trắng cả tuần để nghĩ ra cách giải quyết, ai ngờ nghĩ ra cách này, khi ra bảo vệ mấy thầy khen nhận tốt nhưng mô hình xấu quá, báo cáo cũng tệ :d

              Comment


              • #37
                Nếu dùng matlab để xử lý tín hiệu âm thanh trên máy tính thì ta dùng mic của headphone có được có được ko nhỉ. Mình mới tìm hiểu về đề tài này nên chưa có kinh nghiệm lắm mong được mọi người chỉ giáo.

                Comment


                • #38
                  Nguyên văn bởi fastman Xem bài viết
                  Nếu dùng matlab để xử lý tín hiệu âm thanh trên máy tính thì ta dùng mic của headphone có được có được ko nhỉ. Mình mới tìm hiểu về đề tài này nên chưa có kinh nghiệm lắm mong được mọi người chỉ giáo.
                  sao lại không. Mua cái xịn xịn làm cho tốt.
                  Still waters run deep.

                  Comment


                  • #39
                    Nếu bạn có gặp khó khăn trong việc thiết kế trên hệ thống nhúng thì qua box FPGA nhé ... rất mong muốn góp phần đem công nghệ của bạn ra thị trường nhanh chóng ...

                    Comment


                    • #40
                      Nguyên văn bởi TamGiang Xem bài viết
                      sao lại không. Mua cái xịn xịn làm cho tốt.
                      xin chào a !
                      Cám ơn a đã chia sẻ luận văn của mình để cho những người đi sau-còn thiếu kinh nghiệm-như em được tham khảo.
                      Em đã đọc qua luận văn của a, cho e hỏi là KIT TMS320C2812 mà a làm thì mua ở đâu ạ? giá cả thế nào? trên thị trường có bán ko ạ ( em học ở Hà Nội) ? Có phải vì thuật toán nhận dạng "đồ sộ" nên mình phải triển khai trên những chip mạnh (như DSP, ARM..) ,phải ko ạ? nếu e chỉ dùng PIC thì có được ko a ?
                      Mong các bạn và a cùng chia sẻ

                      Comment


                      • #41
                        to chanxi :
                        TI dòng C2000 thì không để làm cho mảng tiếng nói được đâu bạn ơi ! đây là nguyên si những công dụng của nó mà mình xem trên trang chủ ti.com : Motor Control, Digital Power, Lighting, Renewable Energy, Metering PLC.
                        nếu muốn làm xử lý tiếng nói với TI thì ít ra cũng phải là C5000 . Cẩn thận không mua về phí tiền

                        Comment


                        • #42
                          Nguyên văn bởi stone_fman Xem bài viết
                          Bạn có cao kiến gì không?
                          Khoan hãy nói đến nhận dạng thực trên các Kit,có bạn nào đã phân tích và nhận dạng sóng qua Matlap chưa?

                          Theo mình Matlap sẽ giúp cho các bạn rất nhiều đấy!Mình hiện tại không phát triển trên các kit của Ti nữa mà chuyển sang nhận dạng trực tiếp trên DTDD.
                          Ai có hướng dẫn xử lý tiếng nói xử dụng Matlap ko cho em xin với

                          Comment


                          • #43
                            Nguyên văn bởi chanxi9 Xem bài viết
                            xin chào a !
                            Cám ơn a đã chia sẻ luận văn của mình để cho những người đi sau-còn thiếu kinh nghiệm-như em được tham khảo.
                            Em đã đọc qua luận văn của a, cho e hỏi là KIT TMS320C2812 mà a làm thì mua ở đâu ạ? giá cả thế nào? trên thị trường có bán ko ạ ( em học ở Hà Nội) ? Có phải vì thuật toán nhận dạng "đồ sộ" nên mình phải triển khai trên những chip mạnh (như DSP, ARM..) ,phải ko ạ? nếu e chỉ dùng PIC thì có được ko a ?
                            Mong các bạn và a cùng chia sẻ
                            KIT C2000 đúng là ko nên dùng để nhận dạng giọng nói, vì tiền thân TI thiết kế dòng C2000 cho điều khiển. Thời điểm tôi làm luận văn chỉ mượn của khoa bộ kit này nên phải gọt chân cho vừa giày.

                            Bộ kít "đúng" của TI cho xử lý số là dòng C6000 (ở bộ môn ĐKTĐ của BK tp hiện đang có kít này, bạn nào ở khoa có thể liên hệ để mượn, mượn được ko thì tôi ko chắc ).

                            Các giải thuật XLS thường khá nặng nề nên khuyên dùng với những dòng dsp mạnh. Nhận giạng giọng nói thì cần thêm ram lớn nữa, cái này rất quan trọng nhé. Và cuối cùng, dsp thường hỗ trợ các thư viện tính toán số rất đã, viết trên những vđk thông thường thì phải làm lại từ đầu, e rằng ko kịp cho cái luận văn mất.
                            Still waters run deep.

                            Comment


                            • #44
                              Anh pieuxvu làm được cái nhận dạng được nhiều người thì anh chắc sắp thành giáo sư rồi.Theo em dÙng arm khá được.Ram thì dư sức,tốc độ ấn tượng.Em cũng đang nghiên cứu cái nhận dạng như anh pieuxvu.Phải nói rằng giọng nói kô quá phụ thuộc vào biên độ mà là tần số và pha ban đầu.Có thể nói ở 1 thời điểm khác có thể xuất hiện 1 tín hiệu sin mới hòa lẫn vào các tín hiệu trước đó.
                              , , ,

                              Comment


                              • #45
                                Sao kô thấy ai nghịch cái này nhỉ.Anh pieuxvu cho ý kiến đúng đó.Em cũng tìm ra cái tương tự như anh pieuxvu nói.Mấy ý kiến của anh pieuxvu rất có ích.Em đang cố gắng trích đặc trưng.Và cho các bạn lời khuyên khi nghịch cái này là kô có công thức nào hết.Tất cả đều là tự nhiên.Khi hiểu được chân lý này cái gì cũng có thể làm được.
                                , , ,

                                Comment

                                Về tác giả

                                Collapse

                                antebk Tìm hiểu thêm về antebk

                                Bài viết mới nhất

                                Collapse

                                Đang tải...
                                X