Computational Linguistics, Sharif University of Technology

زبان‌شناسی رایانشی دانشگاه صنعتی شریف

Computational Linguistics, Sharif University of Technology

زبان‌شناسی رایانشی دانشگاه صنعتی شریف

پرتال زبان‌شناسی رایانشی

در این پست قصد دارم لینک پرتال جامع زبان‌شناسی رو معرفی کنم.

در این لینک مباحثی چون زبان‌شناسی چیست؟"، "سیر تحول زبان‌شناسی در ایران و جهان ،زبان‌شناسی نظری و کاربردی، علوم میان رشته ای و مرتبط با زبان‌شناسی مطرح شده، که از لینک زیر قابل دسترسی است:

 

پرتال جامع زبان‌شناسی 

 

از قسمت علوم میان‌رشته ای می تونید وارد لینک مربوط به زبان‌شناسی رایانشی بشید ولیست کتب و مقالاتی که در این زمینه منتشر شده رو ببینید. 291 مقاله و کتاب در این لینک معرفی شده که اکثر مقالات رو می تونید دانلود کنید یا چکیدش رو بخونید. 

 

لینک کتب و مقالات منتشر شده در حوزه ی زبان‌شناسی رایانشی

 

نویسه‌خوان نوری(OCR)

آغاز پروژه ایجاد پایگاه‌های داده نویسه‌خوان نوری حروف فارسی از سال آینده   

 

معاون فنی دبیرخانه شورای عالی اطلاع‌رسانی از آغاز پروژه ایجاد "پایگاه‌های داده نویسه‌خوان نوری حروف فارسی" از سال آینده خبر داد .

معاون فنی شورای عالی اطلاع‌رسانی خاطرنشان کرد: در این پژوهش‌نامه 9 پروژه زیرساختی تعریف شده است و وظایف بخش‌های مرتبط با حوزه خط و زبان فارسی مانند شورای عالی اطلاع‌رسانی و دیگر مراکز تعریف شده است.

به گفته وی با سرمایه‌گذاری در این پروژه‌ها، مبانی کلیدی نویسه‌خوان فارسی به صورت بومی امکان‌پذیر خواهد شد و پایگاه‌های اطلاعاتی در حوزه دست‌نویس و تایپی فارسی قابل دسترس می‌شوند و از سوی دیگر نمونه دستخط‌های فارسی تعریف خواهد شد.

مینایی خاطرنشان کرد: از این رو در این حوزه نیاز به ایجاد یک پایگاه‌ها داده‌ها بود که قرار است شورای عالی اطلاع‌رسانی پروژه ایجاد پایگاه‌های داده برای نویسه­خوانی نوری حروف فارسی را از سال آینده آغاز کند.

گفتنی است نویسه‌خوان نوری(OCR) به عنوان تنها ابزار بازیابی اطلاعات متنی از تصویر، یکی از ابزارهای تبدیل اطلاعات موجود به صورت قابل استفاده و پردازش در رایانه‌هاست و ایجاد پایگاه‌های داده یکی از گام‌های نخستین تحقق این امر است.  

در حال حاضر به هنگام اسکن کردن یک متن، اطلاعات آن در قالب تصویر ذخیره می‌شود، ولی می‌توان با استفاده از برخی از نرم‌افزارها اطلاعات را در قالب‌های متنی ذخیره کرد. هم اکنون این برنامه‌ها درباره حروف فارسی وجود ندارد و قرار است با ایجاد پایگاه‌های داده نویسه‌خوان نوری، این ذخیره‌سازی متنی در زبان فارسی نیز امکان‌پذیر شود.

                                                                                                            منبع

                 

شناسا: شناسایی گوینده از روی صدا

"شناسا"، سامانه شناسایی گوینده از روی صدا است که می‌تواند در کاربردهای مختلف امنیتی و کنترل دسترسی، به تنهایی یا در کنار دیگر روش‌های امنیتی مورد استفاده قرار می‌گیرند.   

 

هدف شناسایی گوینده، استخراج اطلاعاتی از سیگنال گفتار که در بردارنده هویت منحصر به فرد گوینده است، می‌باشد. شناسایی گوینده شامل دو حوزه تعیین هویت(identification) و تصدیق هویت(verification) است که در تعیین هویت گوینده، فرد از روی صحبت کردن شناسایی می‌شود و در تصدیق هویت، ادعای فرد مبنی بر اینکه چه کسی است، تایید یا رد می‌شود. 

 

شناسایی گوینده از روی صدا با توجه به اینکه صدای فرد همواره همراه وی بوده و معایبی مانند گم شدن و دزدیده شدن را ندارد و می‌تواند بدون حضور فیزیکی و از راه دور (مانند پشت تلفن) مورد استفاده قرار گیرد، به سایر روش‌ها مزیت دارد. 

 کاربردهای شناسا

کنترل دسترسی از راه دور و استفاده از گفتار به عنوان یک رمز عبور (ورود به داخل اتاق، دسترسی به رایانه یا دستگاه خاص، تایید اعتبار در تراکنش‌های تلفنی مانند تلفن بانک و ... )

جستجو و شناسایی مجرمین از روی صدا

ردیابی مکالمات جهت شناسایی مظنونین (خط تلفن، ماهواره و ... )

نظارت بر مکالمات و گفتگوها به منظور اعمال قانون 

 

لازم به ذکر است که "شناسا" یکی از محصولات شرکت "عصر گویش" بوده و به همت دکتر بحرانی و سایر همکارانشون تهیه شده.
                                                                                                            منبع

Text to Speech

در لینک زیر می تونید یه متن فارسی رو تایپ یا کپی کنید سپس با کلیک بر روی "play text" آدیوی متن رو بشنوید.  

البته این برنامه ی تبدیل text به speech همچین بدون نقص هم نیست، مثلا اگه جمله ی سوالی رو بهش بدین آهنگ جمله درست رعایت نمیشه، یا نشانه های علامت گذاری رو هم میخونه، یا گاهی کسره ی اضافه رو به اشتباه حذف یا اضافه میکنه و . . . 

این نشون میده علی رغم کارهای زیادی که تو زمینه ی تبدیل text به speech صورت گرفته اما هنوز خیلی جای کار هست. 

  

 

لینک تبدیل متن به گفتار

شماره نخست مجله "نویسه"

"نویسه"،اولین مجله چندرسانه ای زبان‌شناسی، که قبلا در موردش صحبت کرده بودم شماره اولش با عنوان "هیچ" منتشر شده که از لینک زیر قابل دانلوده.


دانلود "نویسه"


"نویسه" همچنین طی فراخوانی از تمامی استادان، دانشجویان و پژوهشگران حوزه زبان و زبان‌شناسی دعوت کرده تا مطالب خودشون رو برای انتشار در شماره جدید به آدرس info@neveeseh.com ارسال کنند.