Computational Linguistics, Sharif University of Technology

زبان‌شناسی رایانشی دانشگاه صنعتی شریف

Computational Linguistics, Sharif University of Technology

زبان‌شناسی رایانشی دانشگاه صنعتی شریف

فرهنگ بسامدی بر اساس پیکره متنی زبان فارسی امروز

فرهنگ بسامدی بر اساس پیکره متنی زبان فارسی امروز منتشر شد

دکتر محمود بی جن خان

مهندس مهدی محسنی

 

فرهنگ بسامدی میزان کاربرد کلمات زبان را بر حسب فراوانی وقوع آنها در یک پیکره زبانی که نماینده آماری زبان است نشان می‌دهد. کلمات پربسامد و کم‌بسامد می‌توانند شاخص ارزشمندی برای پی بردن به مولفه‌های فرهنگی یک جامعه زبانی باشند. میزان بسامد کلمات در یک فرهنگ بسامدی تابع بازه زمانی است که پیکره فرهنگ در آن زمان گردآوری شده است. بنابراین اطلاعات موجود در فرهنگ بسامدی رابطه مستقیم با تحولات تاریخی یک جامعه زبانی دارد. امروزه فرهنگ بسامدی در تحقیقات بین‌رشته‌ای مانند آموزش زبان دوم به خارجیان، زبان‌شناسی نظری و کاربردی و فناوری‌های زبان در محیط رایانه از قبیل ترجمه ماشینی و طراحی مدل زبانی برای سامانه‌های پردازش گفتار کاربرد موثری دارد. فرهنگ بسامدی زبان فارسی امروز شامل بن‌واژه‌هایی از پیکره فرهنگ (پیکره مورد استفاده برای تهیه فرهنگ) است که فراوانی بیش 500 دارند. تعداد بن‌واژه‌های با فراوانی بیش از این مقدار در پیکره فرهنگ1868 مورد است. ذیل این بن‌واژه‌ها19987 کلمه که از نظر شکل نوشتاری و /یا برچسب واژگانی متفاوت هستند قرار گرفته است.بخش فرهنگ بر اساس حروف الفبا مرتب شده ولی برای دسترسی آسان به ترتیبِ بسامدیِ بن‌واژه‌ها،فهرست ترتیبی بن‌واژه‌ها بر اساس بسامد در فصلی جداگانه آورده شده است. به علت اهمیت هم‌نگاره‌ها در پردازش رایانه‌ای متون فارسی، هم‌نگاره‌هایی که نام کامل برچسب آنهادستاکم در یک مقوله (به جز کسره اضافه) متفاوت باشد در فصلی از کتاب فهرست شده‌اند. 

  

برای اطلاعات بیشتر اینجا کلیک کنید

 

نظرات 2 + ارسال نظر
فاطمه دوشنبه 1 خرداد‌ماه سال 1391 ساعت 11:02

آقای محسنی یه وبلاگ داره، تو وبلاگش نوشته بود رو pos tagger کار کرده، انگار پایان نامه اش بوده. خیلی مفصل راجع بهش کار کرده بود.
در مورد pos tagger که search می کنی میبینی کلی مقاله و پایان نامه نوشته شده ولی نمی دونم چرا وقتی بهش نیاز داری حتی یکی هم نیست که کارت رو راه بیاندازه.

پریا چهارشنبه 3 خرداد‌ماه سال 1391 ساعت 12:02

برای اینکه تو ایران هیچکس حاضر نیست کارشو open source در اختیار بقیه قرار بده!

برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)
ایمیل شما بعد از ثبت نمایش داده نخواهد شد