Computational Linguistics, Sharif University of Technology

فرهنگ بسامدی بر اساس پیکره متنی زبان فارسی امروز

فرهنگ بسامدی بر اساس پیکره متنی زبان فارسی امروز منتشر شد

دکتر محمود بی جن خان

مهندس مهدی محسنی

فرهنگ بسامدی میزان کاربرد کلمات زبان را بر حسب فراوانی وقوع آنها در یک پیکره زبانی که نماینده آماری زبان است نشان می‌دهد. کلمات پربسامد و کم‌بسامد می‌توانند شاخص ارزشمندی برای پی بردن به مولفه‌های فرهنگی یک جامعه زبانی باشند. میزان بسامد کلمات در یک فرهنگ بسامدی تابع بازه زمانی است که پیکره فرهنگ در آن زمان گردآوری شده است. بنابراین اطلاعات موجود در فرهنگ بسامدی رابطه مستقیم با تحولات تاریخی یک جامعه زبانی دارد. امروزه فرهنگ بسامدی در تحقیقات بین‌رشته‌ای مانند آموزش زبان دوم به خارجیان، زبان‌شناسی نظری و کاربردی و فناوری‌های زبان در محیط رایانه از قبیل ترجمه ماشینی و طراحی مدل زبانی برای سامانه‌های پردازش گفتار کاربرد موثری دارد. فرهنگ بسامدی زبان فارسی امروز شامل بن‌واژه‌هایی از پیکره فرهنگ (پیکره مورد استفاده برای تهیه فرهنگ) است که فراوانی بیش 500 دارند. تعداد بن‌واژه‌های با فراوانی بیش از این مقدار در پیکره فرهنگ1868 مورد است. ذیل این بن‌واژه‌ها19987 کلمه که از نظر شکل نوشتاری و /یا برچسب واژگانی متفاوت هستند قرار گرفته است.بخش فرهنگ بر اساس حروف الفبا مرتب شده ولی برای دسترسی آسان به ترتیبِ بسامدیِ بن‌واژه‌ها،فهرست ترتیبی بن‌واژه‌ها بر اساس بسامد در فصلی جداگانه آورده شده است. به علت اهمیت هم‌نگاره‌ها در پردازش رایانه‌ای متون فارسی، هم‌نگاره‌هایی که نام کامل برچسب آنهادستاکم در یک مقوله (به جز کسره اضافه) متفاوت باشد در فصلی از کتاب فهرست شده‌اند.

برای اطلاعات بیشتر اینجا کلیک کنید

Paria Jamshidlou پنج‌شنبه 28 اردیبهشت‌ماه سال 1391 ساعت 22:33

2 نظر

DEFT Project

DARPA Creates DEFT Program to Make A Warfighter’s Life Easier

The Deep Exploration and Filtering of Text (DEFT) program was created to “assist warfighter with planning and decision-making by inferring implicit information in text, filtering redundancy and connecting like documents.”

The Defense Advanced Research Projects Agency (DARPA) will next this month
detail the union of advanced technologies from artificial intelligence,
computational linguistics, machine learning, natural-language fields it hopes to
bring together to build an automated system that will let analysts and others
better grasp meanings from large volumes of text documentation.

It all boils down to this, military operations officers have a difficult time searching through copious amounts of data in a short period of time. DARPA aims to combat that challenge with an automated and deep natural-language analysis that will process information almost effortlessly.

With personnel incapable of combing through just about 90% of the information that is dealt to them because of time constraints, invaluable data falls through the cracks. With the invention of the DEFT program, this sophisticated piece of intelligence will scan through material in order to discover the actionable information contained within them.

DEFT will also focus on changing the current landscape of linear processing, which is limited by the quantities of data in the stratosphere. DEFT will construct a more coordinated exploration of the available data. The program manager, Bonnie Dorr, put it best,

“Deft is attempting to create technology to make reliable inferences based on basic text. We want the ability to mitigate ambiguity in text by stripping away filters that can cloud meaning and by rejecting false information. To be successful, the technology needs to look beyond what is explicitly expressed in text to infer what is actually meant.”

Paria Jamshidlou یکشنبه 17 اردیبهشت‌ماه سال 1391 ساعت 00:35

2 نظر

سمینار معرفی دادگان فارسی

دانشگاه صنعتی شریف برگزار می‌کند:

معرفی دادگان زبان فارسی

محمدصادق رسولی

مدیر گروه پژوهشی دادگان زبان فارسی

چهارشنبه 13/02/ 91

ساعت 15-14

اتاق AVR

Paria Jamshidlou سه‌شنبه 12 اردیبهشت‌ماه سال 1391 ساعت 00:58

0 نظر

سومین هم‌اندیشی معنی‌شناسی

انجمن زبان‌شناسی ایران با همکاری دانشگاه آزاد اسلامی واحد کرج برگزار می‌کند:

سومین هم‌اندیشی معنی‌شناسی

دبیر علمی: دکتر کوروش صفوی

دبیر اجرایی: دکتر سپیده عبدالکریمی

سخنران‌ها:

دکتر پروانه خسروی‌زاده

دکتر ندا ازکیا

محسن باغبانی

دکتر کوروش صفوی

دکتر سپیده عبدالکریمی

بهلول علایی

دکتر علی فامیان

لازم به توضیح است که سرکار خانم دکتر خسروی‌زاده در نشست اول در خصوص موضوع ذهن، مغز و شناخت سخنرانی خواهند داشت و نشست سوم نیز با ریاست ایشان برگزار خواهد شد

این هم‌اندیشی یک روزه در تاریخ ۲۸ اردیبهشت ماه 1391 در دانشگاه آزاد واحد کرج برگزار خواهدشد.

جهت کسب اطلاعات بیشتر در خصوص مهلت و نحوه ثبت‌نام به وبسایت انجمن زبان‌شناسی ایران که از قسمت لینک همین صفحه قابل دسترس است مراجعه فرمایید.

Paria Jamshidlou دوشنبه 11 اردیبهشت‌ماه سال 1391 ساعت 19:52

4 نظر

Computational Linguistics, Sharif University of Technology

پیوندها

ابر برجسب

جدیدترین یادداشت‌ها

نویسندگان

بایگانی

فرهنگ بسامدی بر اساس پیکره متنی زبان فارسی امروز

DEFT Project

سمینار معرفی دادگان فارسی

سومین هم‌اندیشی معنی‌شناسی