कॉर्पस भाषाविज्ञान
(पाठसंग्रह भाषाविज्ञान से अनुप्रेषित)
नेविगेशन पर जाएँ
खोज पर जाएँ
भाषाशास्त्र में वृहद एवं सुसंगठित पाठ (टेक्स्ट) को पाठसंग्रह या कॉर्पस (corpus) कहते हैं। आज के एलेक्ट्रानिक युग में पाठसंग्रह को एलेक्ट्रानिक प्रारूप में संग्रहित किया जाता है एवं संगणक द्वारा इसकी बहुविध जाँच-पड़ताल एवं प्रसंस्करण किया जाता है। इस प्रकार का पाठसंग्रह सांख्यिकीय विश्लेषण करने, परिकल्पना-परीक्षण, शब्दों के प्रयोग की आवृत्ति निकालने तथा भाषायी नियमों की जाँच के लिये प्रयुक्त होते हैं।
इन्हें भी देखें
- पाठसंग्रह (कॉर्पस)
- समानान्तर पाठसंग्रह (पैरेलेल कॉर्पोरा)
- सुसंगतता (कॉनकार्डैन्स)
- बारंबारता के अनुसार शब्द सूची
- अनुवाद स्मृति (ट्रान्सलेशन मेमोरी)
बाहरी कड़ियाँ
- कार्पस : एक संकल्पना (प्रयास, हिन्दी चिट्ठा)
- कॉर्पस भाषाविज्ञान (डॉ॰ काजल बाजपेयी)
- हिंदी शब्दतंत्र
- Language Processing and Corpus Linguisticsसाँचा:category handlerसाँचा:main otherसाँचा:main other[dead link] (Prof R N Shrivastava Memorial Lecture Kendriya Hindi Sansthan, Agra, 22nd March 2010)
- AskOxford.com the composition and use of the Oxford Corpus
- Bookmarks for Corpus-based Linguists -- very comprehensive site with categorized and annotated links to language corpora, software, references, etc.
- Corpora discussion list
- Freely-available, web-based corpora (100 million - 400 million words each): American (COCA), British (BNC), TIME, Spanish, Portuguese
- Manuel Barbera's overview site
- Przemek Kaszubski's list of references
- DMCBC.com
- Datum Multilanguage Corpora Based on chinese free sample download
- Corpus4u Community a Chinese online forum for corpus linguistics
- McEnery and Wilson's Corpus Linguistics Page
- Corpus Linguistics with R mailing list
- Research and Development Unit for English Studies
- Survey of English Usage
- The Centre for Corpus Linguistics at Birmingham University
- Gateway to Corpus Linguistics on the Internet: an annotated guide to corpus resources on the web
- Biomedical corpora
- Linguistic Data Consortium, a major distributor of corpora
- Penn Parsed Corpora of Historical English
- Corsis: (formerly Tenka Text) an open-source (GPLed) corpus analysis tool
- ICECUP and Fuzzy Tree Fragments
- Research and Development Unit for English Studies
- Discussion group text mining