ipython helloworld!

crazyyanhcao · crazyyanhcao · commit ce8c0e1fa3e7 · 2017-05-27T18:03:26.000+08:00
diff --git a/ipython_analysis_newwordfind.ipynb b/ipython_analysis_newwordfind.ipynb
@@ -0,0 +1,304 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 22,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "原标题形势严峻这个地方书记市长纪委书记为何连续空降市委书记市长市委副书记接连落马的广东江门市政治生态修复从补齐关键岗位开始在连续迎来空降市委书记市长候选人后江门新一任纪委书记近日也到岗了值得关注的是他也是从省里空降的还是纪检部门这位新纪委书记叫项天保任职省纪委年在案例管理派驻机构巡视部门等关键岗位都工作过经验十分丰富去年底江门成立市委巡察工作机构时任省委巡视办副主任的项天保亲赴江门参加了启动仪式长安街知事此前曾介绍过江门是腐败的重灾区市委书记毛荣楷市长邓伟根市委副书记政法委书记邹家军市委常委王积俊市人大常委会副主任聂党权曾任市委副书记落马班子塌方全国罕见中央派来了一个沙瑞金省委书记又派来了一个田国富纪委书记这是人民的名义里的一个情节以此说明推动从严治党的迫切性江门的情况与此类似市委书记林应武市长候选人刘毅都是从省委组织部副部长任上调来江门的补位落马前任如今新纪委书记又从省级纪检部门调来从一个侧面也反映出地方反腐形势的严峻性就在项天保就任的会议上前任纪委书记胡钛也以新身份亮相他已经出任市委副书记政法委书记也就是说现在江门市委常委班子中有两名来自纪检系统的领导胡钛是军转干部年底刚刚调任江门市纪委书记他有两次救火经历一次是梅州一次是江门年梅州市委书记朱泽君和纪委书记李纯德相继被调离此后又相继被查媒体对两人内斗多有报道胡钛正是接替了李的梅州纪委书记职务而去年赴江门履新正是该市市委书记毛荣楷和市委副书记邹家军落马之后胡钛之前的江门市纪委书记周伟万也是一名老纪检在纪检政法战线工作了年今年初当选市政协主席面对从严治党的新形势和班子塌方的旧局面接力反腐任重道远近日召开的江门全市领导干部大会上广东省委常委组织部长邹铭根据省委书记胡春华同志的指示对全市领导干部提出三点要求其中特别指出——要进一步严明政治纪律和政治规矩营造良好的政治生态要保持干部队伍思想稳定和改革发展大局稳定积极引导广大干部群众把违纪违法的个人问题与江门整体工作区分开来不因人废事不因案划线不因此否定江门的工作影响江门的发展稳定营造良好的政治生态更好地推动发展无疑是江门工作当下的重中之重来源长安街知事责任编辑初晓慧文章关键词纪委书记市长纪检我要反馈保存网页\n"
+     ]
+    }
+   ],
+   "source": [
+    "# 测试代码(读取的数据是一篇新闻)\n",
+    "import numpy as np\n",
+    "import pandas as pd\n",
+    "import re\n",
+    "from numpy import log, min\n",
+    "import pymysql\n",
+    "f = open('/home/yanchao/PyCharmProject/TextSummary/news.txt', 'r')\n",
+    "s = f.read()\n",
+    "drop_dict = [u'，', u'\\n', u'。', u'、', u'：', u'(', u')', u'[', u']', u'.', u',', u' ', u'\\u3000', u'”', u'“', u'？', u'?',\n",
+    "             u'！', u'‘', u'’',u'(',u')',u'《',u'》', u'（',u'）',u'…',u'-',u'0',u'1',u'2',u'3',u'4',u'5',u'6',u'7',u'8',u'9',\n",
+    "             u':',u'q',u'w',u'e',u'r',u't',u'y',u'u',u'i',u'o',u'u',u'p',u'a',u's',u'd',u'f',u'g',u'h',u'j',u'k',u'l',u'z',\n",
+    "             u'x',u'c',u'v',u'b',u'n',u'm',u'<',u'>',u'@',u'!',u'#',u'$',u'%',u'^',u'&',u'*',u'/',u'?',u'~',u'Q',u'W',u'E',\n",
+    "             u'R',u'T',u'Y',u'U',u'I',u'O',u'P',u'A',u'S',u'D',u'F',u'G','H',u'J',u'K',u'L',u'Z',u'X',u'C',u'V',u'B',u'N',u'M',\n",
+    "             u'【',u'】',u'|',u'à',u'╰',u'{',u'=',u';',u',',u'\\ ',u' \\ ',u'\\\\',u'[',u']',u'﹌﹌﹌']\n",
+    "for i in drop_dict:  # 去掉标点字或者字段\n",
+    "    s = s.replace(i, '')\n",
+    "print(s)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 23,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[委    37\n",
+      "市    28\n",
+      "记    27\n",
+      "书    27\n",
+      "的    25\n",
+      "门    20\n",
+      "纪    20\n",
+      "江    17\n",
+      "任    14\n",
+      "是    14\n",
+      "部    11\n",
+      "长    10\n",
+      "政     9\n",
+      "一     9\n",
+      "副     8\n",
+      "来     8\n",
+      "省     8\n",
+      "年     7\n",
+      "治     7\n",
+      "从     7\n",
+      "人     7\n",
+      "检     6\n",
+      "作     6\n",
+      "新     6\n",
+      "工     6\n",
+      "也     6\n",
+      "个     6\n",
+      "了     6\n",
+      "严     5\n",
+      "保     5\n",
+      "     ..\n",
+      "类     1\n",
+      "思     1\n",
+      "金     1\n",
+      "老     1\n",
+      "央     1\n",
+      "统     1\n",
+      "下     1\n",
+      "见     1\n",
+      "问     1\n",
+      "规     1\n",
+      "武     1\n",
+      "式     1\n",
+      "身     1\n",
+      "据     1\n",
+      "级     1\n",
+      "例     1\n",
+      "毅     1\n",
+      "馈     1\n",
+      "自     1\n",
+      "源     1\n",
+      "系     1\n",
+      "迫     1\n",
+      "如     1\n",
+      "王     1\n",
+      "转     1\n",
+      "点     1\n",
+      "媒     1\n",
+      "俊     1\n",
+      "修     1\n",
+      "标     1\n",
+      "dtype: int64]\n"
+     ]
+    }
+   ],
+   "source": [
+    "min_count = 10\n",
+    "min_support = 30\n",
+    "min_s = 3\n",
+    "max_sep = 4\n",
+    "\n",
+    "t = []\n",
+    "t.append(pd.Series(list(s)).value_counts())\n",
+    "print(t)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 24,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "915\n"
+     ]
+    }
+   ],
+   "source": [
+    "tsum = t[0].sum() # 统计文本总字数\n",
+    "print(tsum)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 25,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "正在生成2字词...\n",
+      "正在生成3字词...\n",
+      "正在生成4字词...\n"
+     ]
+    }
+   ],
+   "source": [
+    "myre = {2: '(..)', 3: '(...)', 4: '(....)', 5: '(.....)', 6: '(......)', 7: '(.......)'}\n",
+    "rt = []  # 保存结果用\n",
+    "for m in range(2, max_sep + 1):\n",
+    "    print(u'正在生成%s字词...' % m)\n",
+    "    t.append([])\n",
+    "    for i in range(m):  # 生成所有可能的m字词\n",
+    "        t[m - 1] = t[m - 1] + re.findall(myre[m], s[i:])\n",
+    "\n",
+    "    t[m - 1] = pd.Series(t[m - 1]).value_counts()  # 逐词统计\n",
+    "    t[m - 1] = t[m - 1][t[m - 1] > min_count]  # 最小次数筛选\n",
+    "    tt = t[m - 1][:]\n",
+    "    for k in range(m - 1):\n",
+    "        '''map(function,*iterables);lambda关键字支持将函数赋值给变量的一个操作符 默认是返回的,所以不用再加return关键字'''\n",
+    "        qq = np.array(list(map(lambda ms: tsum * t[m - 1][ms] / t[m - 2 - k][ms[:m - 1 - k]] / t[k][ms[m - 1 - k:]],\n",
+    "                               tt.index))) > min_support  # 最小支持度筛选（凝固程度(PMI的最小值)）\n",
+    "        tt = tt[qq]\n",
+    "    rt.append(tt.index)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 26,
+   "metadata": {
+    "collapsed": true
+   },
+   "outputs": [],
+   "source": [
+    "def cal_S(sl):  # 信息熵计算函数;熵越大则丰富程度越高。\n",
+    "    return -((sl / sl.sum()).apply(log) * sl / sl.sum()).sum()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 27,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "正在进行2字词的最大熵筛选(2)...\n",
+      "正在进行3字词的最大熵筛选(0)...\n",
+      "正在进行4字词的最大熵筛选(0)...\n"
+     ]
+    }
+   ],
+   "source": [
+    "for i in range(2, max_sep + 1):  # print(i) 2,3,4\n",
+    "    print(u'正在进行%s字词的最大熵筛选(%s)...' % (i, len(rt[i - 2])))  # len()返回rt[]中保存的结果 # 信息论中保留最大的不确定性，也就是说让熵达到最大\n",
+    "    pp = []  # 保存所有的左右邻结果\n",
+    "    for j in range(i):\n",
+    "        pp = pp + re.findall('(.)%s(.)' % myre[i], s[j:]) # 正则匹配i个字的词\n",
+    "    pp = pd.DataFrame(pp).set_index(1).sort_index()  # 先排序，这个很重要，可以加快检索速度；DataFrame表格形结构类似与R语言的数据框\n",
+    "    index = np.sort(np.intersect1d(rt[i - 2], pp.index))  # 作交集;intersect1d()寻找交集；sort()返回数组的排序\n",
+    "    # 下面两句分别是左邻和右邻信息熵筛选\n",
+    "    # min_s录取词语的最低信息熵,信息熵越大越有可能独立成词\n",
+    "    index = index[np.array(list(map(lambda s: cal_S(pd.Series(pp[0][s]).value_counts()), index))) > min_s]\n",
+    "    rt[i - 2] = index[np.array(list(map(lambda s: cal_S(pd.Series(pp[2][s]).value_counts()), index))) > min_s]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 28,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [],
+   "source": [
+    "pd.DataFrame(pd.concat(t[1:])).to_csv('result.txt', header=False)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 33,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "书记,27\n",
+      "\n",
+      "委书,21\n",
+      "\n",
+      "江门,17\n",
+      "\n",
+      "市委,14\n",
+      "\n",
+      "纪委,12\n",
+      "\n",
+      "委书记,21\n",
+      "\n",
+      "纪委书,11\n",
+      "\n",
+      "纪委书记,11\n",
+      "\n"
+     ]
+    }
+   ],
+   "source": [
+    "for line in open('result.txt'):\n",
+    "    print(line)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "collapsed": true
+   },
+   "outputs": [],
+   "source": [
+    ""
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3.0
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.6.0"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 0
+}