第一章：绪论

课件

下载：绪论

基于Java的文本分析工具

环境搭建

JDK安装及配置

下载JDK（版本：jdk-8u***-windows-x64.exe）：https://www.oracle.com/java/technologies/downloads/
设置环境变量：

JAVA_HOME: C:\Program Files\Java\jdk1.8.0_301
CLASSPATH: %JAVA_HOME%\lib\tools.jar;%JAVA_HOME%\lib\dt.jar;
PATH: %JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;

测试是否安装成功

> java
> javac

Maven安装及配置

下载（apache-maven-<version>-bin.zip或apache-maven-<version>-bin.tar.gz）：https://maven.apache.org/download.cgi
解压至某个目录，比如：d:\dev\maven
配置环境变量Path，新增d:\dev\maven\bin
验证是否安装成功

> mvn -v

Repository路径配置（可选）：利用文本编辑器（比如：Sublime Text）打开Maven解压目录里中conf子目录下的settings.xml文件，配置localRepository项，实例如下：

<localRepository>D:/dev/maven/repo</localRepository>

集成开发环境Eclipse安装及配置

下载：https://www.eclipse.org/downloads/
配置：Windows–>Preferences–>Maven
- Installations: Add解压的Maven目录，并打上对勾，点击Apply；
- User Settings: 在User Settings中选择Browse，选择Maven解压目录里中conf子目录下的settings.xml文件，点击Apply and Close。

测试实例

File–>Project–>Maven–>Maven Project，点击Next；
点击Next；
修改Use default Workspace location，或直接点击Next；
选择maven-archetype-quickstart，点击Next；
输入Group Id（例如：cn.edu.bjut），Artifact Id（例如：text-mining）和Package（例如：cn.edu.bjut.chapter1），点击Finish。

POM配置文件

POM.xml

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0</modelVersion>
 
  <groupId>cn.edu.bjut</groupId>
  <artifactId>text-mining</artifactId>
  <version>0.0.1-SNAPSHOT</version>
  <packaging>jar</packaging>
 
  <name>text-mining</name>
  <url>http://maven.apache.org</url>
 
  <properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
  </properties>
 
  <dependencies>
    <dependency>
      <groupId>junit</groupId>
      <artifactId>junit</artifactId>
      <version>3.8.1</version>
      <scope>test</scope>
    </dependency>
 
    <dependency>
      <groupId>org.apache.opennlp</groupId>
      <artifactId>opennlp-tools</artifactId>
      <version>1.9.3</version>
    </dependency>
  </dependencies>
</project>

实例代码

TokenizerExample.java

package cn.edu.bjut.chapter1;
 
import opennlp.tools.tokenize.SimpleTokenizer;
 
public class TokenizerExample {
	public static void main(String[] args) {
		String text = "Text analysis and text mining are amazing!";
		SimpleTokenizer tokenizer = SimpleTokenizer.INSTANCE;
 
		System.out.println("Tokens:");
		String[] tokens = tokenizer.tokenize(text);
		for (String token : tokens) {
			System.out.println(token);
		}
	}
}

硕风徐徐

侧边栏

目录

第一章：绪论

课件

基于Java的文本分析工具

环境搭建

JDK安装及配置

Maven安装及配置

集成开发环境Eclipse安装及配置

测试实例

POM配置文件

实例代码

评论

硕风徐徐

用户工具

站点工具

侧边栏

目录

第一章：绪论

课件

基于Java的文本分析工具

环境搭建

JDK安装及配置

Maven安装及配置

集成开发环境Eclipse安装及配置

测试实例

POM配置文件

实例代码

评论

页面工具